Aller au contenu

Tolérance de panne (réflexions)


thrymartin

Messages recommandés

Hello,

Je ne pose pas des affirmations, je demande confirmation sur ce que je pense :

Une petite remarque sur le SHR avec tolérance de panne :

déjà, et on peut me dire que ce n'est pas de l'obsolescence programmée, mais les disques achetés presque en même temps semblent commencer à avoir des ennuis en même temps, à un certain nombre d'heures de fonctionnement (le 30 000 heures démarre ses problemes après le 34 000 etc) , et du coup je me demande même si "laisser allumé tout le temps" est vraiment mieux pour les disques que de les éteindre proprement pour ceux qui ont des besoins temporaires d'utilisation... (?) en tout cas, après une panne d'onduleur (parfois que la batterie), et des coupures EDF, ça sent le roussis même si c'est marqué "SAIN" partout : il faut contrôler et remplacer au moindre doute : j'explique ci dessous mes mésaventures (qui semblent bien se terminer... encore que ce ne soit pas fini... enfin on y est presque).

ensuite, il n'ya pas que les mauvais secteurs, il ya les tentatives d'écriture/lecture : quand ça foire sur un disque, au lieu d'insister, c'est un autre qui prend le relais pour reconstituer la donnée à lire : on peut donc dans une grappe avoir non pas un disque en sursis, mais... en fait 2 (voir tous) : on n'a pas réellement une tolérance de panne d'un disque, mais une tolérance de panne globale sur des zones sectorielles, que ce soient des secteurs HS, ou des difficultés de lecture/écriture : on va dire qu'on a une tolérance de panne sur la "capacité" d'un disque.

La conséquence, c'est qu'au moment de remplacer le disque le plus HS, vous en avez peut être au moins un autre qui ne vaut pas mieux ! et pendant la "réparation", avec un disque neuf, il peut vous lâcher, non pas comme on le lit souvent "parce que la charge de travail est forte à ce moment la" statistiquement, ça n'a pas de sens, mais parce que l'autre avait aussi DEJA un coup dans l'aile mais que c'était pallié par celui que vous êtes en train de remplacer ! du coup, pendant la "réparation", il risque bien d'y avoir des problèmes de fichier !
 

Je m'explique : soient 3 disques, 1 correct, 1 avec des stats d'erreurs moyennes, 1 avec des stats d'erreurs fortes que vous voulez remplacer.

soit le fichier X - il a toujours été lu, parce que quand ça essaye de lire sur un disque, et que ça ne vient pas, il lit sur l'autre; mais si vous supprimez un disque de la grappe, il ne peut plus lire ! et va donc partir dans des cycles d'érreurs de lecture, jusqu'à résultat correct ou... bad sector
dans tous les cas, il faudra le remplacer ensuite - mais y a des pertes de cheveux dans l'air.

D'ou ma reflexion ci dessus : on n'a pas réellement de tolérance de panne d'un disque ("un tombe en carafe, pas de soucis"), mais juste de la capacité d'un disque réparti sur la grappe, et ça fait toute la différence , parcequ'on peut se retrouver coincé

Y a t il une solution, avant de remplacer un disque, pour que les données soient bien disposées dans un endroit sur des disques ? c'est a dire que lorsque on remplace un disque, on soit sur que ce qui reste soit absolument lisible (en dégradé donc), pour reconstituer le disque remplacé ? (étant donné, qu'il faudra quand même dans la foulée, remplacer le disque suivant qui présente des problemes).
Un test smart complet le fait il ? ou le nas le fait il en tache de fond ? (il mouline souvent tout seul, est ce qu'il vérifie ce genre de chose, à l'image d'un windows qui maintenant fait de la defragmentation en toute transparence (le mot est mal choisi, puisqu'il le fait de maniere obscure sans qu'on s'en rende compte) ?)

Dernière remarque, puisque vous pensez bien "que ça sent le vécu", j'ai pour passer d'un NAS a un autre, réalisé une copie des données sur des disques tampon (prétés ou destinés a aller dans la grappe ensuite) et il me manquait la place d'un disque, j'ai donc tenté le diable, j'en ai retiré un de la grappe, pour copier en tampon toujours les données restantes (20%)
Donc je me suis retrouvé avec un volume en dégradé, et c'est la que je me suis rendu compte du probleme cité plus haut : un disque donné comme sain, sans jamais de bad sector, mais avec quelques erreurs de lecture/ecriture, pose des problemes et j'ai des echecs de copie, avec une augmentation du nombre d'erreurs sur ce disque, j'arrive finalement a récupérer les fichiers à probleme, jusqu'à ce que le volume soit déclaré planté avec le disque apparaissant en orange : en fait, il fonctionnait toujours, mais c'était la corde raide
Je continue mes copies et c'est presque fini, je touche du bois, avec de volume 'planté', et surprise : plus aucun probleme de lecture ????? (une fois en orange) -- ???? (la il doit me reste 500Go, j'avais 2.5 To a récupérer sur la grapp en dégradé)

c'est étrange quand même... sauf... si dans l'entre temps des copies, le systeme m'a remis un peu au propre le volume dégradé pour déplacer les données dans un endroit plus sur des disques ? (ce que j'évoquais ci dessus)

MORALITE : ça va sembler une évidence, mais n'attendez pas pour remplacer un disque, des les premieres erreurs, ça sent le roussis
Ensuite, faites en sorte de ne pas compter sur un volume dégradé si vous comptez faire une copie de transfert (je ne suis pas le seul qui ai essayé, ça a l'air de fonctionner, mais les cheveux blancs tombent) = quitte a se faire preter ou acheter un disque supplémentaire, il servira un jour de toute façon, parceque la durée de vie de nos disque est ridicule par rapport à ce qui est annoncé, disque pour NAS ou pas.

Et si vous le faites quand même, au moment ou vous rendez un volume dégradé, ben laissez le tranquille un bon moment (un ou 2 jours) avant de toucher le disque retiré : etre pret a le remettre dans la grappe tel quel en cas d'annonce grave sur la santé de votre NAS concernant un autre disque
La je ne suis sur de rien, certain vont hurler mais bon...

PS tout cela n'arriverai pas, si synology nous donnait un systeme ou l'on pourrait indiquer à l'avance le disque qu'on allait retirer; juste histoire qu'il vérifie toutes les données (lecture) à partir des autres seulement, et qu'il les déplace en lieu sur tant que tous les disques sont présents.
Juste histoire d'être sur que le volume dégradé soit lu entièrement sans catastrophe pendant la reconstitution du disque remplacé
(ou est ce qu'un test smart complet sur tous les disques pourrrait faire ce genre de chose ?)

A ce moment seulement on pourrait parler de la tolérance de panne d'un disque, et pas de la tolérance de panne de la capacité d'un disque...
PS : ça coute cher, mais une tolérance a 2 disques... statistiquement ça évite un tas de problème étant donné qu'on n'en change qu'un a la fois !

PS : soyez pas trop brutal dans vos réponses, si j'ai dit une énormité, et pas la peine de réindiquer que le NAS n'est pas une sauvegarde, non, ok, il n'en est pas une, mais j'ai deja perdu des données sur une sauvegarde qui avait planté, en fait, à moins de multiplier les sauvegardes, rien n'est une sauvegarde. ce que je fais avec plusieurs NAS : les données sensibles entre celui du boulot et chez moi, les données recreatives entre mon NAS et celui d'un ami... quitte a passer 2 mois pour récupérer ça par le net. (la même si on s'abonne a une sauvegarde en cloud, ça va pas si vite que ça)
Parceque vous ne pouvez pas demander à une personne d'acheter 10To de sauvegarde, ça coute 3 bras 
Donc on se débrouille en systeme D - et dans le systeme D, on peut avoir de mauvaises surprises, d'ou ma bafouille.

question subsidiaire, certains parlent de préparer un disque avant de le mettre dans une grappe avec l'utilitaire constructeur, d'autres que depuis les nouvelles versions de dsm, ce n'est plus la peine...  heu... qui a raison ?

merci

 

Lien vers le commentaire
Partager sur d’autres sites

Bonjour @thrymartin

Quel bagout 😉

Je suis très loin d'être un spécialiste dans le domaine du disque dur mais il me vient ces commentaires.

Il y a 3 heures, thrymartin a dit :

mais les disques achetés presque en même temps semblent commencer à avoir des ennuis en même temps, à un certain nombre d'heures de fonctionnement (le 30 000 heures démarre ses problemes après le 34 000 etc) , et du coup je me demande même si "laisser allumé tout le temps" est vraiment mieux pour les disques

Statistiquement cela me semble normal que la panne arrive majoritairement dans une fenêtre de durée établie. Ceci est vrai pour les disques durs mécaniques qui ont un taux de défaillance à peu près constant (après toutefois une période de rodage).Par contre un SSD aura un taux de défaillance ...aléatoire toujours à mon avis.

Éteindre le NAS n'est pas la solution. D'abord il n'est pas fait pour cela et en plus il est fortement sollicité pendant les arrêts et redémarrages. Par contre ce que l'on peut faire c'est remplacer un DD à la moitié de son espérance de vie. 

Il y a 3 heures, thrymartin a dit :

MORALITE : ça va sembler une évidence, mais n'attendez pas pour remplacer un disque, des les premieres erreurs, ça sent le roussis

Oui bien d'accord. J'ai eu le problème sur un disque qui ne signalait pas d'erreur dans une utilisation courante mais faisait planter la sauvegarde par Hyperbackup.

Je l'ai changé et la sauvegarde n'a plus planté. Depuis je fais une vérification régulière de l'état des disques dans le gestionnaire de stockage.

Lien vers le commentaire
Partager sur d’autres sites

Ta mésaventure vient surtout du fait que tu as volontairement dégradé une grappe RAID pour transférer des données d'un système vers un autre.

De là à remettre en cause la tolérance aux pannes, c'est un peu gros😅 Dans le cas présent, l'erreur est plutôt entre la chaise et le clavier.

Il y a au moins 3 points incontournables dans la gestion du stockage, dans l'ordre :

  1. Tester tous les disques avant la mise en production (avec un outil fourni par le constructeur ou badblocks),
  2. Avoir une sauvegarde à jour des données importantes,
  3. Remplacer systématiquement et rapidement le(s) disque(s) défectueux d'un volume dégradé avant d'engager tout autre opération pouvant aggraver la situation (copie, sauvegarde, ...)

Le point 1. est rarement appliqué, la fiabilité des disques étant relativement bonne et les utilisateurs grand public peu sensibilisés à cette vérification.

La sauvegarde est de très loin le point le plus important. Sans même parler de la perte d'un disque, le moindre anéantissement total des données d'un NAS (destruction physique, cryptolocker, ...) est tout de suite dramatique. Non pas qu'il faille sauvegarder toutes les données, mais au moins sauvegarder les données importantes. C'est valable pour tout stockage numérique, quelqu'il soit.

Concernant la probabilité que plusieurs disques tombent en panne en même temps, c'est plus fréquent qu'on pourrait le penser. Surtout avec des disques issus d'une même série (numéros de série consécutifs).

J'ai déjà eu le cas avec 9 disques sur 12 qui ont échoué au test badblocks. Après remplacement par des disques de même modèle (oui, je suis joueur et persévérant), tous ont passé le test avec succès.

Lien vers le commentaire
Partager sur d’autres sites

Jeff :

Bagout : c'est vrai que j'expose des problèmes divers, en plus j'explique le contexte, ça fait un peu salmigondi, mais comme souvent, certains exposent un problème avec des question du genre : "ma copie marche pas" ... trop c'est mieux que pas assez 🙂

J edétaille mes "impressions"

1- tolérance de panne n'est pas physique sur un disque (panne cachée par la redondance), mais globale (sauf shr2 ?)
2- obsolescence programmée ? (ça tombe en panne quasi en même temps)
3- quelle solution pour mettre ses données en lieu sur sur les restants au moment de remplacer un disque (smart ?)
(j'explique la 3 : hors la solution sauvegarde, qui oblige a réinitialiser le NAS puisque la reconstitution va foirer)
4- erreurs sur le volume dégradé, et une fois le disque fautif en carafe, plus d'erreurs ?
(NB : après avoir tout contrôlé, en fait, j'ai UN fichier qui n'a pas voulu se copier - j'ai la sauvegarde)
5- ne pas Eteindre pour diminuer le temps de fonctionnement des disques ? (une étude ?)

Piwil :
> Ta mésaventure vient surtout du fait que tu as volontairement dégradé une grappe

> RAID pour transférer des données d'un système vers un autre.

c'est pourtant EXACTEMENT ce qui se passe quand vous changez un disque défectueux !!!!!
et Donc, oui, je mets en garde qu'on n'a pas une tolérance de disque "physique", mais une tolérance globale

Puisqu'une grappe fonctionne correctement, parce qu'elle "échange" ses sources lors d'erreurs de lectures, comment serait il possible de changer un disque défectueux sans aller à la catastrophe !
Au moment même ou vous retirez le disque, vous perdez justement ces redondances qui vous permettait d'avoir un volume déclaré "sain" ! (bon, je sais que c'est un peu plus compliqué que ça, mais on peut pas avoir 6 To dans 4, pour caricaturer)

il ya la solution, chère, de la double tolérance, puisqu'on change un disque à la fois, problème résolu (?)
l'autre procédé serait de pouvoir n'avoir que des données sur des secteurs surs ! pour qu'à la reconstruction du disque, cela se passe sans casse.
ce pour je demandais si un test smart complet le réalisait, ou si il y avait un autre moyen ? (de déplacement des données sur un endroit sur du disque au moindre problème de lecture/écriture, et ce en scannant tout le volume)

merci.

sur les autres réflexions : 
PS : la préparation des disques serait inutile depuis les versions récentes de dsm; j'avais posé la question, si certains en parlent, c'est  qu'il doit y avoir une réalité derrière ça non ? une étude précise et complète la dessus serait aussi bienvenue...

et PS final  : bizarre : depuis que le disque en carafe s'est mis en orange avec l'alerte volume planté;, je n'ai plus eu une seule erreur de lecture ! je répète : tout va bien depuis que le système dégradé est devenu "planté" ?
(après contrôle, un seul fichier ne peut pas être copié) - alors que dans le gestionnaire du disque, le 3 est déclaré hors grappe... pas possible, sur 4 je retire le 2 et maintenant le 3 hors grappe et j'ai copié 3.5 To avec un seul fichier d'un Go qui ne passe pas ?

 

 

Modifié par thrymartin
Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

×
×
  • Créer...

Information importante

Nous avons placé des cookies sur votre appareil pour aider à améliorer ce site. Vous pouvez choisir d’ajuster vos paramètres de cookie, sinon nous supposerons que vous êtes d’accord pour continuer.