Niveau :
Résumé : smartmontool ; smartd
Les disques ont une durée de vie très courte, pendant 5 ans j'ai eu une moyenne d'un disque grillé par an ! Google a quelques statistiques très intéressantes à ce sujet Ici et en résumé ici
Maintenant le rythme s'est un peu calmé, mais je redoute le prochain crash. Les solutions sont assez simple : tout d'abord faire un raid ET le monitorer. Mais si vous n'avez as les moyens ou si vous vous voulez faire encore mieux, vous pouvez surveiller directement vos disques. En effet, il existe un standard implémenté sur tous les disques nommés smart.
Pour surveiller vos disques c'est simple
# adaptez à votre distribution ;-) $ apt-get install smartmontools
Vous aurez alors un démon qui surveillera l'état de vos disques et vous préviendra lorsqu'un seuil est atteint (température, nombre d'erreurs ...). Par défaut il scanne vos disques au démarrage pour savoir lesquels monitorer. Si cela vous ennuie, vous pouvez le spécifier un par un dans le fichier de configuration /etc/smartd.conf, la man de smartd et smartd.conf vous renseignera mieux que moi que sur son format. Ensuite si un problème survient, il vous enverra un mail, généralement à root comme indiqué dans la configuration.
Et le Diagnostic ?
Vous aurez droit aux alertes de température, en général ce n'est pas grave (les statistiques nous disent que les disques supportent bien plus que ce que disent les constructeurs). Vous aurez aussi les alertes disant que votre disque a eu des erreurs de lecture (ecc ou correctible error) qui sont en pratiques corrigées toutes seules, elles indiquent seulement que votre disque vieillit.
Ensuite, un peu plus grave plus grave, lorsque vous tomberez sur des erreurs non corrigées. Bien qu'en général cela n'impacte pas vraiment le fonctionnement de votre machine (perte de votre tête sur vos photos de vacances), cela veut dire que vous allez prochainement avoir des problèmes. Bien sûr prochainement ne veut rien dire, j'ai vu des disques tenir dans cet état plus d'un an. Si vous êtes sur un service ultra critique, rachetez, voire changez le disque dans votre raid. Si vous êtes chez vous, il est peut-être temps de penser au raid (même temporaire, le temps que le disque grille).
Enfin, l'état le plus grave (juste avant celui des logs noyau qui indique qu'il a des problème sur le bus), c'est lorsque SMART vous indique que le disque va griller dans les 24h (il prévient c'est déjà bien). Cette prédiction est assez réaliste. J'ai déjà vu ce cas deux fois et effectivement, le lendemain la machine ne pouvait plus booter. Vous savez ce qu'il vous reste à faire !
PS : Et si c'est trop tard, lisez un autre article qui vous expliquera comment à partir de secteurs abîmés on peut retrouver le fichier affecté voire comment forcer la réallocation des secteurs.
Comments