Anomalie #2983
ferméRaid 1 de galanga sur 1 patte
0%
Description
Depuis un reboot hw via le drac de galanga, un des deux disques du raid 1 a disparu. Il est probablement mort. Il faudrait remettre en état rapidement le Raid.
(April) root@galanga:~# hdparm /dev/sda /dev/sda: multcount = 0 (off) IO_support = 1 (32-bit) readonly = 0 (off) readahead = 256 (on) geometry = 243201/255/63, sectors = 3907029168, start = 0 (April) root@galanga:~# hdparm /dev/sdb /dev/sdb: SG_IO: bad/missing sense data, sb[]: f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 multcount = 0 (off) readonly = 0 (off) readahead = 256 (on) geometry = 1024/0/62, sectors = 0, start = 0 (April) root@galanga:~# hdparm /dev/sdc /dev/sdc: SG_IO: bad/missing sense data, sb[]: f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 multcount = 0 (off) readonly = 0 (off) readahead = 256 (on) geometry = 1024/0/62, sectors = 0, start = 0 (April) root@galanga:~# cat /proc/mdstat Personalities : [raid1] md0 : active raid1 sda2[0] 1953024888 blocks super 1.2 [2/1] [U_] unused devices: <none>
Détail de l'autre disque de la grappe (sda toujours fonctionnel):
=== START OF INFORMATION SECTION === Model Family: Western Digital RE4 Device Model: WDC WD2003FYYS-18W0B0 Serial Number: WD-WMAY03927214 LU WWN Device Id: 5 0014ee 0584c9fad Add. Product Id: DELL(tm) Firmware Version: 01.01D02 User Capacity: 2,000,398,934,016 bytes [2.00 TB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS (minor revision not indicated) SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Mon Mar 5 14:41:03 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Le modèle de la grappe semble être celui-ci : https://www.ldlc.com/fiche/PB00099276.html
Mis à jour par François Poulain il y a plus de 6 ans
En lien ?
# zgrep 'ata2:' /var/log/syslog.* /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 2.794690] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46 /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 8.493506] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 13.145463] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 18.518036] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 23.169989] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 28.542558] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 41.097246] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 51.474062] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 56.126019] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 61.498588] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 66.150529] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 71.523103] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 84.414070] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 84.414346] ata2: limiting SATA link speed to 1.5 Gbps /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 94.790889] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 99.442845] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 104.815416] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 109.467374] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 114.839938] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 127.730911] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 138.099725] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 142.751682] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 148.124258] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 152.776214] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 158.148785] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 19:45:08 galanga kernel: [ 171.039762] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 1.794083] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46 /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 7.488192] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 12.140148] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 17.512709] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 22.164680] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 27.537229] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 40.035894] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 50.412683] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 55.064642] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 60.437211] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 65.089170] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 70.461735] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 83.352707] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 83.352979] ata2: limiting SATA link speed to 1.5 Gbps /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 93.729527] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 98.381481] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 103.754059] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 108.406017] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 113.778592] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 126.669563] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 137.046381] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 141.698337] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 147.070936] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 151.722863] ata2: COMRESET failed (errno=-16) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 157.095432] ata2: link is slow to respond, please be patient (ready=0) /var/log/syslog.2.gz:Mar 4 23:34:41 galanga kernel: [ 169.986433] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Mis à jour par François Poulain il y a plus de 6 ans
Un scan des devices avec
# echo "- - -" > /sys/class/scsi_host/host1/scan
mène à la même conclusion.
Mis à jour par François Poulain il y a plus de 6 ans
Dans tous les cas, ok pour moi pour acheter un DD et le livrer chez l'hébergeur.
Mis à jour par François Poulain il y a plus de 6 ans
Je partirais là dessus : https://www.ldlc.com/fiche/PB00133400.html
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Peut être un autre modèle :
https://www.theregister.co.uk/2016/11/16/independent_disk_drive_failure_rates_from_backblaze/
The WDC WD20EFRX 2TB drive has a woeful record, with the worst failure rate of 8.2 per cent, followed by its WD30EFRX 3TB product at 6.1 per cent. Third from the bottom is Seagate’s ST4000DX000 4TB drive with a 4.9 per cent failure rate.
Une autre source donne 5.88% : https://www.backblaze.com/blog/hard-drive-failure-rates-q2-2016/
Mis à jour par Frédéric Couchet il y a plus de 6 ans
- Tracker changé de Demande à Anomalie
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
- Assigné à mis à Benjamin Drieu
- Version cible changé de Backlog à Mars 2018
Mis à jour par Benjamin Drieu il y a plus de 6 ans
- Statut changé de Nouveau à En cours de traitement
Courriel envoyé à free:
From: Benjamin Drieu <benjamin@drieu.org> To: noc@free.org Subject: Remplacement de disque dur pour le serveur de l'April CC: Admins d'APRIL <admins@april.org> Bonjour, le serveur de l'April, qui est hébergé par la fondation Free, a besoin d'une intervention curative pour remplacer un de ses disques durs en panne. Nous allons procéder à l'achat du disque dur pour remplacement, pourriez-vous SVP nous indiquer la procédure qui vous conviendrait le mieux pour son remplacement ? Si vous souhaitez intervenir vous-même sur le serveur, nous vous l'enverrons à l'adresse de votre choix, sinon n'hésitez pas à nous proposer un créneau pour que nous planifions une intervention auprès de notre équipe. Merci d'avance. Librement, Benjamin
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Les modèles de hdd ne courent pas les rues… Pourquoi ne pas prendre la même gamme que ce qu'on a pris pour Guarana (mais en 4To) pour remplacer ce disque :
https://www.ldlc-pro.com/fiche/PB00236227.html
Certes c'est du 5400tr/min qui sera monté en raid avec du 7200tr/min, mais ça marchera quand même.
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Sinon CPM semblait plutôt à faire confiance à Toshiba/Hitachi : Ce genre de modèle : https://www.ldlc-pro.com/fiche/PB00137526.html ? (en 7200tr/min cette fois ci)
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Zut, je viens de tomber là dessus sur internet : (c'est qu'un avis, mais bon)
I can tell you now with utmost certainty that the Toshiba DT01ACA series (Toshiba DT01ACA300) SUCK at reliability. Of 9 3tb Toshiba DT01ACA hdd's purchased 6 failed within a week or two (while loading data onto them) and very few actual hours use. Another (#7) failed last night with about 50 hours in total use. 4 with read/write corruption errors before total failure. The 3 including the one last night with the "click of death" in which I was not able to get all data off of before total failure.
OF 9 - 7 failed - I'd say your percentages of failure rate for the Toshiba DT01ACA series are just a tad off from real world failure rates.
Our Hitachi HDD's on the other hand have out lasted all others including WD, Seagatge and lastly Toshiba.
Mis à jour par Christian P. Momon il y a plus de 6 ans
Pour info, la dernière version des stats Backblaze : https://www.backblaze.com/blog/hard-drive-stats-for-2017/
Statistiquement, je préfère faire confiance à l'échantillon de Backblaze que celui « tombé d'internet » avec 9 disques ;****>
Vive le loto. Reste toujours les HGST…
Mis à jour par François Poulain il y a plus de 6 ans
Question con: ya pas la place pour 2 disques pour avoir un spare ?
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Il ne semblerait pas que ce soit possible : d'après dmidecode c'est un PowerEdge r210 II, et d'après la cheatsheet :
Jusqu’à deux disques durs SAS, SATA ou SSD de 3,5 pouces
Mis à jour par Benjamin Drieu il y a plus de 6 ans
Commande passée auprès du trésorier pour ce disque:
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
- Version cible changé de Mars 2018 à Avril 2018
Prendre rdv pour changer le disque ASAP, s'il y a trop d'indisponibilité, cpm est volontaire pour tenter la procédure (en backup seulement, son emploi du temps n'étant pas flexible).
Mis à jour par Frédéric Couchet il y a plus de 6 ans
Le disque dur a été livré au local.
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Pour rappel :
Nous somme sur place au Datacenter de Bezons, les lundi, mardi, mercredi, nous vous proposons de venir changer le/les disque/s après rendez-vous pour un des jours en question dans les semaines a venir. Rendez-vous a convenir, en dehors des dates de grève SNCF/RATP ;-)
Mis à jour par Benjamin Drieu il y a plus de 6 ans
- Assigné à changé de Benjamin Drieu à Quentin Gibeaux
RDV a été pris avec Free.org pour changer le disque. Ne pas oublier de noter en avance le numéro de série du bon disque pour être sûr de changer le bon !
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
- Version cible changé de Avril 2018 à Mai 2018
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Disque changé, resilver en cours pour 7-8h
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Je viens d'y penser mais sur les deux disques il y a deux partition, dont une de boot : je devrais peut être faire un dd de sda1 vers sdb1 ?
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
C'est fait.
(April) root@galanga:~# dd if=/dev/sda1 of=/dev/sdb1 974848+0 records in 974848+0 records out 499122176 bytes (499 MB) copied, 10.9947 s, 45.4 MB/s
Le resilver continue...
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
Pour info le disque mort était de ce modèle : https://www.ldlc.com/fiche/PB00099276.html
Mis à jour par Quentin Gibeaux il y a plus de 6 ans
- Statut changé de En cours de traitement à Résolu
Tout est vert \o/