Projet

Général

Profil

Actions

Anomalie #2983

fermé

Raid 1 de galanga sur 1 patte

Ajouté par Quentin Gibeaux il y a plus de 6 ans. Mis à jour il y a plus de 6 ans.

Statut:
Fermé
Priorité:
Urgente
Assigné à:
Catégorie:
-
Version cible:
Début:
05/03/2018
Echéance:
% réalisé:

0%

Temps estimé:
Difficulté:
2 Facile

Description

Depuis un reboot hw via le drac de galanga, un des deux disques du raid 1 a disparu. Il est probablement mort. Il faudrait remettre en état rapidement le Raid.

(April) root@galanga:~# hdparm /dev/sda

/dev/sda:
 multcount     =  0 (off)
 IO_support    =  1 (32-bit)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 243201/255/63, sectors = 3907029168, start = 0
(April) root@galanga:~# hdparm /dev/sdb

/dev/sdb:
SG_IO: bad/missing sense data, sb[]:  f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 multcount     =  0 (off)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 1024/0/62, sectors = 0, start = 0
(April) root@galanga:~# hdparm /dev/sdc

/dev/sdc:
SG_IO: bad/missing sense data, sb[]:  f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 multcount     =  0 (off)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 1024/0/62, sectors = 0, start = 0
(April) root@galanga:~# cat /proc/mdstat 
Personalities : [raid1] 
md0 : active raid1 sda2[0]
      1953024888 blocks super 1.2 [2/1] [U_]

unused devices: <none>

Détail de l'autre disque de la grappe (sda toujours fonctionnel):

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE4
Device Model:     WDC WD2003FYYS-18W0B0
Serial Number:    WD-WMAY03927214
LU WWN Device Id: 5 0014ee 0584c9fad
Add. Product Id:  DELL(tm)
Firmware Version: 01.01D02
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Mar  5 14:41:03 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Priorité changé de Normale à Urgente

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Le modèle de la grappe semble être celui-ci : https://www.ldlc.com/fiche/PB00099276.html

Mis à jour par François Poulain il y a plus de 6 ans

En lien ?

# zgrep 'ata2:' /var/log/syslog.* 
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [    2.794690] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [    8.493506] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   13.145463] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   18.518036] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   23.169989] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   28.542558] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   41.097246] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   51.474062] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   56.126019] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   61.498588] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   66.150529] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   71.523103] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   84.414070] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   84.414346] ata2: limiting SATA link speed to 1.5 Gbps
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   94.790889] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   99.442845] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  104.815416] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  109.467374] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  114.839938] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  127.730911] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  138.099725] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  142.751682] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  148.124258] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  152.776214] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  158.148785] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  171.039762] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [    1.794083] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [    7.488192] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   12.140148] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   17.512709] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   22.164680] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   27.537229] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   40.035894] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   50.412683] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   55.064642] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   60.437211] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   65.089170] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   70.461735] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   83.352707] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   83.352979] ata2: limiting SATA link speed to 1.5 Gbps
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   93.729527] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   98.381481] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  103.754059] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  108.406017] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  113.778592] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  126.669563] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  137.046381] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  141.698337] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  147.070936] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  151.722863] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  157.095432] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  169.986433] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)

Mis à jour par François Poulain il y a plus de 6 ans

Un scan des devices avec

# echo "- - -" > /sys/class/scsi_host/host1/scan

mène à la même conclusion.

Mis à jour par François Poulain il y a plus de 6 ans

Dans tous les cas, ok pour moi pour acheter un DD et le livrer chez l'hébergeur.

Mis à jour par François Poulain il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Peut être un autre modèle :
https://www.theregister.co.uk/2016/11/16/independent_disk_drive_failure_rates_from_backblaze/
The WDC WD20EFRX 2TB drive has a woeful record, with the worst failure rate of 8.2 per cent, followed by its WD30EFRX 3TB product at 6.1 per cent. Third from the bottom is Seagate’s ST4000DX000 4TB drive with a 4.9 per cent failure rate.
Une autre source donne 5.88% : https://www.backblaze.com/blog/hard-drive-failure-rates-q2-2016/

Mis à jour par Frédéric Couchet il y a plus de 6 ans

  • Tracker changé de Demande à Anomalie

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Assigné à mis à Benjamin Drieu
  • Version cible changé de Backlog à Mars 2018

Mis à jour par Benjamin Drieu il y a plus de 6 ans

  • Statut changé de Nouveau à En cours de traitement

Courriel envoyé à free:

From: Benjamin Drieu <benjamin@drieu.org>
To: noc@free.org
Subject: Remplacement de disque dur pour le serveur de l'April
CC: Admins d'APRIL <admins@april.org>

Bonjour,

le serveur de l'April, qui est hébergé par la fondation Free, a besoin
d'une intervention curative pour remplacer un de ses disques durs en
panne.  Nous allons procéder à l'achat du disque dur pour remplacement,
pourriez-vous SVP nous indiquer la procédure qui vous conviendrait le
mieux pour son remplacement ?

Si vous souhaitez intervenir vous-même sur le serveur, nous vous
l'enverrons à l'adresse de votre choix, sinon n'hésitez pas à nous
proposer un créneau pour que nous planifions une intervention auprès de
notre équipe.

Merci d'avance.

Librement,
Benjamin

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Les modèles de hdd ne courent pas les rues… Pourquoi ne pas prendre la même gamme que ce qu'on a pris pour Guarana (mais en 4To) pour remplacer ce disque :
https://www.ldlc-pro.com/fiche/PB00236227.html
Certes c'est du 5400tr/min qui sera monté en raid avec du 7200tr/min, mais ça marchera quand même.

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Sinon CPM semblait plutôt à faire confiance à Toshiba/Hitachi : Ce genre de modèle : https://www.ldlc-pro.com/fiche/PB00137526.html ? (en 7200tr/min cette fois ci)

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Zut, je viens de tomber là dessus sur internet : (c'est qu'un avis, mais bon)
I can tell you now with utmost certainty that the Toshiba DT01ACA series (Toshiba DT01ACA300) SUCK at reliability. Of 9 3tb Toshiba DT01ACA hdd's purchased 6 failed within a week or two (while loading data onto them) and very few actual hours use. Another (#7) failed last night with about 50 hours in total use. 4 with read/write corruption errors before total failure. The 3 including the one last night with the "click of death" in which I was not able to get all data off of before total failure.
OF 9 - 7 failed - I'd say your percentages of failure rate for the Toshiba DT01ACA series are just a tad off from real world failure rates.
Our Hitachi HDD's on the other hand have out lasted all others including WD, Seagatge and lastly Toshiba.

Mis à jour par Christian P. Momon il y a plus de 6 ans

Pour info, la dernière version des stats Backblaze : https://www.backblaze.com/blog/hard-drive-stats-for-2017/

Statistiquement, je préfère faire confiance à l'échantillon de Backblaze que celui « tombé d'internet » avec 9 disques ;****>

Vive le loto. Reste toujours les HGST…

Mis à jour par François Poulain il y a plus de 6 ans

Question con: ya pas la place pour 2 disques pour avoir un spare ?

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Il ne semblerait pas que ce soit possible : d'après dmidecode c'est un PowerEdge r210 II, et d'après la cheatsheet :
Jusqu’à deux disques durs SAS, SATA ou SSD de 3,5 pouces

Mis à jour par Benjamin Drieu il y a plus de 6 ans

Commande passée auprès du trésorier pour ce disque:

https://www.ldlc-pro.com/fiche/PB00214143.html

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Version cible changé de Mars 2018 à Avril 2018

Prendre rdv pour changer le disque ASAP, s'il y a trop d'indisponibilité, cpm est volontaire pour tenter la procédure (en backup seulement, son emploi du temps n'étant pas flexible).

Mis à jour par Frédéric Couchet il y a plus de 6 ans

Le disque dur a été livré au local.

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Pour rappel :

Nous somme sur place au Datacenter de Bezons, les lundi, mardi, mercredi,
nous vous proposons de venir changer le/les disque/s après rendez-vous
pour un des jours en question dans les semaines a venir.
Rendez-vous a convenir, en dehors des dates de grève SNCF/RATP ;-)

Mis à jour par Benjamin Drieu il y a plus de 6 ans

  • Assigné à changé de Benjamin Drieu à Quentin Gibeaux

RDV a été pris avec Free.org pour changer le disque. Ne pas oublier de noter en avance le numéro de série du bon disque pour être sûr de changer le bon !

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Version cible changé de Avril 2018 à Mai 2018

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Disque changé, resilver en cours pour 7-8h

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Je viens d'y penser mais sur les deux disques il y a deux partition, dont une de boot : je devrais peut être faire un dd de sda1 vers sdb1 ?

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

C'est fait.

(April) root@galanga:~#  dd if=/dev/sda1 of=/dev/sdb1
974848+0 records in
974848+0 records out
499122176 bytes (499 MB) copied, 10.9947 s, 45.4 MB/s

Le resilver continue...

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Pour info le disque mort était de ce modèle : https://www.ldlc.com/fiche/PB00099276.html

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Statut changé de En cours de traitement à Résolu

Tout est vert \o/

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Statut changé de Résolu à Fermé
Actions

Formats disponibles : Atom PDF