Anomalie #2983: Raid 1 de galanga sur 1 patte - Admins - Gestionnaire de projets de l'April

Actions

Copier le lien

Anomalie #2983

fermé

Raid 1 de galanga sur 1 patte

Ajouté par Quentin Gibeaux il y a presque 7 ans. Mis à jour il y a plus de 6 ans.

Statut:

Fermé

Priorité:

Urgente

Assigné à:

Quentin Gibeaux

Catégorie:

Version cible:

Mai 2018

Début:

05/03/2018

Echéance:

% réalisé:

Temps estimé:

Difficulté:

2 Facile

Description

Depuis un reboot hw via le drac de galanga, un des deux disques du raid 1 a disparu. Il est probablement mort. Il faudrait remettre en état rapidement le Raid.

(April) root@galanga:~# hdparm /dev/sda

/dev/sda:
 multcount     =  0 (off)
 IO_support    =  1 (32-bit)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 243201/255/63, sectors = 3907029168, start = 0
(April) root@galanga:~# hdparm /dev/sdb

/dev/sdb:
SG_IO: bad/missing sense data, sb[]:  f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 multcount     =  0 (off)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 1024/0/62, sectors = 0, start = 0
(April) root@galanga:~# hdparm /dev/sdc

/dev/sdc:
SG_IO: bad/missing sense data, sb[]:  f0 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
 multcount     =  0 (off)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 1024/0/62, sectors = 0, start = 0
(April) root@galanga:~# cat /proc/mdstat 
Personalities : [raid1] 
md0 : active raid1 sda2[0]
      1953024888 blocks super 1.2 [2/1] [U_]

unused devices: <none>

Détail de l'autre disque de la grappe (sda toujours fonctionnel):

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE4
Device Model:     WDC WD2003FYYS-18W0B0
Serial Number:    WD-WMAY03927214
LU WWN Device Id: 5 0014ee 0584c9fad
Add. Product Id:  DELL(tm)
Firmware Version: 01.01D02
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Mar  5 14:41:03 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Actions

Copier le lien

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Priorité changé de Normale à Urgente

Actions

Copier le lien

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Le modèle de la grappe semble être celui-ci : https://www.ldlc.com/fiche/PB00099276.html

Actions

Copier le lien

Mis à jour par François Poulain il y a presque 7 ans

En lien ?

# zgrep 'ata2:' /var/log/syslog.* 
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [    2.794690] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [    8.493506] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   13.145463] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   18.518036] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   23.169989] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   28.542558] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   41.097246] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   51.474062] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   56.126019] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   61.498588] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   66.150529] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   71.523103] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   84.414070] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   84.414346] ata2: limiting SATA link speed to 1.5 Gbps
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   94.790889] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [   99.442845] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  104.815416] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  109.467374] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  114.839938] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  127.730911] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  138.099725] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  142.751682] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  148.124258] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  152.776214] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  158.148785] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 19:45:08 galanga kernel: [  171.039762] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [    1.794083] ata2: SATA max UDMA/133 abar m2048@0xc5204000 port 0xc5204180 irq 46
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [    7.488192] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   12.140148] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   17.512709] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   22.164680] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   27.537229] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   40.035894] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   50.412683] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   55.064642] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   60.437211] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   65.089170] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   70.461735] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   83.352707] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   83.352979] ata2: limiting SATA link speed to 1.5 Gbps
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   93.729527] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [   98.381481] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  103.754059] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  108.406017] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  113.778592] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  126.669563] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  137.046381] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  141.698337] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  147.070936] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  151.722863] ata2: COMRESET failed (errno=-16)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  157.095432] ata2: link is slow to respond, please be patient (ready=0)
/var/log/syslog.2.gz:Mar  4 23:34:41 galanga kernel: [  169.986433] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)

Actions

Copier le lien

Mis à jour par François Poulain il y a presque 7 ans

Un scan des devices avec

# echo "- - -" > /sys/class/scsi_host/host1/scan

mène à la même conclusion.

Actions

Copier le lien

Mis à jour par François Poulain il y a presque 7 ans

Dans tous les cas, ok pour moi pour acheter un DD et le livrer chez l'hébergeur.

Actions

Copier le lien

Mis à jour par François Poulain il y a presque 7 ans

Je partirais là dessus : https://www.ldlc.com/fiche/PB00133400.html

Actions

Copier le lien

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Peut être un autre modèle :
https://www.theregister.co.uk/2016/11/16/independent_disk_drive_failure_rates_from_backblaze/
The WDC WD20EFRX 2TB drive has a woeful record, with the worst failure rate of 8.2 per cent, followed by its WD30EFRX 3TB product at 6.1 per cent. Third from the bottom is Seagate’s ST4000DX000 4TB drive with a 4.9 per cent failure rate.
Une autre source donne 5.88% : https://www.backblaze.com/blog/hard-drive-failure-rates-q2-2016/

Actions

Copier le lien

Mis à jour par Frédéric Couchet il y a presque 7 ans

Tracker changé de Demande à Anomalie

Actions

Copier le lien

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Assigné à mis à Benjamin Drieu
Version cible changé de Backlog à Mars 2018

Actions

Copier le lien

#10

Mis à jour par Benjamin Drieu il y a presque 7 ans

Statut changé de Nouveau à En cours de traitement

Courriel envoyé à free:

From: Benjamin Drieu <benjamin@drieu.org>
To: noc@free.org
Subject: Remplacement de disque dur pour le serveur de l'April
CC: Admins d'APRIL <admins@april.org>

Bonjour,

le serveur de l'April, qui est hébergé par la fondation Free, a besoin
d'une intervention curative pour remplacer un de ses disques durs en
panne.  Nous allons procéder à l'achat du disque dur pour remplacement,
pourriez-vous SVP nous indiquer la procédure qui vous conviendrait le
mieux pour son remplacement ?

Si vous souhaitez intervenir vous-même sur le serveur, nous vous
l'enverrons à l'adresse de votre choix, sinon n'hésitez pas à nous
proposer un créneau pour que nous planifions une intervention auprès de
notre équipe.

Merci d'avance.

Librement,
Benjamin

Actions

Copier le lien

#11

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Les modèles de hdd ne courent pas les rues… Pourquoi ne pas prendre la même gamme que ce qu'on a pris pour Guarana (mais en 4To) pour remplacer ce disque :
https://www.ldlc-pro.com/fiche/PB00236227.html
Certes c'est du 5400tr/min qui sera monté en raid avec du 7200tr/min, mais ça marchera quand même.

Actions

Copier le lien

#12

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Sinon CPM semblait plutôt à faire confiance à Toshiba/Hitachi : Ce genre de modèle : https://www.ldlc-pro.com/fiche/PB00137526.html ? (en 7200tr/min cette fois ci)

Actions

Copier le lien

#13

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Zut, je viens de tomber là dessus sur internet : (c'est qu'un avis, mais bon)
I can tell you now with utmost certainty that the Toshiba DT01ACA series (Toshiba DT01ACA300) SUCK at reliability. Of 9 3tb Toshiba DT01ACA hdd's purchased 6 failed within a week or two (while loading data onto them) and very few actual hours use. Another (#7) failed last night with about 50 hours in total use. 4 with read/write corruption errors before total failure. The 3 including the one last night with the "click of death" in which I was not able to get all data off of before total failure.
OF 9 - 7 failed - I'd say your percentages of failure rate for the Toshiba DT01ACA series are just a tad off from real world failure rates.
Our Hitachi HDD's on the other hand have out lasted all others including WD, Seagatge and lastly Toshiba.

Actions

Copier le lien

#14

Mis à jour par Christian P. Momon il y a presque 7 ans

Pour info, la dernière version des stats Backblaze : https://www.backblaze.com/blog/hard-drive-stats-for-2017/

Statistiquement, je préfère faire confiance à l'échantillon de Backblaze que celui « tombé d'internet » avec 9 disques ;****>

Vive le loto. Reste toujours les HGST…

Actions

Copier le lien

#15

Mis à jour par François Poulain il y a presque 7 ans

Question con: ya pas la place pour 2 disques pour avoir un spare ?

Actions

Copier le lien

#16

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Il ne semblerait pas que ce soit possible : d'après dmidecode c'est un PowerEdge r210 II, et d'après la cheatsheet :
Jusqu’à deux disques durs SAS, SATA ou SSD de 3,5 pouces

Actions

Copier le lien

#17

Mis à jour par Benjamin Drieu il y a plus de 6 ans

Commande passée auprès du trésorier pour ce disque:

https://www.ldlc-pro.com/fiche/PB00214143.html

Actions

Copier le lien

#18

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Version cible changé de Mars 2018 à Avril 2018

Prendre rdv pour changer le disque ASAP, s'il y a trop d'indisponibilité, cpm est volontaire pour tenter la procédure (en backup seulement, son emploi du temps n'étant pas flexible).

Actions

Copier le lien

#19

Mis à jour par Frédéric Couchet il y a plus de 6 ans

Le disque dur a été livré au local.

Actions

Copier le lien

#20

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Pour rappel :

Nous somme sur place au Datacenter de Bezons, les lundi, mardi, mercredi,
nous vous proposons de venir changer le/les disque/s après rendez-vous
pour un des jours en question dans les semaines a venir.
Rendez-vous a convenir, en dehors des dates de grève SNCF/RATP ;-)

Actions

Copier le lien

#21

Mis à jour par Benjamin Drieu il y a plus de 6 ans

Assigné à changé de Benjamin Drieu à Quentin Gibeaux

RDV a été pris avec Free.org pour changer le disque. Ne pas oublier de noter en avance le numéro de série du bon disque pour être sûr de changer le bon !

Actions

Copier le lien

#22

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Version cible changé de Avril 2018 à Mai 2018

Actions

Copier le lien

#23

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Disque changé, resilver en cours pour 7-8h

Actions

Copier le lien

#24

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Je viens d'y penser mais sur les deux disques il y a deux partition, dont une de boot : je devrais peut être faire un dd de sda1 vers sdb1 ?

Actions

Copier le lien

#25

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

C'est fait.

(April) root@galanga:~#  dd if=/dev/sda1 of=/dev/sdb1
974848+0 records in
974848+0 records out
499122176 bytes (499 MB) copied, 10.9947 s, 45.4 MB/s

Le resilver continue...

Actions

Copier le lien

#26

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Pour info le disque mort était de ce modèle : https://www.ldlc.com/fiche/PB00099276.html

Actions

Copier le lien

#27

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Statut changé de En cours de traitement à Résolu

Tout est vert \o/

Actions

Copier le lien

#28

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Statut changé de Résolu à Fermé

Actions

Copier le lien

Formats disponibles : Atom PDF

Projet

Général

Profil

Admins

Rapports personnalisés

Anomalie #2983

Raid 1 de galanga sur 1 patte

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par François Poulain il y a presque 7 ans

Mis à jour par François Poulain il y a presque 7 ans

Mis à jour par François Poulain il y a presque 7 ans

Mis à jour par François Poulain il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Frédéric Couchet il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Benjamin Drieu il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Christian P. Momon il y a presque 7 ans

Mis à jour par François Poulain il y a presque 7 ans

Mis à jour par Quentin Gibeaux il y a presque 7 ans

Mis à jour par Benjamin Drieu il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Frédéric Couchet il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Benjamin Drieu il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

Mis à jour par Quentin Gibeaux il y a plus de 6 ans