Project

General

Profile

Anomalie #1282

disk fail sur pavot.april.org

Added by Loïc Dachary over 7 years ago. Updated over 7 years ago.

Status:
Fermé
Priority:
Immédiate
Category:
Task
Target version:
Start date:
05/25/2013
Due date:
05/31/2013
% Done:

100%

Estimated time:
Spent time:
Difficulté:
2 Facile

Description

Back to normal

Done:

  • mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013
  • acheter deux disque SATA de 1TB 3.5'' ( commande 30527125589V )
  • demander a Maxence d'aller remplacer le disque au datacenter de Rennes
  • check nginx : OK (loic)
  • check bots : OK (loic)
  • check lamp : OK (loic)
  • check spamvir : OK (vx)
  • check mail : OK (vx)
  • check harmine : Semble ok (fred)
  • check amphetamine : OK (loic)
  • check ergine : Coupée (kankan)
  • check munin : OK, mêmes infos que sur ns1

pavot IDRAC dit dans l'event log:

Critical    05/25/2013 08:07:23    Storage Drive 0: 
Drive Slot sensor for Storage, drive fault was asserted

poweredge-r300_Owner manual dit que
Drive failed                             Blinks amber four times per second.

La panne n'a pas été transparente, le syslog montre:
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00
May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371
May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266
May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6
May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267

May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00
May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739
May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6.
May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called.
May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal
May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only
May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00
May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147
May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted


Files

idrac.png (60.7 KB) idrac.png Loïc Dachary, 06/03/2013 12:29 AM

History

#1

Updated by Loïc Dachary over 7 years ago

remonter /var qui est en readonly

for i in dbus atd cron rsyslog ; do /etc/init.d/$i stop ; done
/etc/init.d/munin-node stop
/etc/init.d/openvpn stop
umount /var
mount /var
for i in dbus atd cron rsyslog ; do /etc/init.d/$i start ; done
/etc/init.d/munin-node start
/etc/init.d/openvpn start

#2

Updated by Loïc Dachary over 7 years ago

stop les vserver

/etc/init.d/util-vserver stop

vérifier l'état du disque
umount /srv
root@pavot:~# fsck /dev/sda6
fsck 1.41.3 (12-Oct-2008)
e2fsck 1.41.3 (12-Oct-2008)
/dev/sda6 contient un système de fichiers comportant des erreurs, vérification forcée.
Passe 1 : vérification des i-noeuds, des blocs et des tailles
des i-noeuds qui faisaient partie d'une liste chaînée d'orphelins corrompue ont été repérés. Corriger<o>? oui

l'i-noeud 21889104 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889171 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889525 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889569 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889579 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889622 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21889858 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 21897220 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 22192440 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 22192596 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 22192632 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 22192734 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 22602046 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 23617887 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.

l'i-noeud effacé 31048583 a un dtime à zéro. Corriger<o>? oui

l'i-noeud 45917714 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 50455924 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 50455980 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 50456075 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 50456076 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 56772234 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878469 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878470 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878472 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878473 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878474 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878476 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878477 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878481 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878483 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878489 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878490 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
l'i-noeud 58878491 fait partie de la liste des i-noeuds orphelins. CORRIGÉ.
Passe 2 : vérification de la structure des répertoires

Passe 3 : vérification de la connectivité des répertoires
Passe 4 : vérification des compteurs de référence
Passe 5 : vérification de l'information du sommaire de groupe
différences de bitmap de blocs:  -87572848 -(87575184--87575188) -87575313 -(87575514--87575519) -(87575540--87575543) -(87575554--87575559) -(87576088--87576095) -(87576122--87576141) -87577241 -(87577606--87577607) -(87578083--87578087) -87604167 -(87613260--87613300) -(87613874--87613997) -(87614024--87614032) -87614034 -(87614036--87614056) -87614059 -(87614073--87614197) -(87614216--87614290) -(87619476--87619479) -(87619555--87619583) -(87619608--87619651) -(87619653--87619670) -(87619674--87619678) -(87619683--87619686) -(87619735--87619742) -(87619761--87619766) -(87619888--87619918) -(87619922--87619926) -(87619942--87619943) -(87620222--87620350) -(87624265--87624307) -(87624309--87624316) -(87624318--87624343) -(87708160--87708208) -(87708210--87708214) -(87708222--87708264) -(87708278--87708286) -(87709811--87709812) -87713792 -(87713795--87713800) -(87713816--87713817) -(87787761--87787839) -87790232 -87791616 -(87791637--87791638) -(87791646--87791648) -(87791650--87791651) -(87792495--87792499) -(87795634--87795684) -(87796518--87796519) -87797863 -(87799075--87799079) -87799816 -(87800056--87800249) -88770564 -88880866 -88880890 -88881132 -88881409 -88881425 -89363269 -90437706 -94488576 -183674978 -(183675004--183675083) -(201834068--201834156) -(201840669--201840674) -(201840680--201841175) -227143813 -(227143815--227143816) -(227143818--227143819) -(227143821--227143822) -(235530240--235530246) -(235530248--235530275) -(235530281--235530355) -(235530358--235530717) -(235530739--235530761) -(235530770--235530778) -(235530845--235530990)
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2672 (0, décompté=59).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2673 (107, décompté=790).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2674 (92, décompté=169).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2676 (0, décompté=117).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2679 (0, décompté=347).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2709 (0, décompté=1).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2712 (60, décompté=65).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2727 (64, décompté=65).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2759 (0, décompté=1).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°2883 (2, décompté=3).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°5605 (14789, décompté=14870).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°6159 (1021, décompté=1612).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°6931 (28703, décompté=28710).
Corriger<o>? oui

Le décompte des blocs libres est erroné pour le groupe n°7187 (9413, décompté=10061).
Corriger<o>? oui

Le décompte des blocs libres est erroné (80399167, décompté=80401786).
Corriger<o>? oui

odifférences de bitmap d'i-noeuds :  -21889104 -21889171 -21889525 -21889569 -21889579 -21889622 -21889858 -21897220 -22192440 -22192596 -22192632 -22192734 -22602046 -23617887 -31048583 -45917714 -50455924 -50455980 -(50456075--50456076) -56772234 -(58878469--58878470) -(58878472--58878474) -(58878476--58878477) -58878481 -58878483 -(58878489--58878491)
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°2672 (6827, décompté=6834).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°2673 (7379, décompté=7380).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°2709 (139, décompté=143).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°2759 (7762, décompté=7763).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°2883 (5261, décompté=5262).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°3790 (4356, décompté=4357).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°5605 (5985, décompté=5986).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°6159 (6363, décompté=6367).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°6930 (6053, décompté=6054).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné pour le groupe n°7187 (5227, décompté=5239).
Corriger<o>? oui

Le décompte des i-noeuds libres est erroné (46787450, décompté=46787483).
Corriger<o>? oui

/dev/sda6: ***** LE SYSTÈME DE FICHIERS A ÉTÉ MODIFIÉ *****
/dev/sda6 : 13743205/60530688 fichiers (1.9% non contigus), 161701772/242103558 blocs
mount /srv

relancer les vservers
/etc/init.d/util-vservers start

#3

Updated by Loïc Dachary over 7 years ago

  • Due date changed from 05/25/2013 to 05/31/2013
  • Assignee changed from Loïc Dachary to Quentin CHERGUI
#4

Updated by Maxence Dunnewind over 7 years ago

Je passe ce midi vérifier l'état du disque (voir les LED en facade).

#5

Updated by Loïc Dachary over 7 years ago

(12:24:13 PM) Sp4rKy: je viens de retirer le dd de pavot
(12:24:18 PM) Sp4rKy: qui est effectivemùent hs
(12:25:01 PM) Sp4rKy: a priori ca a pas gené pavot de perdre un disque :)
#6

Updated by Quentin CHERGUI over 7 years ago

Coupure de Ergine comme mentionné sur sa page wiki : http://192.168.1.33:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:ergine
Suppression de /etc/vservers/ergine/apps/init/mark (sur Pavot) pour éviter qu'elle ne démarre au prochain reboot.

#7

Updated by Quentin CHERGUI over 7 years ago

La machine Munin n'a pas l'air documentée, n'a pas de serveur web actif et ne correspond à aucun des munin en prod.

À stopper puis supprimer ?

#8

Updated by Maxence Dunnewind over 7 years ago

Commande en cours chez LDLC, n° de suivi 9L01017623954

#9

Updated by Quentin CHERGUI over 7 years ago

Il semblerait que Nagios détecte la machine comme down depuis la panne :
http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april-int

L'IP configurée dans Nagios est 192.168.2.254, qui ne semble plus être configurée nulle part sur Pavot. D'ailleurs, pavot.april-int renvoie vers son IP publique, et une autre entrée pour Pavot existe sous le nom de pavot.april.org : http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april.org

Une entrée obsolète ? (si j'en crois le manifest Puppet, il faut juste le relancer pour qu'il mette à jour l'adresse IP de l'objet)

(Question subsidiaire : pourquoi ne pas utiliser DNS dans les adresse que l'on donne à Nagios ? Ça éviterai ce genre de cas...)

#10

Updated by Quentin CHERGUI over 7 years ago

root@pavot:~# puppet agent --test
info: Retrieving plugin
info: Loading facts in concat_basedir
info: Loading facts in root_home
info: Loading facts in puppet_vardir
info: Loading facts in pe_version
info: Loading facts in concat_basedir
info: Loading facts in root_home
info: Loading facts in puppet_vardir
info: Loading facts in pe_version
info: Caching catalog for pavot.april-int
info: Applying configuration version '1367245531'
notice: Finished catalog run in 1.11 seconds
root@pavot:~# puppet agent -vt
info: Retrieving plugin
info: Loading facts in concat_basedir
info: Loading facts in root_home
info: Loading facts in puppet_vardir
info: Loading facts in pe_version
info: Loading facts in concat_basedir
info: Loading facts in root_home
info: Loading facts in puppet_vardir
info: Loading facts in pe_version
info: Caching catalog for pavot.april-int
info: Applying configuration version '1367245531'
notice: Finished catalog run in 0.61 seconds
root@pavot:~# logout

Connection to pavot.april-int closed.
kankan@Aelita:~$ ssh root@nagios.vm.april-int
Linux wheezy 3.2.0-3-amd64 #1 SMP Mon Jul 23 02:45:17 UTC 2012 x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
You have mail.
Last login: Thu May 30 16:31:18 2013 from 192.168.3.34
root@nagios:~# puppet agent --test
info: Retrieving plugin
info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb
info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb
info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb
info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb
info: Caching catalog for nagios.vm.april-int
info: Applying configuration version '1367245531'
notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully
notice: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]/hostgroups: defined 'hostgroups' as 'munin-node'
info: FileBucket adding {md5}81d0b5ad79bf09797c290012623834c3
info: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]: Scheduling refresh of Service[nagios3]
notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully
notice: /Stage[main]/April_nagios::Server/Service[nagios3]: Triggered 'refresh' from 1 events
notice: Finished catalog run in 5.02 seconds
root@nagios:~# puppet agent -vt
info: Retrieving plugin
info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb
info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb
info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb
info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb
info: Caching catalog for nagios.vm.april-int
info: Applying configuration version '1367245531'
notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully
notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully
notice: Finished catalog run in 2.41 seconds
root@nagios:~# 
#11

Updated by Quentin CHERGUI over 7 years ago

L'adresse IP n'a pas été mise à jour en relançant le puppet-agent...

#12

Updated by Quentin CHERGUI over 7 years ago

L'adresse IP en question est dans le /etc/network/interfaces :

auto bond0
iface bond0 inet static
    address 192.168.25.117
    netmask 255.255.255.0
    gateway 192.168.25.253
    slaves eth0 eth1
    bond_mode active-backup
    bond_miimon 100
    hwaddress ether 00:22:19:b2:00:c6
    up ip addr add 192.168.2.254/16 dev eth0

Ajoutée manuellement :

root@pavot:~# ip addr add 192.168.2.254/16 dev eth0

#13

Updated by Maxence Dunnewind over 7 years ago

Disques recus. Changement prévu demain, pas de coupure à prévoir. Si besoin d'annuler le changement, prévenir par sms.

Maxence

#14

Updated by Loïc Dachary over 7 years ago

Pas d'objection pour moi :-)

#15

Updated by Loïc Dachary over 7 years ago

il faudrait que

up ip addr add 192.168.2.254/16 dev eth0

soit
up ip addr add 192.168.2.254/16 dev bond0

#16

Updated by Loïc Dachary over 7 years ago

root@pavot:/etc# git show
commit b5a3350064742d54afdd7ff8f2b2cba40f38a394
Author: root <root@april.org>
Date:   Sun Jun 2 10:38:58 2013 +0200
    add the IP to bond0 so that it is not removed because eth0 is a slave of bond0
diff --git a/network/interfaces b/network/interfaces
index 4f2515d..da0f424 100644
--- a/network/interfaces
+++ b/network/interfaces
@@ -14,7 +14,7 @@ iface bond0 inet static
        bond_mode active-backup
        bond_miimon 100
        hwaddress ether 00:22:19:b2:00:c6
-       up ip addr add 192.168.2.254/16 dev eth0
+       up ip addr add 192.168.2.254/16 dev bond0

 #auto dummy0
 #iface dummy0 inet static
#17

Updated by Loïc Dachary over 7 years ago

sp4rky a remplacé le disque

#18

Updated by Loïc Dachary over 7 years ago

  • Status changed from En cours de traitement to Fermé
  • % Done changed from 90 to 100
#19

Updated by Quentin CHERGUI over 7 years ago

Installation d'un serveur web sur le vserver munin. On y retrouve les mêmes graphes que sur celui de ns1 :
http://192.168.2.55:8080/munin/

Also available in: Atom PDF