Anomalie #5872
closed[Incident] panne de maine
0%
Description
Hier soir, suite à l'ajout de RAM, maine était fonctionnelle. Ce matin elle ne répondait plus, je l'ai donc rebootée.
J'ai ensuite entamé la procédure documentée, mais ça échoue dès l'étape "mount /var/lib/libvirt/maine".
J'ai essayé à 3 reprises, et le message d'erreur était différent : d'abord "mount(2) system call failed: Structure needs cleaning", puis "mount(2) system call failed: wrong medium type".
Avant de tenter des fsck ou autre, je préfère laisser la synchro drbd se terminer. C'est peut-être ça le souci.
=(^-^)=root@maine:~# cat /proc/drbd version: 8.4.11 (api:1/proto:86-101) srcversion: 64A42A9F69B042124E03E95 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r----- ns:5067080 nr:0 dw:0 dr:5067080 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 1: cs:SyncTarget ro:Secondary/Primary ds:Inconsistent/UpToDate C r----- ns:0 nr:634412 dw:634412 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:4055180 [>...................] sync'ed: 9.8% (3960/4384)M finish: 1:44:52 speed: 628 (704) want: 360 K/sec
Updated by pitchum . over 2 years ago
La machine a arrêter d'écrire des logs à 1h50 cette nuit.
Dans kern.log on voit apparaître des "general protection fault". Ça pourrait être causé par une barrette de RAM défectueuse ?
May 7 00:52:43 maine kernel: [ 9793.975205] traps: python3[22612] general protection fault ip:501e7f sp:7ffc0d9809d0 error:0 in python3.9[41f000+288000] May 7 01:15:59 maine kernel: [11190.009433] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#1] SMP PTI May 7 01:15:59 maine kernel: [11190.009444] CPU: 4 PID: 22558 Comm: worker Not tainted 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:15:59 maine kernel: [11190.009449] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:16:23 maine kernel: [11213.457687] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#2] SMP PTI May 7 01:16:23 maine kernel: [11213.457696] CPU: 2 PID: 23081 Comm: kworker/u16:1 Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:16:23 maine kernel: [11213.457700] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:34:06 maine kernel: [12276.409128] traps: python3[26657] general protection fault ip:5029f0 sp:7ffe2f7eed90 error:0 in python3.9[41f000+288000] May 7 01:39:43 maine kernel: [12614.253482] attempt to access beyond end of device May 7 01:39:43 maine kernel: [12614.253482] sda1: rw=2049, want=14411518810129594840, limit=7814035087 May 7 01:40:19 maine kernel: [12649.373856] traps: needrestart[27242] general protection fault ip:55a32e84a7cd sp:7ffda05eced0 error:0 in perl[55a32e747000+185000] May 7 01:40:37 maine kernel: [12667.518669] drbd coon: meta connection shut down by peer. May 7 01:40:37 maine kernel: [12667.518685] drbd coon: peer( Primary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown ) -- May 7 01:41:25 maine kernel: [12715.635532] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#3] SMP PTI May 7 01:41:25 maine kernel: [12715.635547] CPU: 6 PID: 27208 Comm: worker Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:41:25 maine kernel: [12715.635554] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:41:49 maine kernel: [12740.206654] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#4] SMP PTI May 7 01:41:49 maine kernel: [12740.206660] CPU: 3 PID: 15213 Comm: kworker/u16:6 Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:41:49 maine kernel: [12740.206662] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:45:04 maine kernel: [12935.035704] traps: python3.9[27750] general protection fault ip:52522d sp:7fff0f9a9de0 error:0 in python3.9[41f000+288000] May 7 01:45:04 maine kernel: [12935.101027] traps: python3.9[27751] general protection fault ip:525172 sp:7fffe9c1ca10 error:0 in python3.9[41f000+288000] May 7 01:46:17 maine kernel: [13007.557457] traps: python3[27902] trap stack segment ip:502d1d sp:7ffdbc002480 error:0 in python3.9[41f000+288000] May 7 01:48:23 maine kernel: [13133.802241] traps: libvirt_leasesh[28110] general protection fault ip:7f1674883a8c sp:7fff74aefb38 error:0 in libstdc++.so.6.0.28[7f1674877000+dc000] May 7 01:49:27 maine kernel: [13198.191682] general protection fault, probably for non-canonical address 0xc800000000000000: 0000 [#6] SMP PTI May 7 01:49:27 maine kernel: [13198.191687] CPU: 5 PID: 27985 Comm: worker Tainted: G B D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:49:27 maine kernel: [13198.191689] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 grep: (entrée standard): binary file matches
Updated by pitchum . over 2 years ago
La synchro DRBD est finie, mais le mount échoue toujours.
=(^-^)=root@maine:~# cat /proc/drbd version: 8.4.11 (api:1/proto:86-101) srcversion: 64A42A9F69B042124E03E95 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r----- ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 1: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r----- ns:0 nr:5196 dw:5196 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 =(^-^)=root@maine:~# LC_ALL=C mount /var/lib/libvirt/maine mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.
Updated by Pierre-Louis Bonicoli over 2 years ago
À propos de l'erreur mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.
et en regardant la doc april Les deux partages sont en secondary
, il faudrait que celui de maine
soit en mode primary
. Ne faut-il pas utiliser la commande drbdadm primary maine
?
Updated by Quentin Gibeaux over 2 years ago
J'ai tenté le mount en primary c'est pareil, structure need to be cleaned.
On peut basculer toutes les VM sur coon, en attendant d'avoir un maine OK, la procédure est dans le dokuwiki (dumpé sur git) cf : admin/procedures/basculer_cluster.txt
Updated by Romain H. over 2 years ago
J'ai appliqué la procédure de basculement, les VMs et les services ont l'air de bien démarrer sur coon.
J'ai arrêté le serveur maine avec un halt.
Les commandes suivantes n'ont pas fonctionné :
ip route replace default via 94.130.8.1 dev enp0s31f6 src 88.99.233.240 ip route replace 94.130.8.1 dev enp0s31f6 proto kernel scope link src 88.99.233.240
Erreur :
Error: Nexthop has invalid gateway.
Updated by Romain H. over 2 years ago
J'ai redémarré maine en rescue et je teste la ram avec memtester.
Updated by Romain H. over 2 years ago
La RAM était HS.
J'ai crée un ticket, ils ont changé la RAM.
Je reboot en rescue pour relancer un test vérifier qu'il y a plus d'erreur.
Je suis obligé de reboot avec un reset car le mdp que le support a communiqué n'est pas le bon.
Updated by Romain H. over 2 years ago
La nouvelle RAM a été testée et est ok.
La bascule inverse a été effectuée.
La synchro DRBD est encore en cours (fin dans 22min).
Updated by Quentin Gibeaux over 2 years ago
- Status changed from En cours de traitement to Résolu
Updated by Quentin Gibeaux over 2 years ago
- Status changed from Résolu to Fermé