Anomalie #5872
fermé[Incident] panne de maine
0%
Description
Hier soir, suite à l'ajout de RAM, maine était fonctionnelle. Ce matin elle ne répondait plus, je l'ai donc rebootée.
J'ai ensuite entamé la procédure documentée, mais ça échoue dès l'étape "mount /var/lib/libvirt/maine".
J'ai essayé à 3 reprises, et le message d'erreur était différent : d'abord "mount(2) system call failed: Structure needs cleaning", puis "mount(2) system call failed: wrong medium type".
Avant de tenter des fsck ou autre, je préfère laisser la synchro drbd se terminer. C'est peut-être ça le souci.
=(^-^)=root@maine:~# cat /proc/drbd version: 8.4.11 (api:1/proto:86-101) srcversion: 64A42A9F69B042124E03E95 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r----- ns:5067080 nr:0 dw:0 dr:5067080 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 1: cs:SyncTarget ro:Secondary/Primary ds:Inconsistent/UpToDate C r----- ns:0 nr:634412 dw:634412 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:4055180 [>...................] sync'ed: 9.8% (3960/4384)M finish: 1:44:52 speed: 628 (704) want: 360 K/sec
Mis à jour par pitchum . il y a plus de 2 ans
La machine a arrêter d'écrire des logs à 1h50 cette nuit.
Dans kern.log on voit apparaître des "general protection fault". Ça pourrait être causé par une barrette de RAM défectueuse ?
May 7 00:52:43 maine kernel: [ 9793.975205] traps: python3[22612] general protection fault ip:501e7f sp:7ffc0d9809d0 error:0 in python3.9[41f000+288000] May 7 01:15:59 maine kernel: [11190.009433] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#1] SMP PTI May 7 01:15:59 maine kernel: [11190.009444] CPU: 4 PID: 22558 Comm: worker Not tainted 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:15:59 maine kernel: [11190.009449] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:16:23 maine kernel: [11213.457687] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#2] SMP PTI May 7 01:16:23 maine kernel: [11213.457696] CPU: 2 PID: 23081 Comm: kworker/u16:1 Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:16:23 maine kernel: [11213.457700] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:34:06 maine kernel: [12276.409128] traps: python3[26657] general protection fault ip:5029f0 sp:7ffe2f7eed90 error:0 in python3.9[41f000+288000] May 7 01:39:43 maine kernel: [12614.253482] attempt to access beyond end of device May 7 01:39:43 maine kernel: [12614.253482] sda1: rw=2049, want=14411518810129594840, limit=7814035087 May 7 01:40:19 maine kernel: [12649.373856] traps: needrestart[27242] general protection fault ip:55a32e84a7cd sp:7ffda05eced0 error:0 in perl[55a32e747000+185000] May 7 01:40:37 maine kernel: [12667.518669] drbd coon: meta connection shut down by peer. May 7 01:40:37 maine kernel: [12667.518685] drbd coon: peer( Primary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown ) -- May 7 01:41:25 maine kernel: [12715.635532] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#3] SMP PTI May 7 01:41:25 maine kernel: [12715.635547] CPU: 6 PID: 27208 Comm: worker Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:41:25 maine kernel: [12715.635554] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:41:49 maine kernel: [12740.206654] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#4] SMP PTI May 7 01:41:49 maine kernel: [12740.206660] CPU: 3 PID: 15213 Comm: kworker/u16:6 Tainted: G D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:41:49 maine kernel: [12740.206662] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 -- May 7 01:45:04 maine kernel: [12935.035704] traps: python3.9[27750] general protection fault ip:52522d sp:7fff0f9a9de0 error:0 in python3.9[41f000+288000] May 7 01:45:04 maine kernel: [12935.101027] traps: python3.9[27751] general protection fault ip:525172 sp:7fffe9c1ca10 error:0 in python3.9[41f000+288000] May 7 01:46:17 maine kernel: [13007.557457] traps: python3[27902] trap stack segment ip:502d1d sp:7ffdbc002480 error:0 in python3.9[41f000+288000] May 7 01:48:23 maine kernel: [13133.802241] traps: libvirt_leasesh[28110] general protection fault ip:7f1674883a8c sp:7fff74aefb38 error:0 in libstdc++.so.6.0.28[7f1674877000+dc000] May 7 01:49:27 maine kernel: [13198.191682] general protection fault, probably for non-canonical address 0xc800000000000000: 0000 [#6] SMP PTI May 7 01:49:27 maine kernel: [13198.191687] CPU: 5 PID: 27985 Comm: worker Tainted: G B D W 5.10.0-14-amd64 #1 Debian 5.10.113-1 May 7 01:49:27 maine kernel: [13198.191689] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x 02/27/2017 grep: (entrée standard): binary file matches
Mis à jour par pitchum . il y a plus de 2 ans
La synchro DRBD est finie, mais le mount échoue toujours.
=(^-^)=root@maine:~# cat /proc/drbd version: 8.4.11 (api:1/proto:86-101) srcversion: 64A42A9F69B042124E03E95 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r----- ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 1: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r----- ns:0 nr:5196 dw:5196 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0 =(^-^)=root@maine:~# LC_ALL=C mount /var/lib/libvirt/maine mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.
Mis à jour par Pierre-Louis Bonicoli il y a plus de 2 ans
À propos de l'erreur mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.
et en regardant la doc april Les deux partages sont en secondary
, il faudrait que celui de maine
soit en mode primary
. Ne faut-il pas utiliser la commande drbdadm primary maine
?
Mis à jour par Quentin Gibeaux il y a plus de 2 ans
J'ai tenté le mount en primary c'est pareil, structure need to be cleaned.
On peut basculer toutes les VM sur coon, en attendant d'avoir un maine OK, la procédure est dans le dokuwiki (dumpé sur git) cf : admin/procedures/basculer_cluster.txt
Mis à jour par Romain H. il y a plus de 2 ans
J'ai appliqué la procédure de basculement, les VMs et les services ont l'air de bien démarrer sur coon.
J'ai arrêté le serveur maine avec un halt.
Les commandes suivantes n'ont pas fonctionné :
ip route replace default via 94.130.8.1 dev enp0s31f6 src 88.99.233.240 ip route replace 94.130.8.1 dev enp0s31f6 proto kernel scope link src 88.99.233.240
Erreur :
Error: Nexthop has invalid gateway.
Mis à jour par Romain H. il y a plus de 2 ans
J'ai redémarré maine en rescue et je teste la ram avec memtester.
Mis à jour par Romain H. il y a plus de 2 ans
La RAM était HS.
J'ai crée un ticket, ils ont changé la RAM.
Je reboot en rescue pour relancer un test vérifier qu'il y a plus d'erreur.
Je suis obligé de reboot avec un reset car le mdp que le support a communiqué n'est pas le bon.
Mis à jour par Romain H. il y a plus de 2 ans
La nouvelle RAM a été testée et est ok.
La bascule inverse a été effectuée.
La synchro DRBD est encore en cours (fin dans 22min).
Mis à jour par Quentin Gibeaux il y a plus de 2 ans
- Statut changé de En cours de traitement à Résolu