Project

General

Profile

Actions

Anomalie #5872

closed

[Incident] panne de maine

Added by pitchum . over 2 years ago. Updated over 2 years ago.

Status:
Fermé
Priority:
Normale
Assignee:
-
Category:
-
Target version:
Start date:
05/07/2022
Due date:
% Done:

0%

Estimated time:

Description

Hier soir, suite à l'ajout de RAM, maine était fonctionnelle. Ce matin elle ne répondait plus, je l'ai donc rebootée.

J'ai ensuite entamé la procédure documentée, mais ça échoue dès l'étape "mount /var/lib/libvirt/maine".
J'ai essayé à 3 reprises, et le message d'erreur était différent : d'abord "mount(2) system call failed: Structure needs cleaning", puis "mount(2) system call failed: wrong medium type".

Avant de tenter des fsck ou autre, je préfère laisser la synchro drbd se terminer. C'est peut-être ça le souci.

=(^-^)=root@maine:~# cat /proc/drbd 
version: 8.4.11 (api:1/proto:86-101)
srcversion: 64A42A9F69B042124E03E95 
 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r-----
    ns:5067080 nr:0 dw:0 dr:5067080 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 1: cs:SyncTarget ro:Secondary/Primary ds:Inconsistent/UpToDate C r-----
    ns:0 nr:634412 dw:634412 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:4055180
        [>...................] sync'ed:  9.8% (3960/4384)M
        finish: 1:44:52 speed: 628 (704) want: 360 K/sec

Actions #1

Updated by pitchum . over 2 years ago

La machine a arrêter d'écrire des logs à 1h50 cette nuit.

Dans kern.log on voit apparaître des "general protection fault". Ça pourrait être causé par une barrette de RAM défectueuse ?

May  7 00:52:43 maine kernel: [ 9793.975205] traps: python3[22612] general protection fault ip:501e7f sp:7ffc0d9809d0 error:0 in python3.9[41f000+288000]
May  7 01:15:59 maine kernel: [11190.009433] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#1] SMP PTI
May  7 01:15:59 maine kernel: [11190.009444] CPU: 4 PID: 22558 Comm: worker Not tainted 5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:15:59 maine kernel: [11190.009449] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:16:23 maine kernel: [11213.457687] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#2] SMP PTI
May  7 01:16:23 maine kernel: [11213.457696] CPU: 2 PID: 23081 Comm: kworker/u16:1 Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:16:23 maine kernel: [11213.457700] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:34:06 maine kernel: [12276.409128] traps: python3[26657] general protection fault ip:5029f0 sp:7ffe2f7eed90 error:0 in python3.9[41f000+288000]
May  7 01:39:43 maine kernel: [12614.253482] attempt to access beyond end of device
May  7 01:39:43 maine kernel: [12614.253482] sda1: rw=2049, want=14411518810129594840, limit=7814035087
May  7 01:40:19 maine kernel: [12649.373856] traps: needrestart[27242] general protection fault ip:55a32e84a7cd sp:7ffda05eced0 error:0 in perl[55a32e747000+185000]
May  7 01:40:37 maine kernel: [12667.518669] drbd coon: meta connection shut down by peer.
May  7 01:40:37 maine kernel: [12667.518685] drbd coon: peer( Primary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown ) 
--
May  7 01:41:25 maine kernel: [12715.635532] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#3] SMP PTI
May  7 01:41:25 maine kernel: [12715.635547] CPU: 6 PID: 27208 Comm: worker Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:41:25 maine kernel: [12715.635554] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:41:49 maine kernel: [12740.206654] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#4] SMP PTI
May  7 01:41:49 maine kernel: [12740.206660] CPU: 3 PID: 15213 Comm: kworker/u16:6 Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:41:49 maine kernel: [12740.206662] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:45:04 maine kernel: [12935.035704] traps: python3.9[27750] general protection fault ip:52522d sp:7fff0f9a9de0 error:0 in python3.9[41f000+288000]
May  7 01:45:04 maine kernel: [12935.101027] traps: python3.9[27751] general protection fault ip:525172 sp:7fffe9c1ca10 error:0 in python3.9[41f000+288000]
May  7 01:46:17 maine kernel: [13007.557457] traps: python3[27902] trap stack segment ip:502d1d sp:7ffdbc002480 error:0 in python3.9[41f000+288000]
May  7 01:48:23 maine kernel: [13133.802241] traps: libvirt_leasesh[28110] general protection fault ip:7f1674883a8c sp:7fff74aefb38 error:0 in libstdc++.so.6.0.28[7f1674877000+dc000]
May  7 01:49:27 maine kernel: [13198.191682] general protection fault, probably for non-canonical address 0xc800000000000000: 0000 [#6] SMP PTI
May  7 01:49:27 maine kernel: [13198.191687] CPU: 5 PID: 27985 Comm: worker Tainted: G    B D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:49:27 maine kernel: [13198.191689] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
grep: (entrée standard): binary file matches
Actions #2

Updated by pitchum . over 2 years ago

La synchro DRBD est finie, mais le mount échoue toujours.

=(^-^)=root@maine:~# cat /proc/drbd 
version: 8.4.11 (api:1/proto:86-101)
srcversion: 64A42A9F69B042124E03E95 
 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r-----
    ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 1: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----
    ns:0 nr:5196 dw:5196 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
=(^-^)=root@maine:~# LC_ALL=C mount /var/lib/libvirt/maine
mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.
Actions #3

Updated by Pierre-Louis Bonicoli over 2 years ago

À propos de l'erreur mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type. et en regardant la doc april Les deux partages sont en secondary, il faudrait que celui de maine soit en mode primary. Ne faut-il pas utiliser la commande drbdadm primary maine ?

Actions #4

Updated by Quentin Gibeaux over 2 years ago

J'ai tenté le mount en primary c'est pareil, structure need to be cleaned.

On peut basculer toutes les VM sur coon, en attendant d'avoir un maine OK, la procédure est dans le dokuwiki (dumpé sur git) cf : admin/procedures/basculer_cluster.txt

Actions #5

Updated by Romain H. over 2 years ago

J'ai appliqué la procédure de basculement, les VMs et les services ont l'air de bien démarrer sur coon.
J'ai arrêté le serveur maine avec un halt.

Les commandes suivantes n'ont pas fonctionné :

ip route replace default via 94.130.8.1 dev enp0s31f6 src 88.99.233.240
ip route replace 94.130.8.1 dev enp0s31f6 proto kernel scope link src 88.99.233.240

Erreur :

Error: Nexthop has invalid gateway.

Actions #6

Updated by Romain H. over 2 years ago

J'ai redémarré maine en rescue et je teste la ram avec memtester.

Actions #7

Updated by Romain H. over 2 years ago

La RAM était HS.
J'ai crée un ticket, ils ont changé la RAM.
Je reboot en rescue pour relancer un test vérifier qu'il y a plus d'erreur.
Je suis obligé de reboot avec un reset car le mdp que le support a communiqué n'est pas le bon.

Actions #8

Updated by Romain H. over 2 years ago

La nouvelle RAM a été testée et est ok.
La bascule inverse a été effectuée.
La synchro DRBD est encore en cours (fin dans 22min).

Actions #9

Updated by Quentin Gibeaux over 2 years ago

  • Status changed from En cours de traitement to Résolu
Actions #10

Updated by Quentin Gibeaux over 2 years ago

  • Status changed from Résolu to Fermé
Actions

Also available in: Atom PDF