Projet

Général

Profil

Anomalie #2848

Inconcistances au reboot du cluster

Ajouté par Quentin Gibeaux il y a plus de 6 ans. Mis à jour il y a environ 4 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
Catégorie:
-
Version cible:
-
Début:
12/12/2017
Echéance:
% réalisé:

0%

Temps estimé:

Description

Après une mise à jour de sécurité du noyau, j'ai effectué un reboot du cluster.
1ère anomalie : problème de routage ipv6, il manque une route sur coon, censée être déployée par le hook network.
Commandes lancées sur coon :

ip -6 route add 2a01:4f8:10b:c41::/64 via fe80::5054:ff:fe54:b824 dev virbr0
systemctl restart firehol || exit

Commande lancée sur maine :
systemctl restart firehol

2e anomalie, le drbd en mode "split brain" :

=(^-^)=root@coon:/etc/libvirt# drbd-overview
 0:maine/0  StandAlone Secondary/Unknown UpToDate/DUnknown
 1:coon/0   StandAlone Primary/Unknown   UpToDate/DUnknown /var/lib/libvirt/coon ext4 1007G 40G 917G 5%

Il est conseillé sur le web de déconnecter le secondary et de le reconnecter en forçant d'ignorer les données, mais ça ne marche pas :

=(^-^)=root@coon:/etc/libvirt# drbdadm disconnect maine
??: Failure: (162) Invalid configuration request
additional info from kernel:
unknown connection  
Command 'drbdsetup-84 disconnect ipv4:192.168.1.3:7788 ipv4:192.168.1.2:7788' terminated with exit code 10

J'ai tenté d'arrêter toutes les vm sur maine, mais ça ne marchait toujours pas.
J'ai donc arrêté en plus les vm sur coon, et lancé un restart de drbd, et là il s'est remis à se synchroniser.
Par contre j'ignore s'il a gardé la primoté de coon pour le rsync, je pense qu'il est allé prendre les données de maine…

=(^-^)=root@coon:/etc/libvirt/qemu# /etc/init.d/drbd restart
[ ok ] Restarting drbd (via systemctl): drbd.service.
=(^-^)=root@coon:/etc/libvirt/qemu# drbd-overview
 0:maine/0  SyncTarget Secondary/Primary   Inconsistent/UpToDate
        [>...................] sync'ed:  8.2% (141820/149092)K
 1:coon/0   SyncSource Secondary/Secondary UpToDate/Inconsistent
        [=>..................] sync'ed: 10.8% (103964/111804)K
=(^-^)=root@coon:/etc/libvirt/qemu# drbdadm primary coon
=(^-^)=root@coon:/etc/libvirt/qemu# drbd-overview
 0:maine/0  Connected Secondary/Primary UpToDate/UpToDate
 1:coon/0   Connected Primary/Secondary UpToDate/UpToDate

Puis j'ai redémarré les vm sur les deux hosts.

Historique

#1

Mis à jour par Quentin Gibeaux il y a plus de 6 ans

  • Tracker changé de Demande à Anomalie

Quentin Gibeaux a écrit :

J'ai donc arrêté en plus les vm sur coon, et lancé un restart de drbd, et là il s'est remis à se synchroniser.
Par contre j'ignore s'il a gardé la primoté de coon pour le rsync, je pense qu'il est allé prendre les données de maine…

En regardant de plus près, ça doit être bon vu qu'il dit (en gras) que maine@coon est inconsistant et que coon@maine est inconsistant :
0:maine/0 SyncTarget Secondary/Primary Inconsistent/UpToDate
[>...................] sync'ed: 8.2% (141820/149092)K
1:coon/0 SyncSource Secondary/Secondary UpToDate/ Inconsistent
[=>..................] sync'ed: 10.8% (103964/111804)K

#2

Mis à jour par Vincent-Xavier JUMEL il y a presque 6 ans

Quentin signale que l'application périodique des mises à jour de sécurité a permis petit à petit d'affiner les hooks de démarrage, réduisant de façon notable les inconsistances.

#3

Mis à jour par Quentin Gibeaux il y a presque 6 ans

  • Statut changé de Nouveau à Fermé
#4

Mis à jour par Christian P. Momon il y a plus de 4 ans

  • Assigné à mis à Quentin Gibeaux
#5

Mis à jour par Christian P. Momon il y a environ 4 ans

  • Projet changé de Chapril à Infra Chapril

Formats disponibles : Atom PDF