Project

General

Profile

Anomalie #1696

Reboot difficile de pavot ce matin - harmine non démarré

Added by Frédéric Couchet over 7 years ago. Updated almost 3 years ago.

Status:
Fermé
Priority:
Normale
Category:
-
Target version:
-
Start date:
04/09/2016
Due date:
% Done:

0%

Estimated time:
Difficulté:
2 Facile

Description

Vendredi 8 avril, j'ai du redémarré pavot, le reboot n'a pas été simple et la VM harmine n'a pas pu être démarrée.

History

#1

Updated by Frédéric Couchet over 7 years ago

  • Description updated (diff)
#2

Updated by Frédéric Couchet over 7 years ago

Pour le contexte voir https://agir.april.org/issues/1695 et notamment :

pavot # vserver redmine-test build -m rsync --context 42 --hostname redmine-test.april.org --interface dummy0:192.168.2.42/24 -- --source amphetamine

Notons que j'ai réellement lancé avec l'option "eth0:192.168.1.42/24" et ça a généré un effet de bord sur pavot.
La nouvelle VM redmine-test est donc configurée en 192.168.2.42 sur l'interface dummy0.
Mais il semblerait que mon "vserver redmine-test --interface eth0:192.168.1.42/24" a laissé au final une config bizarre sur pavot qui générait une erreur sur http://apr1.org/yourls.php "internal server
error".
En effet, quand on va sur http://apr1.org/yourls.php l'outil ouvre une connexion mysql sur 192.168.1.42 (qui est la VM LSD sur ns1, qui contient la base adhérents). Et l'outil n'arrivait pas à ouvrir cette connexion.
Sur pavot, route -n affichait notamment :
192.168.1.0     192.168.0.2     255.255.255.0   UG    0      0        0 tun0
192.168.1.0     0.0.0.0         255.255.255.0   U     0      0        0 dummy0

Je me suis dit qu'une route était en trop (la dummy0), je l'ai virée mais ça ne semblait pas régler le pb.
J'en ai eu marre et j'ai fait l'erreur de me dire que le plus simple était de rebooter pavot pour avoir de nouveau une config réseau propre.
Sauf que, après un "virsh reboot pavot" sur storm je n'avais plus accès à pavot. Pourant "virsh list" affichait bien :
       1     pavot                          running

J'ai passé du temps à essayer de comprendre comment accéder à la console de pavot depuis storm (virsh console pavot ne m'affichant que "Connected to domain pavot Escape character is ^]") et à regarder dans la doc admin sys mais sans succès. Je pensais bien que pavot était bloqué sur un fsck.
Finalement, une bonne âme chez les œufs m'a suggéré d'installer virt-manager sur mon laptop.
Install faite (très longue, je me demande si je n'ai pas un pb d'accès disque sur mon laptop), et je lance virt-manager pour me connecter ) storm (l'adresse est dans la doc admin sys).
Je clique sur pavot
et là je vois pavot qui attend comme une fleur le mot de passe root pour passer en mode maintenance, ou Ctrl-D) pour continuer.
J'ai fait Ctrl-D :)
pavot a redémarré.
Mais les VM mail et harmine n'ont pas redémarré. J'ai redémarré mail manuellement.
hebdobot n'as pas redémarré sur bots.
Impossible de redémarré harmine :
   root@pavot[storm]:~# vserver harmine starte start                                             
   /etc/init.d/rc: 5: /etc/default/rcS: Syntax error: word unexpected (expecting ")")
   error: '/etc/init.d/rc' exited outside the expected code flow.

et effectivement le fichier /srv/vservers/harmine/etc/default/rcS a une sale gueule.
Harmine semblait tourner encore hier (j'ai vu que le répertoire des backups de BackupPC avait des fichiers datant de cette nuit).
Je ne sais pas comment vous avez redémarré harmine la dernière fois.
Comment aviez-vous accéder à la console de pavot la dernière fois (car je suppose que le problème s'était produit).
À quel endroit de la doc admin sys j'ajoute les infos pour un reboot de pavot ?

#3

Updated by Benjamin Drieu over 7 years ago

Pour rebooter harmine, dont les fichiers du répertoire /etc/defaults étaient tout borkés, j'ai fait (en gros) à partir de pavot:

# cp /srv/vservers/amphetamine/etc/defaults/* /srv/vservers/harmine/etc/defaults/* 

Et ça m'a permis de redémarrer harmine:

# vserver harmine start

Note:on ne peut pas garantir que d'autres fichiers soient bortchés. Et notamment des fichiers de backuppc. En conséquence, je pense qu'on peut considérer que le backup de harmine est potentiellement invalide.

#4

Updated by Benjamin Drieu about 7 years ago

  • Description updated (diff)
  • Status changed from Nouveau to Résolu

Corrigé avec le nouveau SI.

#5

Updated by Quentin Gibeaux over 4 years ago

  • Status changed from Résolu to Fermé
#6

Updated by Christian P. Momon almost 3 years ago

  • Assignee set to Benjamin Drieu

Also available in: Atom PDF