Projet

Général

Profil

Anomalie #1696

Reboot difficile de pavot ce matin - harmine non démarré

Ajouté par Frédéric Couchet il y a environ 8 ans. Mis à jour il y a plus de 3 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
Catégorie:
-
Version cible:
-
Début:
09/04/2016
Echéance:
% réalisé:

0%

Temps estimé:
Difficulté:
2 Facile

Description

Vendredi 8 avril, j'ai du redémarré pavot, le reboot n'a pas été simple et la VM harmine n'a pas pu être démarrée.

Historique

#1

Mis à jour par Frédéric Couchet il y a environ 8 ans

  • Description mis à jour (diff)
#2

Mis à jour par Frédéric Couchet il y a environ 8 ans

Pour le contexte voir https://agir.april.org/issues/1695 et notamment :

pavot # vserver redmine-test build -m rsync --context 42 --hostname redmine-test.april.org --interface dummy0:192.168.2.42/24 -- --source amphetamine

Notons que j'ai réellement lancé avec l'option "eth0:192.168.1.42/24" et ça a généré un effet de bord sur pavot.
La nouvelle VM redmine-test est donc configurée en 192.168.2.42 sur l'interface dummy0.
Mais il semblerait que mon "vserver redmine-test --interface eth0:192.168.1.42/24" a laissé au final une config bizarre sur pavot qui générait une erreur sur http://apr1.org/yourls.php "internal server
error".
En effet, quand on va sur http://apr1.org/yourls.php l'outil ouvre une connexion mysql sur 192.168.1.42 (qui est la VM LSD sur ns1, qui contient la base adhérents). Et l'outil n'arrivait pas à ouvrir cette connexion.
Sur pavot, route -n affichait notamment :
192.168.1.0     192.168.0.2     255.255.255.0   UG    0      0        0 tun0
192.168.1.0     0.0.0.0         255.255.255.0   U     0      0        0 dummy0

Je me suis dit qu'une route était en trop (la dummy0), je l'ai virée mais ça ne semblait pas régler le pb.
J'en ai eu marre et j'ai fait l'erreur de me dire que le plus simple était de rebooter pavot pour avoir de nouveau une config réseau propre.
Sauf que, après un "virsh reboot pavot" sur storm je n'avais plus accès à pavot. Pourant "virsh list" affichait bien :
       1     pavot                          running

J'ai passé du temps à essayer de comprendre comment accéder à la console de pavot depuis storm (virsh console pavot ne m'affichant que "Connected to domain pavot Escape character is ^]") et à regarder dans la doc admin sys mais sans succès. Je pensais bien que pavot était bloqué sur un fsck.
Finalement, une bonne âme chez les œufs m'a suggéré d'installer virt-manager sur mon laptop.
Install faite (très longue, je me demande si je n'ai pas un pb d'accès disque sur mon laptop), et je lance virt-manager pour me connecter ) storm (l'adresse est dans la doc admin sys).
Je clique sur pavot
et là je vois pavot qui attend comme une fleur le mot de passe root pour passer en mode maintenance, ou Ctrl-D) pour continuer.
J'ai fait Ctrl-D :)
pavot a redémarré.
Mais les VM mail et harmine n'ont pas redémarré. J'ai redémarré mail manuellement.
hebdobot n'as pas redémarré sur bots.
Impossible de redémarré harmine :
   root@pavot[storm]:~# vserver harmine starte start                                             
   /etc/init.d/rc: 5: /etc/default/rcS: Syntax error: word unexpected (expecting ")")
   error: '/etc/init.d/rc' exited outside the expected code flow.

et effectivement le fichier /srv/vservers/harmine/etc/default/rcS a une sale gueule.
Harmine semblait tourner encore hier (j'ai vu que le répertoire des backups de BackupPC avait des fichiers datant de cette nuit).
Je ne sais pas comment vous avez redémarré harmine la dernière fois.
Comment aviez-vous accéder à la console de pavot la dernière fois (car je suppose que le problème s'était produit).
À quel endroit de la doc admin sys j'ajoute les infos pour un reboot de pavot ?

#3

Mis à jour par Benjamin Drieu il y a environ 8 ans

Pour rebooter harmine, dont les fichiers du répertoire /etc/defaults étaient tout borkés, j'ai fait (en gros) à partir de pavot:

# cp /srv/vservers/amphetamine/etc/defaults/* /srv/vservers/harmine/etc/defaults/* 

Et ça m'a permis de redémarrer harmine:

# vserver harmine start

Note:on ne peut pas garantir que d'autres fichiers soient bortchés. Et notamment des fichiers de backuppc. En conséquence, je pense qu'on peut considérer que le backup de harmine est potentiellement invalide.

#4

Mis à jour par Benjamin Drieu il y a plus de 7 ans

  • Description mis à jour (diff)
  • Statut changé de Nouveau à Résolu

Corrigé avec le nouveau SI.

#5

Mis à jour par Quentin Gibeaux il y a presque 5 ans

  • Statut changé de Résolu à Fermé
#6

Mis à jour par Christian P. Momon il y a plus de 3 ans

  • Assigné à mis à Benjamin Drieu

Formats disponibles : Atom PDF