Projet

Général

Profil

Anomalie #1337

Crash ns1 (Disaster recorvery Openstack)

Ajouté par Quentin CHERGUI il y a plus de 10 ans. Mis à jour il y a plus de 10 ans.

Statut:
Fermé
Priorité:
Urgente
Assigné à:
Catégorie:
Task
Version cible:
-
Début:
01/08/2013
Echéance:
% réalisé:

100%

Temps estimé:
Difficulté:
2 Facile

Description

ns1 a crashée.
Stuck en state poweroff dans Openstack.

État des vservers :
nginx : ok
relay : Postfix lancé
dns2 : ok
lamp : ya encore des choses dessus en prod ?
theobromine : candidats.fr OK
candidatsbe : ok
thc : ? (apache vide ?)
mediawiki : ok
dokuwiki : ok
lsd : à priori OK (gDTC accessible)
scm : à priori OK (ssh lancé)
munin : ok
pad : remonté
mumble : non testé

Historique

#1

Mis à jour par Quentin CHERGUI il y a plus de 10 ans

La machien est passé dans openstack de la state "active" à la state "shutoff". Après, un reboot, elle est restée coincée en state "reboot" pour Openstack.
La console VNC était également inacessible.

nova list
| 867d6568-4f78-499c-a9ee-b4d1584cb0ed |        ns1         |  SHUTOFF  | novanetwork=10.145.4.19 |
nova reboot ns1
| 867d6568-4f78-499c-a9ee-b4d1584cb0ed |        ns1         |   REBOOT  | novanetwork=10.145.4.19 |
[14:57:53] <kankan_01> dachary: ns1 est down... Pour le moment, stuck en state reboot, console VNC inaccessible
[14:59:38] <dachary> est-ce que vous avez fait qqc sur os.the.re ?
[15:00:12] <dachary> je vois que ns1 est en état reboot
[15:00:18] <kankan_01> dachary: nova reboot ns1 (quelques minutes après le crash, dans l'espoir qu'elle repaarte)
[15:00:24] <vincentxavier> dachary: kankan_01 a fait un nova reboot
[15:00:37] <dachary> ok

En regardant les logs, on a pû voir que c'est un OutOfMemory sur Yopo qui a tué ns1.
KVM étant tué, OpenStack ne peut plus rien faire et l'état reste stuck sur "rebooting".

[15:08:02] <vincentxavier> y'a eu un oom et c'est kvm qui a sauté
[15:08:42] <dachary> on est un peu limite coté ram
[15:11:11] <dachary> je grep rien qui match ns1 ni sur yopo ni sur bm0001
[15:11:23] <dachary> je fais un nouveau nova reboot
[15:11:31] <vincentxavier> ok
[15:11:46] <dachary> b4d1584cb0ed
[15:11:51] <dachary> en greppant ça j'ai qqc
[15:18:25] <dachary> 2013-08-01 14:46:54 TRACE nova.rpc.amqp Failed to allocate 8589934592 B: Cannot allocate memory
[15:18:39] <dachary> sur /var/log/nova/nova-compute.log
[15:18:45] <dachary> de yopo
[15:18:54] <dachary> on peut soit grep l'id de la machine
[15:19:00] <dachary> soit grep traceback

Pour récupérer un peu de RAM, on suspend une instance qui n'est pas encore en prod :

[15:19:54] <dachary> nova suspend spip-libre-en-fete
[15:20:04] <dachary> pour libérer 1GB et s'assurer que ça va boot
[15:20:43] <vincentxavier> ns1 consomme jusqu'à 8Go de mémoire
[15:20:56] <dachary> sur bm0001

Puis pour qu'Openstack puisse relancer la machine, on réinitialise l'état de la machine ns1 directement via MySQL :

[15:20:57] <dachary> mysql -e "select * from instances where hostname = 'ns1' and deleted = 0" nova
[15:22:24] <dachary> mysql -e "update instances set task_state = NULL where hostname = 'ns1' and deleted = 0" nova
[15:22:35] <dachary> pour sortir de l'état reboot stuck par la stack trace

Une fois l'état de la machine indéfini, et la RAM suffisante pour relancer la VM, on peut faire un nova reboot :

[15:24:53] <dachary> j'ai fait "nova reboot ns1" 
[15:25:23] <vincentxavier> dachary: et ça donne un résultat plus proban que kankan_01 tout à l'heure ?
[15:25:36] <kankan_01> vincentxavier: it's works :)

Puis pour libérer de la RAM définitivement, on décide de migrer une machine virtuelle ailleurs :

[15:28:24] <dachary> on va bouger agenda du libre sur bm0002
[15:28:28] <dachary> et lui donner une IP publique
[15:28:33] <dachary> et donc pas faire le hack
#2

Mis à jour par Quentin CHERGUI il y a plus de 10 ans

  • Sujet changé de Crash ns1 à Crash ns1 (Disaster recorvery Openstack)
#3

Mis à jour par Quentin CHERGUI il y a plus de 10 ans

Récupération des pads :

root@pad:/# /etc/init.d/etherpad-lite status
etherpad-lite is not running ... failed!
root@pad:/# /etc/init.d/etherpad-lite start
Starting Etherpad Lite...
done
root@pad:/# /etc/init.d/etherpad-lite status
etherpad-lite is not running ... failed!

[16:01:17] <kankan_01> OK... donc en le lançant manuellement (ie pas via le script d'init), ça marche
[16:03:04] <vincentxavier> oui, pareil, je suis arrivé à la même conclusion
[16:04:29] <kankan_01> vincentxavier: OK... encore une erreur de droit
[16:04:38] <kankan_01> root@pad:/var/log# su etherpad-lite
[16:04:38] <kankan_01> etherpad-lite@pad:/var/log$ /opt/etherpad-lite/bin/safeRun.sh /var/log/etherpad-lite/etherpad-lite.log
[16:04:38] <kankan_01> Logfile '/var/log/etherpad-lite/etherpad-lite.log' is not writeable
[16:07:42] <kankan_01> root@pad:/var/log# chown etherpad-lite etherpad-lite/etherpad-lite.log

Il reste un pad qui ne se charge plus (celui sur lequel Ebticem travaillait) :
http://pad.april.org/p/legalitepreferenceLL
Récupéré via l'historique par Janchou.
Edit 18h40 : en fait, il s'est mis à remarcher.
Au passage l'admin d'etherpad est réparée aussi :
[15:50:40] <kankan_01>  Warning: Unknown: failed to open stream: Permission denied in Unknown on line 0
[15:51:38] <vincentxavier> kankan_01: admin tu t'en fous pour l'instant, c'était déjà cassé avant
[15:52:25] <kankan_01> vincentxavier: ah, c'est pas forwardé sur le port 80 ?
[15:52:32] <kankan_01> bon, bah tans pis...
[15:52:40] <kankan_01> (j'avais déjà fait le chmod)
[15:53:56] <vincentxavier> kankan_01: si tu répares, ce truc, ça sera du bonux, mais ce n'est pas le plus important
[15:54:09] <vincentxavier> bon, très bien bravo

chmod 644 /var/www/pad.april.org/admin/index.php

#4

Mis à jour par Quentin CHERGUI il y a plus de 10 ans

  • Catégorie mis à Task
  • Statut changé de Nouveau à En cours de traitement
  • Assigné à mis à Quentin CHERGUI
  • Priorité changé de Normale à Urgente
  • % réalisé changé de 0 à 80
#5

Mis à jour par Quentin CHERGUI il y a plus de 10 ans

  • Statut changé de En cours de traitement à Fermé
  • % réalisé changé de 80 à 100

Personne n'a vu de problèmes depuis la apnne. On ferme.

Formats disponibles : Atom PDF