Projet

Général

Profil

Anomalie #1702

Problème d'arrêt d'apache2 lors du logrotate sur sympa.cluster.april.org

Ajouté par Quentin Gibeaux il y a presque 8 ans. Mis à jour il y a plus de 6 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
Catégorie:
-
Version cible:
-
Début:
21/04/2016
Echéance:
% réalisé:

100%

Temps estimé:
Difficulté:
2 Facile

Description

Suite à la migration de la VM :

Le matin, listes.april.org/wws répond du 504.
Après investigation :
  • les logs sont rotatés mais aucun processus apache n'utilise les nouveau fichiers, seuls les log.1 sont ouverts (pas de pid retourné par lsof sur .log, mais sur .log.1 si)
  • après un stop d'apache, un processus reste ouvert :
    www-data 1609 0.0 0.2 83208 4692 ? S avril19 0:01 /usr/sbin/apache2 -k start

Un kill de ce processus et un start d'apache remet en marche listes.april.org/wws

Ce problème s'est produit deux matins de suite.


Demandes liées

Lié à Admins - Anomalie #3411: Les services Sympa ont des soucis (mémoire, site web inaccessible).Fermé03/11/2018

Actions
Lié à Infra Chapril - Anomalie #3928: Le site https://listes.chapril.org/ n'est plus accessibleFermé14/10/2019

Actions

Historique

#1

Mis à jour par Quentin Gibeaux il y a presque 8 ans

Le problème se reproduit d'un simple reload/restart d'apache2

#2

Mis à jour par Quentin Gibeaux il y a presque 8 ans

Cette VM est bien issue de la migration de mail@pavot ?
Si c'est le cas, dans la migration il y a eu un passage d'apache de la version 2.22 à 2.4, c'est peut être une piste…

#3

Mis à jour par Quentin Gibeaux il y a presque 8 ans

benj a modifié le configuration d'apache2 pour ne plus servir les CGI en mode FASTCgi (mais un autre mode plus lent), ça a l'air d'avoir résolu le problème.
Cf :

< benj!~user@home.drieu.org: j'ai passé wws en CGI normal
< benj!~user@home.drieu.org: les perfs sont moins bonnes mais ça permettra d'attendre que je retouche à ça

Peut-on avoir un détail de la modification ?

#4

Mis à jour par Frédéric Couchet il y a presque 8 ans

  • Assigné à mis à Benjamin Drieu
#5

Mis à jour par Benjamin Drieu il y a presque 8 ans

J'ai juste supprimé le module fcgid et le SetHandler fcdi-script du fichier /etc/apache2/conf-available/sympa.conf

#6

Mis à jour par Benjamin Drieu il y a presque 8 ans

  • Description mis à jour (diff)
  • Statut changé de Nouveau à Résolu
  • % réalisé changé de 0 à 100
#7

Mis à jour par François Poulain il y a plus de 6 ans

J'ai ajouté l'user www-data au groupe sympa pour lui permettre de killer le process :

usermod -a -G sympa www-data

J'ai restauré le fcgi car on avait de gros problèmes de montée en charge.

Par ailleurs j'ai cour-cuircuité l'accès aux rss de sympa qui peut engendrer pas mal de calcul.

Question pour benj : sympa-soap.conf est il une nécessité ? Ne sachant pas à quoi ça nous sert, je l'ai viré.

#8

Mis à jour par François Poulain il y a plus de 6 ans

Bien sur un logrotate -f /etc/logrotate.d/sympa fait le job. :)

#9

Mis à jour par François Poulain il y a plus de 6 ans

beh non, ya aut'chose...

#10

Mis à jour par François Poulain il y a plus de 6 ans

Trouvé.

D'une part je pensais la fois d'avant avoir réussi car le reload fonctionnait. Mais, trop pressé que j'étais, je n'ai pas reloadé la page web et je n'ai pas laissé à nagios le temps de le faire, du coup le reload et le logrotate ont fonctionné car il n'y avait pas de process fcgi.

Ensuie la source de notre problème est le mpm_event. La solution :

 a2dismod mpm_event && a2enmod mpm_prefork

Pour info : https://serverfault.com/questions/383526/how-do-i-select-which-apache-mpm-to-use
La page qui m'a mise sur la voie (oui, plesk, c'est moche ...) : https://support.plesk.com/hc/en-us/articles/213946305-Apache-crashes-on-reload-and-websites-show-502-Bad-Gateway-seg-fault-or-similar-nasty-error-detected-in-the-parent-process

#11

Mis à jour par François Poulain il y a plus de 6 ans

Par ailleurs une limite de 20 processes fcgid permet de passer un stress test soutenu, avec le cpu à 100% et la RAM à 100% (sans swap).

#12

Mis à jour par François Poulain il y a plus de 6 ans

Le stress test :

# cat ./stress_april.org.sh
while true
do
     curl -s https://listes.april.org/wws/lists>/dev/null &
     curl -s https://listes.april.org/wws/info/accessibilite>/dev/null &
     curl -s https://listes.april.org/wws/subscribe/campagne-adhesion>/dev/null &
     curl -s https://listes.april.org/wws/rss_request/campagne-adhesion>/dev/null &
     curl -s 'https://listes.april.org/wws/rss/latest_arc/sensibilisation?count=2000&for=10000'>/dev/null &
     echo -n .
     sleep .2
done

En CGI, un sleep 2 suffisait à stresser fortement le serveur. D'ou une source supposée des outages récents de sympa.

#13

Mis à jour par François Poulain il y a plus de 6 ans

Malheureusement ça ne fait pas tout. Désormais on a un apache qui stop/stop correctement mais le reload est toujours HS.

On a cette erreur ci : http://blog.kavoori.com/2015-03-21/apache-crash-with-seg-fault.html

Pour contourner temporairement le problème :

--- a/etc/logrotate.d/apache2
+++ b/etc/logrotate.d/apache2
@@ -10,9 +10,11 @@
     create 640 root adm
     sharedscripts
     postrotate
-                if /etc/init.d/apache2 status > /dev/null ; then \
-                    /etc/init.d/apache2 reload > /dev/null; \
-                fi;
+           systemctl stop  apache2.service
+               systemctl start apache2.service
+               #if /etc/init.d/apache2 status > /dev/null ; then \
+               #    /etc/init.d/apache2 reload > /dev/null; \
+               #fi;

#14

Mis à jour par François Poulain il y a plus de 6 ans

  • Statut changé de Résolu à En cours de traitement

Suffit pas. Je repasse le apache en cgi temporairement.

#15

Mis à jour par François Poulain il y a plus de 6 ans

Je pense qu'on gagnera notre énergie à d'abord passer la vm en stretch.

#16

Mis à jour par François Poulain il y a plus de 6 ans

  • Statut changé de En cours de traitement à Fermé

sympa a migré \o/

#17

Mis à jour par François Poulain il y a plus de 5 ans

  • Lié à Anomalie #3411: Les services Sympa ont des soucis (mémoire, site web inaccessible). ajouté
#18

Mis à jour par Christian P. Momon il y a plus de 4 ans

  • Lié à Anomalie #3928: Le site https://listes.chapril.org/ n'est plus accessible ajouté

Formats disponibles : Atom PDF