Project

General

Profile

Anomalie #1702

Problème d'arrêt d'apache2 lors du logrotate sur sympa.cluster.april.org

Added by Quentin Gibeaux about 6 years ago. Updated over 4 years ago.

Status:
Fermé
Priority:
Normale
Category:
-
Target version:
-
Start date:
04/21/2016
Due date:
% Done:

100%

Estimated time:
Difficulté:
2 Facile

Description

Suite à la migration de la VM :

Le matin, listes.april.org/wws répond du 504.
Après investigation :
  • les logs sont rotatés mais aucun processus apache n'utilise les nouveau fichiers, seuls les log.1 sont ouverts (pas de pid retourné par lsof sur .log, mais sur .log.1 si)
  • après un stop d'apache, un processus reste ouvert :
    www-data 1609 0.0 0.2 83208 4692 ? S avril19 0:01 /usr/sbin/apache2 -k start

Un kill de ce processus et un start d'apache remet en marche listes.april.org/wws

Ce problème s'est produit deux matins de suite.


Related issues

Related to Admins - Anomalie #3411: Les services Sympa ont des soucis (mémoire, site web inaccessible).Fermé11/03/2018

Actions
Related to Infra Chapril - Anomalie #3928: Le site https://listes.chapril.org/ n'est plus accessibleFermé10/14/2019

Actions

History

#1

Updated by Quentin Gibeaux about 6 years ago

Le problème se reproduit d'un simple reload/restart d'apache2

#2

Updated by Quentin Gibeaux about 6 years ago

Cette VM est bien issue de la migration de mail@pavot ?
Si c'est le cas, dans la migration il y a eu un passage d'apache de la version 2.22 à 2.4, c'est peut être une piste…

#3

Updated by Quentin Gibeaux about 6 years ago

benj a modifié le configuration d'apache2 pour ne plus servir les CGI en mode FASTCgi (mais un autre mode plus lent), ça a l'air d'avoir résolu le problème.
Cf :

< benj!~user@home.drieu.org: j'ai passé wws en CGI normal
< benj!~user@home.drieu.org: les perfs sont moins bonnes mais ça permettra d'attendre que je retouche à ça

Peut-on avoir un détail de la modification ?

#4

Updated by Frédéric Couchet about 6 years ago

  • Assignee set to Benjamin Drieu
#5

Updated by Benjamin Drieu about 6 years ago

J'ai juste supprimé le module fcgid et le SetHandler fcdi-script du fichier /etc/apache2/conf-available/sympa.conf

#6

Updated by Benjamin Drieu almost 6 years ago

  • Description updated (diff)
  • Status changed from Nouveau to Résolu
  • % Done changed from 0 to 100
#7

Updated by François Poulain over 4 years ago

J'ai ajouté l'user www-data au groupe sympa pour lui permettre de killer le process :

usermod -a -G sympa www-data

J'ai restauré le fcgi car on avait de gros problèmes de montée en charge.

Par ailleurs j'ai cour-cuircuité l'accès aux rss de sympa qui peut engendrer pas mal de calcul.

Question pour benj : sympa-soap.conf est il une nécessité ? Ne sachant pas à quoi ça nous sert, je l'ai viré.

#8

Updated by François Poulain over 4 years ago

Bien sur un logrotate -f /etc/logrotate.d/sympa fait le job. :)

#9

Updated by François Poulain over 4 years ago

beh non, ya aut'chose...

#10

Updated by François Poulain over 4 years ago

Trouvé.

D'une part je pensais la fois d'avant avoir réussi car le reload fonctionnait. Mais, trop pressé que j'étais, je n'ai pas reloadé la page web et je n'ai pas laissé à nagios le temps de le faire, du coup le reload et le logrotate ont fonctionné car il n'y avait pas de process fcgi.

Ensuie la source de notre problème est le mpm_event. La solution :

 a2dismod mpm_event && a2enmod mpm_prefork

Pour info : https://serverfault.com/questions/383526/how-do-i-select-which-apache-mpm-to-use
La page qui m'a mise sur la voie (oui, plesk, c'est moche ...) : https://support.plesk.com/hc/en-us/articles/213946305-Apache-crashes-on-reload-and-websites-show-502-Bad-Gateway-seg-fault-or-similar-nasty-error-detected-in-the-parent-process

#11

Updated by François Poulain over 4 years ago

Par ailleurs une limite de 20 processes fcgid permet de passer un stress test soutenu, avec le cpu à 100% et la RAM à 100% (sans swap).

#12

Updated by François Poulain over 4 years ago

Le stress test :

# cat ./stress_april.org.sh
while true
do
     curl -s https://listes.april.org/wws/lists>/dev/null &
     curl -s https://listes.april.org/wws/info/accessibilite>/dev/null &
     curl -s https://listes.april.org/wws/subscribe/campagne-adhesion>/dev/null &
     curl -s https://listes.april.org/wws/rss_request/campagne-adhesion>/dev/null &
     curl -s 'https://listes.april.org/wws/rss/latest_arc/sensibilisation?count=2000&for=10000'>/dev/null &
     echo -n .
     sleep .2
done

En CGI, un sleep 2 suffisait à stresser fortement le serveur. D'ou une source supposée des outages récents de sympa.

#13

Updated by François Poulain over 4 years ago

Malheureusement ça ne fait pas tout. Désormais on a un apache qui stop/stop correctement mais le reload est toujours HS.

On a cette erreur ci : http://blog.kavoori.com/2015-03-21/apache-crash-with-seg-fault.html

Pour contourner temporairement le problème :

--- a/etc/logrotate.d/apache2
+++ b/etc/logrotate.d/apache2
@@ -10,9 +10,11 @@
     create 640 root adm
     sharedscripts
     postrotate
-                if /etc/init.d/apache2 status > /dev/null ; then \
-                    /etc/init.d/apache2 reload > /dev/null; \
-                fi;
+           systemctl stop  apache2.service
+               systemctl start apache2.service
+               #if /etc/init.d/apache2 status > /dev/null ; then \
+               #    /etc/init.d/apache2 reload > /dev/null; \
+               #fi;

#14

Updated by François Poulain over 4 years ago

  • Status changed from Résolu to En cours de traitement

Suffit pas. Je repasse le apache en cgi temporairement.

#15

Updated by François Poulain over 4 years ago

Je pense qu'on gagnera notre énergie à d'abord passer la vm en stretch.

#16

Updated by François Poulain over 4 years ago

  • Status changed from En cours de traitement to Fermé

sympa a migré \o/

#17

Updated by François Poulain over 3 years ago

  • Related to Anomalie #3411: Les services Sympa ont des soucis (mémoire, site web inaccessible). added
#18

Updated by Christian P. Momon over 2 years ago

  • Related to Anomalie #3928: Le site https://listes.chapril.org/ n'est plus accessible added

Also available in: Atom PDF