Demande #976
closedDemande #1105: organisation de l'agilité dans l'équipe d'administration système
réunion admin sys novembre
Description
Suite à discussion sur irc on fait la réunion jeudi 1er novembre à 11h
au local de l'April. Durée max : 1h30.
Proposition d'ordre du jour:
- Quel est le problème ?
- Exposé des use cases qui motivent la réunion ( cf interview fcouchet pour des use case d'admin sys #964 )
- Liens avec la dette technique
- Quelles sont les solutions ?
- Méthodes
- Moyens
- Personnel
Updated by Loïc Dachary about 12 years ago
Je souhaiterais que vous me fassiez le plus rapidement possible svp une
liste et un chiffrage sur les besoins précis (matériel, humain…) en vue
d'une remise à plat admin sys impliquant des backups, de la redondance
et tout ce qu'il faut… éventuellement en mettant des critères de
prioritisation, des scenaris.
En gros, je voudrais savoir combien ça couterait en ressources pour
avoir un système opérationnel/fiable (termes à définir :)) avec
éventuellement un draft de plan d'action (mais ça c'est du bonus).
Ne pas vous préoccupez svp du montant final de la "facture".
Moi, je verrai pour trouver comment répondre à vos besoins
(partiellement, totalement).
On fait un point irl pour discuter par rapport au chiffrage préparé.
J'ai ouvert un pad pour fixer la date de la réunion (avant le 15
novembre ce serait pas mal). S'il faut faire deux réunions on en fera
deux.
Merci d'indiquer vos disponiblités :
http://framadate.org/8lk4i75r32z6pyeb
Je vous mets le log irc #april-admin pour info (pas fondamental à lire):
[10/19/12 12:10] <madix> j'ai redémarré bots pour la revue hebdo, je l'arrêterai après si nécessaire [10/19/12 12:15] <theo_taf> Oui, tu as bien fait. [10/19/12 12:17] <madix> mais bon, la procédure est un peu lourde juste pour un bot :) [10/19/12 12:25] <madix> j'arrête bots ? [10/19/12 12:27] <theo_taf> madix: c'est une solution temporaire. <theo_taf> madix: oui, arrête. <theo_taf> C'est mieux que de risquer un nouveau reboot. [10/19/12 12:28] *** april-supybot (~supybot@pavot.april.org) has quit: Remote host closed the connection <madix> done [10/19/12 12:30] <madix> cette situation ne peut vraiment plus durer et le "solution temporaire" je sais trop ce que ça veut dire à l'April :) [10/19/12 12:31] <madix> on a deux "petits" services fort utiles (april-supybot, hebdobot) qui ne sont plus réellement utilisables et il doit y avoir d'autres services dans ce cas <madix> on va régler le problème [10/19/12 12:33] <madix> Je souhaiterais que vous fassiez asap une liste et un chiffrage sur les besoins précis (matériel (serveurs, réseau…), humain…) en vue d'une remise à plat totale admin sys impliquant des backups, de la redondance et tout ce qu'il faut… <madix> sans se préoccuper du montant final de la facture [10/19/12 12:34] <madix> éventuellement en mettant des critères de prioritisation <madix> et moi, je trouve comment répondre à vos besoins <madix> theo_taf: ça te va ? [10/19/12 12:39] <theo_taf> madix: yes. <madix> je vous fais un courriel alors [10/19/12 12:40] <theo_taf> madix: à priori, il suffit de racheter un peu de RAM, ce qui permettra d'attendre la migration sur yopo. <madix> theo_taf: non, non et non <madix> je me fous d'une solution qui règle 1 pb, je veux qu'on règle tous les soucis [10/19/12 12:41] <madix> aujourd'hui y a des backups croisés dont on ne sait même pas si la restauration est fonctionnelle <madix> on a aucune redondance <theo_taf> Qu'est ce que tu entends par « tous les soucis » ? Pour moi le soucis qu'on a, c'est le manque de RAM qui fait rebooter le serveur. <madix> je veux savoir combien couterait un système réellement satisfaisant [10/19/12 12:42] <theo_taf> madix: Quel est le problème avec les backups ? <madix> theo_taf: cf votre discussion d'hier soir avec _aeris_ Tu es sûr que les bases sql sont sauvegardées correctement ? <theo_taf> Jusqu'à maintenant on n'a jamais eu de problème de restauration. On n'a pas de procédure de tests périodique de restauration. Mais ça ne se corrige pas en achetant du matériel. <madix> un autre souci est que c'est moi qui a du redémarrer le serveur, sans notification [10/19/12 12:43] <madix> j'ai bien parlé de besoins matériels et humains <theo_taf> madix: pareil, l'histoire des bases, c'est une histoire de maintenance, pas de matériel. <theo_taf> Ok. <madix> autre exemple : on a un plantage serveur pendant 2 jours et aucun des services n'est redondé, il faut intervenir à l'arrâche [10/19/12 12:44] <madix> je ne dis pas que tout va mal, mais moi je veux savoir combien ça coute en ressources pour avoir un système opérationnel, fiable (#define) [10/19/12 12:50] <theo_taf> ok [10/19/12 12:52] <madix> vous avez des préférences pour une réunion (soirée/quels soirs, week-end) ? [10/19/12 12:54] <madix> 19h30 en semaine ça vous irait ? [10/19/12 12:55] <_aeris_> madix > pour hebdobot, je peux le remettre sur mon dédié en attendant <theo_taf> madix: moi ça dépend des jours. Si je ne suis pas de hotline, ça peut le faire. <theo_taf> Si je suis de hotline, je finis à 20:00. [10/19/12 12:56] <_aeris_> 19h30, ça doit se faire <madix> 19h30 ou 20h30 si theo est de hotline donc <_aeris_> sauf semaine prochaine, où j'ai un projet un poil hot sur le feu <madix> je prépare un sondage <madix> theo_taf: tu connais ton planning à l'avance ? [10/19/12 12:57] <theo_taf> madix: oui. Jusqu'à fin novembre pour le moment. #april-admin> <pre>
Updated by Loïc Dachary about 12 years ago
- Category set to Task
- Target version set to Novembre 2012
- Start date changed from 11/01/2012 to 10/19/2012
Updated by Loïc Dachary about 12 years ago
- % Done changed from 0 to 100
Présents : Vincent Xavier Jumel, Theocrite, Polux, Fred, Nicolas Vinot, Loic Dachary
Fred: merci d'être venu. Il y aura une réunion d'ici fin novembre. Objectif : de quoi on a besoin humain / technique pour remettre a plat l'admin sys. Fred évoque les use case décrit dans https://agir.april.org/issues/964
Les discussions sur les backups : est-on capable de redémarrer la base adhérent ? Est-on sur de pouvoir récupérer ?
Theo : on peut
Fred : c'est des backups file system ? De quand date le dernier mysqldump de la base adhérent ? En tant que DG c'est un point important. On est en mode de reflexion dégradé sur l'adminsys. Dans le local il y a deux machines qui servent de serveur vocal etc. mais elles sont anciennes. Ca a commencé avec les premiers serveurs de l'April. Mais si on devait re-créer une infrastructure de rien : qu'est-ce qu'il faudrait qu'on ait ? Pour avoir des backups avec la possibilité de reprendre avec un minimum de perte. Avec des scénarios bas / medium / haut. Et avec des couts financiers et humain. Est-ce qu'il est nécessaire d'embaucher quelqu'un ? L'essentiel c'est d'arreter de reflechir en mode dégradé. Sur la méthode ? Je ne sais pas. Mais je voudrais que ce soit rapide parcequ'on est bientot en AG et donc il faut faire valider des décisions et éventuellement des budgets. Il ne faut pas se limiter sur l'existant. De quoi on a besoin.
Fred : raconte de nouveau https://agir.april.org/issues/978
Nicolas Vinot : j'ai fait le tour et les machines se backup l'un l'autre parcequ'on a pas assez de machines. Je ne suis pas sur qu'on ait ce qu'il faut.
Fred : c'est pour ça que je demande ce qu'il faudrait faire. En tant que DG je me dis qu'il faut qu'on fasse quelque chose. Et vous en tant qu'adminsys vous êtes plus en train de gérer des merdes.
Theo : pour le DRAC ça marche sur les trucs classique. C'est juste cette machine qu'il y a prob.
Aeris : on a pas eu le temps de tester au moment de l'installation chez free (1/2 journée seulement).
Loic : il y a coincidence des problemes dans un bon nombre de cas.
Fred : je m'engage a trouver les moyens.
Theo : a natexis l'infrastructure est très différente. ( explication de la méthode de backup ).
Loic : je pense que la situation est simple, les besoins de l'April ne sont pas complexes.
Theo & Nicolas : il y a beaucoup de services.
Theo : il y a l'urgence ressentie et l'urgence réelle.
Fred : on a atteint une stabilisation dans les services de l'April. Quentin a ajouté plein de services ( pad, mumble, etc. )
Nicolas : on a pas été au bout du truc, les backups ? etc.
Fred : je ne vois pas de service manquant aujourd'hui. Le seul truc qu'il n'a pas fait c'est la migration drupal.
Nicolas : il faut faire le ménage. Il y a un gros boulot. Il faut monitorer chaque service. Il faut faire des interview des personnes impliquées.
Vincent Xavier : qu'est-ce qui est essentiel. Afficher un site web. Des mails fonctionnels. Un outil de gestion d'adhérent et des backups. Pour le reste on a fait sans Quentin. Est-ce qu'on est capable de redémarrer le site de l'April s'il crash ? Ou bien avoir un service dégradé. Quid d'avoir un second serveur de mail ? Quand un mail fait planter l'anti spam, comment on fait ? Les DOS anti-spam ça arrive, comment on traite.
Fred : je suis d'accord avec toi, mais dans l'absolu tous les services sont critiques. Par exemple si la base adhérent n'est pas accessible alors c'est une catastrophe. Le pad est out on fait quoi ? Une anglophone peut relire et corriger pendant 3 heures, si le pad est out alors on fait quoi ? Tous les services collaboratifs doivent être redondés.
Nicolas : sur le pad tu serais prêt à perdre combien ?
Fred : il faut que je puisse lui remettre une version.
Nicolas : en automatisant l'installation de machines via chef, on peut remonter la machine mais on perd les données.
Fred : oui, si je dois remettre le texte ailleurs en 20 minutes ça me va. Dans la structure de l'april le DG peut faire ça, on pourrait etre dans la situation ou le DG ne peut pas faire ça. Ce serait un problème.
Loic : propose d'appliquer l'agilité et présente https://agir.april.org/projects/admins/issues?query_id=16
Fred : c'est une bonne méthode pour gérer le quotidien mais qu'est ce tu proposes pour le quotidien ?
Loic : je pense que les besoins sont simples. Je propose un serveur d'integration continue.
Fred : qui maitrise ça ?
Loic : moi
Fred : il est indispensable que plusieurs personnes maitrisent tout ça.
VX : il faut se former de façon croisée aux outils qu'on utilise.
Nicolas : l'avantage c'est que tout est automatisé. Donc il n'y a pas tout a comprendre.
Loic : la courbe d'apprentissage
Fred : je veux être convaincu que c'est perenne.
Loic : vserver c'est perenne.
Fred : je ne veux pas de déception de fonctionalités.
VX : du point de vue de la pérénité, vserver n'a jamais été intégré.
Theo : je ne sais pas utiliser backuppc. raceme et hervé savent. On manque de maitrise.
Fred : je sais deployer et restaurer du backuppc.
Theo : quid de la pre-prod ? Pourquoi pas de pre-prod ?
Loic : (explication confuse)
Fred : coté matériel ?
Loic : je propose de prendre 2 x 2 machines chez deux providers. Lorsque l'integration continue est mise en place, prendre une personne pendant 6 mois pour faire le travail fastidieux d'appliquer les bonne sondes sur les ressources via l'integration.
Theo : pour le moment on est assez haut. Je demande des précisions sur les détails techniques.
Fred : alors concretement on a besoin de quels moyens ?
Loic : je suis confiant que à la fin du mois tu auras une expression de besoin techniques et humain.
Updated by Loïc Dachary almost 12 years ago
- Subject changed from Réunion admin sys to réunion admin sys novembre