Incident grave sur l’infrastructure le 22.11.2016

Bonjour à toutes et à tous,
comme vous l’avez très probablement constaté hier après-midi (mardi 22 novembre 2016), nous avons rencontré un grave incident sur la plate-forme matérielle de Paris.

Cet incident a engendré une coupure immédiate de presque tous les serveurs physiques sur le site de Paris et donc de tous les serveurs virtuels impactant ainsi tous les services délivrés par Web4all.

N’ont pas été impactés les serveurs situés à Roubaix et en Ariège assurant la redondance des DNS et rétention des emails ainsi que les serveurs assurant des rôles de stockage de données ou de sauvegardes.

Il est assez compliqué d’expliquer sans rentrer dans des détails techniques. Pour résumer nous devions, sur notre système de gestion d’infrastructure de virtualisation, effectuer une modification. Cette modification impacte la gestion des serveurs physiques et a déjà été effectué près d’une dizaine de fois depuis ces trois dernières années sans jamais le moindre souci.

Alors que tout se déroulait correctement (95 % des modifications poussées sur les serveurs), la dernière étape à provoqué une erreur. Mais pas un petit message d’erreur comme cela aurait dû / pu être le cas, l’ensemble des serveurs ont complètement et immédiatement « plantés ».

Nous avons donc relancé tous nos serveurs physiques. La plupart des serveurs virtuels et services ont commencés à redevenir opérationnels.

Cela a duré un peu plus d’une heure avant que l’infrastructure ne retombe à nouveau.

Nous avons alors dû déployer un serveur de gestion indépendant nous permettant de repousser une autre configuration sur les serveurs puis nous avons pu relancer tous les serveurs virtuels et les services.  Dans la mesure où tous les serveurs ont été arrêtés subitement (un peu comme si ils avaient eu une coupure d’alimentation électrique) nous avons eu pas mal de services en erreur de redémarrage à corriger afin que tout cela devienne opérationnel pour vous et vos utilisateurs.

Voici la chronologie des faits (heure de Paris) : 

  • 11H42 : début de l’intervention ;
  • 12H16 : coupure de tous les serveurs physiques ;
  • 12H55 : services opérationnels à 70% ;
  • 14H23 : nouvelle coupure complète des services ;
  • 14H57 : services opérationnels à 80% ;
  • 17H01 : services opérationnels à 90% ;
  • 17H59 : fin de l’incident, 100% des services opérationnels.

La coupure réelle et complète des services est d’environ 1H10.

L’ensemble de la coupure (incluant des services fonctionnant mal) est de 3H15.

Nous avons mis en place un serveur de virtualisation et les outils de gestion, indépendant de l’infrastructure de production pour reproduire le problème… ce que nous parvenons à faire dans 100 % des essais depuis hier soir. Sans trop nous avancer, cela laisse penser à un bug sur le système de virtualisation.

Nous sommes vraiment désolé pour cet incident et vous prions de nous excuser pour cette gêne en espérant que cela ne vous ait pas été trop préjudiciable.

Nous avions prévu en début de semaine de faire un petit article pour revenir sur la soirée de vendredi 18 où nous avons pu célébrer les 10 ans de Web4all mais vous comprendrez que cela est quelques peu repoussé, nous essayons de faire un article pour la fin de la semaine.

N’hésitez pas à suivre nos comptes Twitter, Facebook et la page Travaux dans ces là :

  • https://twitter.com/web4all_fr
  • https://www.facebook.com/Web4all.fr/
  • https://travaux.web4all.fr

Aurélien PONCINI


Pour ceux qui veulent un peu plus d’informations techniques, la modification impactait des switchs virtuels distribués sur nos serveurs ESXi. Nous avons rencontré l’erreur sur le DVs utilisant du LACP alors que les autres DVs ne posaient pas de souci.

Nous avons refait plus de 10 fois la modification depuis hier et à chaque fois nous rencontrons l’erreur sur le DVs utilisant du LACP. Cette intervention a déjà été réalisé à de nombreuses reprises sans jamais provoquer une telle erreur.

Dans tous les cas, comme hier, les serveurs affichent instantanément un PSOD (équivalement du BSOD de Windows).

Nous continuons nos tests et investigations…

aurelien.poncini

Conseil d'Administration

15 réponses à “Incident grave sur l’infrastructure le 22.11.2016

  1. 12h23 à 14h32 de down pour ma part. Merci pour le retour et bon courage pour trouver le bug, j’imagine que vous avez ouvert un ticket chez VMWare pour leur signaler ? Les beaux écrans violets font toujours flipper, sans parler de l’arrêt brutal des VMs 🙂

    1. Non car après pas mal de recherches je me suis rendu compte que depuis le passage en v6 VMware considère que pour migrer un DVs il faut passer par une étape transitoire sur un switch normal donc cela ne sera pas qualifié de bug pour eux 🙁

      Il faudra donc qu’on fasse différemment, pour le moment la prod tourne, on va voir comment gérer cela pour nos évolutions car on ne pourra pas repousser indéfiniment 🙁

      1. Monsieur PONCINI cela fait maintenant une semaine que nous rencontrons des problèmes sur l’envoi et la réception de nos mails. Malgré l’ouverture de tickets SAV, cela n’est pas réglé et cela génère de forts problèmes d’activités et une perte potentielle de CA et clients. Cela n’est pas la première fois que nous rencontrons des problèmes malheureusement. Il est impossible de vous joindre par téléphone et cela est anormal. Merci de prendre contact avec nous le plus rapidement possible afin de résoudre cette problématique.

        1. Bonjour,
          le but des commentaires n’est pas de faire du support. Si vous avez déjà ouvert un ticket support alors il est en cours de traitement.

          Il y a en effet sur certains comptes des retards de livraisons mais pas de perte de mails et nous y travaillons.

          Concernant le numéro de téléphone, ceci est tout à fait normal il n’y a jamais eu de support téléphonique.

  2. Web 4 all toujours au taket pour nous fournir un service au top, au meilleur rapport qualité prix.
    Et en plus, des rois de la com’
    Solidaire dans l’adversité !
    Merci les gars !
    Olivier

  3. Merci à vous pour votre retour et l’excellent gestion de cet incident !
    N’étant pas très technique, je ne vous cache pas que je suis toujours rassuré quand les problèmes sur mon site ne viennent pas de moi 😉

  4. Je ne suis pas sûr que les entreprises parmi lesquelles les géants du web auraient été aussi réactives et transparentes dans la communication et le résolution du pb.
    Encore merci pour le service pro et bon courage à vous !!

  5. Bonjour,
    Merci pour la réactivité et le suivi.
    Mais… vous n’avez pas un pb d »heure sur le serveur de ce blog ?
    Ma machine indique 17h38 ce 23/11 et les précédents posts sont 1h plus tard…

  6. Je suis complètement d’accord avec Eric quand à la réactivité et les explications bien fournies.
    Chez d’autres hebergeurs ( pour ne pas dire 90%), ont auraient casiment rien comme infos !
    Pas ma part, je ne me plein pas :). Web4all à toujours fourni un service impeccable avec un sav au top !
    Vivement les vps 🙂
    Bon courage pour la suite des test.

  7. Hello !

    Forcément lorsque nous avons reçu toutes ces alertes incidents (bon ok, nous sommes plutôt bien placés pour ça), nous nous sommes demandé ce qu’il se passait.

    Néanmoins, nous avons pu constater que vous avez géré la situation avec brio, professionnalisme et sans politique de l’autruche.

    Bravo ! 🙂

  8. « Clean » est le premier mot qui me viens en tête et « pro » serait le second, concernant la gestion de cet incident majeur qui a du être un peu anxiogène pour l’équipe d’exploitation. Bravo et merci.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *