Incident Générique du 09/11/2016 et 10/11/2016

Nous avons subi une panne ce jour à 14h12. 

L’un de nos HyperViseur à perdu la totalité de sa connectivité réseau sur le 2 cartes 10G de celui-ci. Nous avons alors décidé de désactiver la carte de Teaming servant à la redondance réseau et qui nous semblait provoquer le problème.

14h19 le Teaming a été désactivé mais par erreur sur le mauvais serveur, coupant alors le réseau sur un autre HyperViseur. A 14h21 le réseau été rétabli sur ce dernier.

14h23 le Teaming est désactivé, et au moment de cette commande, le serveur a fait un écran bleu et a lancé un reboot complet.

14h33 l’HyperViseur avait complètement redémarré, et toutes les VM sont à nouveau disponibles.

La plupart des services sont de nouveau disponibles, mais certains services très spécifiques ont nécessité des reboot de machines. A 14h45 tous les services sont stables.

17h03 le problème se reproduit. Au moment de la desactivation du Teaming, nouvelle écran Bleu.

17h13 tous les services sont remontés.

10/11/2016 – 9h02 – Nous subissons de nouveau une panne. Nous avons identifié l’origine de la panne qui est un défaut d’une carte réseau qui surchauffe et qui produit des écrans bleu sur le téléphone. Nos actions corrective d’hier n’ont pas corrigé le problème.

La partie VOIP a été déplacé sur une machine physique différente.

9h08 : La machine est de nouveau opérationnel.

9h09 : Nous déplaçons d’autres machines critiques sur un autre serveur pour limiter l’impact.

9h30 : Nos déplacements de machines.

10h07 : Erreur iixgbt : Dell nous fait désactiver des fonctions de gestions d’énergie qui semble provoquer le problème (retour d’information sur Internet)

10h18 : Mise à jour de l’IDrac afin d’obtenir plus de LOG

11h24 : Plan d’action

  • Mise à jour de tous les firmware et de tous les pilotes.

ACTIONS EN CORRECTIVES du 09/11/2016

Nous avons menés plusieurs actions correctives à la suite de cette seconde panne.

  • Changement du mode de Teaming de LACP vers Indépendant du Switch
  • Ajout d’une Carte 1G dans le Teaming
  • Isolation sur une carte 1G indépendante de la Base de Données VOIP

D’après l’analyse des LOG l’écran bleu provient d’une erreur au niveau de la couche réseau de l’OS.

Un ticket DELL vient d’être ouvert pour collecter les informations sur la carte réseau 10G.

ACTIONS EN CORRECTIVES du 14/11/2016

Nous avons changé la carte 10G, et mis à jour tous les Firmwares / Pilotes de la machine physique. L’intervention sur la machine physique à débuté à 19h et c’est terminé à 21h.

Nous avons remis quelques machines en production et n’avons constaté aucun nouveau problème.