YorkHost - Erreur inattendue dans le jeu 20 – Détails de l'incident

82.41.119.0/24 (edge2-par5-dgr) connaît une panne partielle

Erreur inattendue dans le jeu 20

Résolu
Panne majeure
Signalé le il y a 4 joursA duré 28 minutes

Concernés

GAME

Opérationnel depuis 11:17 PM à 11:17 PM, Panne majeure depuis 11:17 PM à 11:26 PM, Opérationnel depuis 11:26 PM à 11:35 PM, Panne majeure depuis 11:35 PM à 11:45 PM

GAME-NODE-20

Opérationnel depuis 11:17 PM à 11:17 PM, Panne majeure depuis 11:17 PM à 11:26 PM, Opérationnel depuis 11:26 PM à 11:35 PM, Panne majeure depuis 11:35 PM à 11:45 PM

Mises à jour
  • Résolu
    Résolu
    This incident has been resolved.
  • Détecté
    Détecté

    SAme issue i'm looking for a temp fix.

  • Postmortem
    Postmortem

    Analyse post-mortem — BL08 / GAME-NODE-20 (M1K02)

    Résumé

    Le nœud BL08, hébergé dans le châssis M1K02 du centre de données DC2SCALE PAR3, a subi une interruption de réseau due à une instabilité matérielle suite à une récente mise à niveau de la mémoire. Le service est désormais rétabli.

    Problème 1 — Instabilité de la mémoire (DIMM)

    Suite à l'ajout récent de mémoire vive, le contrôleur de gestion du serveur a signalé une erreur critique de barrette DIMM, provoquant un plantage système et un redémarrage inattendu. La cause la plus probable est un module de mémoire défectueux ou un problème de compatibilité avec la configuration existante.

    Problème 2 — Instabilité de la liaison réseau (mezzanine 10G)

    Suite à la panne de mémoire, la carte mezzanine du serveur a subi des défaillances. Le pilote ixgbe a signalé des erreurs répétées link_config FAILED -22 au démarrage, et la liaison montante 10G vers le commutateur amont a présenté des fluctuations importantes, empêchant une connectivité stable. Ce comportement est caractéristique d'une carte réseau restée dans un état instable après la panne brutale, et pourrait être aggravé par l'instabilité de la mémoire sous-jacente.

    Résolution

    Un redémarrage complet de la lame a été effectué, permettant à la carte mezzanine de se réinitialiser correctement et à la liaison réseau de se rétablir de manière stable. Le nœud est désormais de nouveau en ligne et traite le trafic normalement.

    Prochaines étapes

    Une intervention sur site sera programmée au DC2SCALE PAR3 afin de réaliser un diagnostic approfondi des modules de mémoire et de remplacer toute barrette DIMM défectueuse, le cas échéant. L'interface réseau sera également surveillée de près pendant cette période ; si l'instabilité persiste après la résolution du problème de mémoire, la carte mezzanine sera également remplacée.

    Nous vous prions de nous excuser pour la gêne occasionnée et vous remercions de votre patience.

  • Résolu
    Résolu
    This incident has been resolved.
  • Mettre à jour
    Mettre à jour

    Le problème provient d'une récente mise à niveau de la mémoire vive (RAM) qui provoque des instabilités (il est possible qu'un module de RAM soit défectueux). Un test approfondi sur site sera effectué dès que possible. Nous travaillons actuellement à la remise en service du nœud.

  • Identifié
    Identifié
    We are continuing to work on a fix for this incident.
  • Détecté
    Détecté
    We are currently investigating this incident.