Incident Response für GPU-Cluster: Playbooks für häufige Ausfallszenarien
Aktualisiert am 8. Dezember 2025
Dezember 2025 Update: Flüssigkühlungsausfälle sind jetzt die häufigste Incident-Kategorie für moderne GPU-Cluster – CDU-Ausfälle, Leckageerkennung, Kühlmittelqualitätsprobleme. H100/H200-Ausfallzeiten kosten 25.000-40.000 USD pro GPU-Tag, was schnelle Reaktionen kritisch macht. AIOps-Plattformen (PagerDuty, Datadog) integrieren GPU-spezifische Runbooks. Elastic-Training-Frameworks reduzieren den Blast Radius von GPU-Ausfällen. Checkpoint-Frequenzoptimierung (10-15 Min.) minimiert Trainingsverluste durch Incidents.
Wenn 500 H100-GPUs während eines kritischen Trainingslaufs plötzlich offline gehen, kostet jede Sekunde 1.200 USD an verlorener Rechenzeit. Wenn die Flüssigkühlung in einem 2-MW-GPU-Cluster ausfällt, steigen die Temperaturen alle 30 Sekunden um 1°C in Richtung thermischer Abschaltung. Wenn die InfiniBand-Fabric während des verteilten Trainings partitioniert wird, werden 10.000 GPU-Stunden Berechnung wertlos. Diese Szenarien erfordern präzise, eingeübte Reaktionen, die Schäden minimieren und den Service schnell wiederherstellen. Dieser Leitfaden bietet praxiserprobte Playbooks für GPU-Infrastruktur-Incidents.
Incident-Klassifizierung und Schweregrade
GPU-Infrastruktur-Incidents erfordern spezialisierte Schweregrad-Klassifizierungen jenseits traditioneller IT-Frameworks. Severity 1 (Kritisch) Incidents beinhalten vollständigen Clusterausfall, Datenverlustrisiko oder Sicherheitsgefahren, die mehr als 100 GPUs oder 50.000 USD stündliche Auswirkungen betreffen. Diese lösen sofortige Eskalation zur Geschäftsleitung, Vendor-Einbindung und 24/7-War-Room-Aktivierung aus. OpenAIs GPT-4-Training erlebte drei Severity-1-Incidents über sechs Monate, die jeweils CEO-Beteiligung aufgrund von 2 Millionen USD täglicher Trainingskosten erforderten.
Severity 2 (Hoch) Incidents beeinträchtigen 20-100 GPUs oder verursachen 50% Leistungseinbußen in größeren Clustern. Die Reaktionszeitzielvorgabe beträgt 15 Minuten mit 2-Stunden-Lösungszielen. Diese Incidents beinhalten typischerweise teilweise Kühlungsausfälle, Stromverteilungsprobleme oder Netzwerkpartitionsereignisse. Metas Infrastruktur alarmiert automatisch Bereitschaftsingenieure bei Severity-2-Events, mit Eskalation zu Senior Architects nach 30 Minuten ohne Fortschritt.
Severity 3 (Mittel) Incidents betreffen weniger als 20 GPUs oder verursachen 25% Leistungseinbußen. Dazu gehören einzelne Node-Ausfälle, Treiberprobleme oder lokalisierte Netzwerkprobleme. Lösungsziele erstrecken sich auf 4 Stunden mit akzeptabler Nachverfolgung am nächsten Geschäftstag. Automatisierte Systeme behandeln 70% der Severity-3-Incidents ohne menschliches Eingreifen durch Self-Healing-Mechanismen.
Severity 4 (Niedrig) Incidents beinhalten einzelne GPU-Ausfälle oder geringfügige Leistungsschwankungen unter 10%. Diese gehen in Standard-Ticketing-Workflows mit 24-Stunden-Lösungszielen ein. Anthropics Infrastruktur isoliert automatisch betroffene Ressourcen, sodass Produktions-Workloads weiterlaufen können, während Reparaturen während der Wartungsfenster erfolgen.
Finanzielle Auswirkungsberechnungen bestimmen die Schweregradszuweisungen. Jede H100-GPU repräsentiert 30.000 USD Kapitalinvestition mit 50 USD stündlichen Betriebskosten. Trainingsunterbrechungen können tagelange Berechnungen im Wert von Millionen ungültig machen. Lambda Labs berechnet Incident-Kosten als: (betroffene GPUs × Stundensatz × erwartete Dauer) + (Checkpoint-Wiederherstellungszeit × Clusterkosten) + (SLA-Strafen). Diese Formel löste eine Severity-1-Klassifizierung für einen 50-GPU-Ausfall aufgrund von 500.000 USD Checkpoint-Wiederherstellungskosten aus.
Stromausfall-Reaktionsverfahren
Szenarien mit vollständigem Stromverlust erfordern sofortiges Load Shedding, um Kaskadenausfälle während der Wiederherstellung zu verhindern. USV-Systeme, die GPU-Cluster unterstützen, bieten typischerweise 5-7 Minuten Laufzeit bei Volllast. Die ersten 30 Sekunden bestimmen den Incident-Verlauf: Automatische Transferschalter müssen eingreifen, Generatoren müssen starten, und Kühlsysteme müssen den Betrieb aufrechterhalten. Microsofts Playbook initiiert automatische Workload-Suspendierung innerhalb von 10 Sekunden nach Stromausfallerkennung.
Phase 1 (0-30 Sekunden) konzentriert sich auf Zustandserhaltung. Verteilte Trainingsjobs müssen sofort checkpointen, was vorkonfigurierte Checkpoint-Speicherorte mit ausreichender Bandbreite erfordert. Der kubectl exec Befehl löst Emergency-Checkpointing über Kubernetes-Pods aus. Speichersysteme wechseln in den Write-Through-Modus, um Datenpersistenz sicherzustellen. Netzwerkausrüstung auf separaten USV-Systemen erhält die Konnektivität für Remote-Management.
Phase 2 (30 Sekunden - 2 Minuten) beinhaltet Lastpriorisierung. Nicht-kritische Workloads werden automatisch basierend auf Pod-Prioritätsklassen beendet. Inferenz-Workloads bedienen weiter mit reduzierter Kapazität. Trainingsjobs speichern ihren Zustand und fahren ordnungsgemäß herunter. Kühlsysteme reduzieren auf minimalen funktionsfähigen Betrieb und halten Temperaturen unter thermischen Grenzwerten. Strommanagement-Systeme reduzieren die Last um 40% und verlängern die USV-Laufzeit auf 15 Minuten.
Phase 3 (2-5 Minuten) erfordert Generator-Synchronisation. Automatische Transferschalter synchronisieren die Generatorausgabe mit USV-Systemen vor der Lastübertragung. Fehlgeschlagene Generatorstarts lösen sofortige Eskalation mit manuellen Startprozeduren aus. Kraftstoffsystemstatus-Verifizierung stellt 24-Stunden-Laufzeitkapazität sicher. Googles Rechenzentren halten 48-Stunden-Kraftstoffvorräte mit automatischen Nachfüllverträgen, die bei längeren Ausfällen aktiviert werden.
Wiederherstellungsverfahren beginnen, sobald stabile Stromversorgung zurückkehrt. Phasenweise Wiederherstellung verhindert, dass gleichzeitiger Einschaltstrom die Stromsysteme überlastet. Speichersysteme initialisieren zuerst, gefolgt von Netzwerkinfrastruktur, dann Compute-Nodes in 10%-Schritten. GPU-Leistungslimits werden während der Stabilisierung vorübergehend auf 80% reduziert. Volle Kapazität kehrt nach 30 Minuten stabilem Betrieb zurück. CoreWeaves Wiederherstellungsautomatisierung stellt 1.000 GPUs innerhalb von 45 Minuten nach Stromwiederherstellung in Produktion wieder her.
Kühlsystemausfall-Reaktionen
Flüssigkühlungsausfälle eskalieren schnell, wobei GPU-Temperaturen ohne aktive Kühlung um 20°C pro Minute steigen. Sofortige Reaktion löst automatisches Frequenzdrosseln aus, was die Wärmeerzeugung um 40% reduziert. Der nvidia-smi -pl 400 Befehl senkt die H100-Leistung von 700W auf 400W und verschafft kritische Reaktionszeit. Workload-Migration zu nicht betroffenen Zonen beginnt automatisch, während Reparaturteams mobilisiert werden.
Primärkreislaufausfälle erfordern die Isolierung betroffener Abschnitte bei gleichzeitiger Aufrechterhaltung des Durchflusses zu betriebsfähigen Bereichen. Bypass-Ventile leiten den Fluss um ausgefallene Komponenten herum. Redundante Pumpen aktivieren sich und halten 60% Durchflusskapazität aufrecht. CDU (Coolant Distribution Unit) Ausfälle lösen automatisches Umschalten auf Backup-Einheiten innerhalb von 30 Sekunden aus. Supermicros RSD (Rack Scale Design) Systeme beinhalten automatisierte Ventilsteuerungen, die Ausfälle auf einzelne Racks isolieren.
Sekundärkreislaufausfälle zwischen CDUs und Kühltürmen beeinträchtigen ganze Anlagen. Notkühler aktivieren sich innerhalb von 2 Minuten und bieten temporäre Wärmeabfuhr. Rechenzentrumspersonal öffnet manuell Notbelüftungen und leitet heiße Luft trotz Effizienzverlusten direkt nach außen ab. Mobile Kühleinheiten werden innerhalb von 30 Minuten in kritischen Bereichen eingesetzt. Facebooks Prineville-Anlage hält 2MW mobile Kühlkapazität für Notfallreaktionen vor.
Leckerkennung löst sofortige Isolierungsprotokolle aus. Wassersensoren unter GPU-Racks aktivieren Magnetventile und stoppen den Durchfluss innerhalb von 500 Millisekunden. Betroffene Racks werden automatisch abgeschaltet, während die Netzwerkverbindung für Remote-Diagnose erhalten bleibt. Wiederherstellungsteams setzen absorbierende Materialien und tragbare Entfeuchter ein, um Korrosion zu verhindern. Microsofts Unterwasser-Rechenzentren verwenden dielektrische Kühlflüssigkeiten, die das Wasserschadensrisiko vollständig eliminieren.
Luftkühlungsaugmentation unterstützt flüssiggekühlte Systeme bei Teilausfällen. CRAC (Computer Room Air Conditioning) Einheiten erhöhen ihre Leistung um 50%, um die reduzierte Flüssigkühlungskapazität zu kompensieren. Warmgang-Einhausungssysteme aktivieren sich und verbessern die Kühleffizienz um 20%. Temporäre Ventilatoren werden in kritischen Bereichen eingesetzt und bieten Spot-Kühlung für überhitzende Racks. Diese Maßnahmen halten den Betrieb während der 4-6 Stunden aufrecht, die für Flüssigkühlungsreparaturen erforderlich sind.
Netzwerkpartition und Konnektivitätsverlust
InfiniBand-Fabric-Partitionen zerstören die Effizienz des verteilten Trainings sofort. Automatische Erkennung wird innerhalb von 100 Millisekunden mittels Subnet-Manager-Heartbeats ausgelöst. Betroffene Nodes werden automatisch unter Quarantäne gestellt, um zu verhindern, dass partielle Updates den Modellzustand korrumpieren. Job-Scheduler erhalten Topologie-Updates und planen Arbeit auf gesunde Partitionen um. NCCL-Fehlerbehandlung beendet betroffene kollektive Operationen sauber.
Die Wiederherstellung erfordert systematische Fabric-Rekonstruktion. Der opensm Subnet Manager baut Routing-Tabellen neu auf und entdeckt überlebende Pfade. Teilweiser Fabric-Betrieb setzt sich mit reduzierter Bandbreite fort, während Reparaturen voranschreiten. Link-Breiten-Degradierung von 4x auf 2x erhält Konnektivität mit 50% Bandbreitenreduzierung. Amazons EFA (Elastic Fabric Adapter) Infrastruktur routet automatisch um Ausfälle herum und hält 85% aggregierte Bandbreite während Single-Switch-Ausfällen aufrecht.
Ethernet-Netzwerkausfälle beeinflussen sowohl Training- als auch Inferenz-Workloads unterschiedlich. BGP (Border Gateway Protocol) Rekonvergenz wird innerhalb von 30 Sekunden für redundante Pfade abgeschlossen. ECMP (Equal-Cost Multi-Path) Routing verteilt Traffic über überlebende Links. Speicherverkehrspriorisierung stellt sicher, dass Checkpoint-Operationen trotz reduzierter Bandbreite abgeschlossen werden. Quality-of-Service-Richtlinien garantieren 40% Bandbreite für kritische Operationen.
Vollständige Netzwerkisolierung löst den autonomen Betriebsmodus aus. Nodes setzen lokale Berechnungen fort, während sie Ergebnisse puffern. Verteilte Trainingsjobs pausieren an Synchronisationsbarrieren und bewahren den Zustand. Lokaler NVMe-Speicher puffert bis zu 1TB Checkpoint-Daten in Erwartung der Konnektivitätswiederherstellung. Bei Netzwerkwiederherstellung synchronisieren gepufferte Daten automatisch und setzen Operationen innerhalb von Minuten statt Stunden Neustartzeit fort.
DNS- und Service-Discovery-Ausfälle verhindern Workload-Scheduling trotz funktionierender Infrastruktur. Backup-DNS-Server aktivieren sich automatisch mit 15-Sekunden-TTL (Time To Live) Werten, die schnelle Updates ermöglichen. Kubernetes CoreDNS-Pods starten auf nicht betroffenen Nodes innerhalb von 30 Sekunden neu. Statische IP-Konfigurationen in Notfall-Runbooks umgehen DNS für kritischen Management-Zugriff. HashiCorp Consul bietet Service-Mesh-Resilienz mit automatischem Failover für Service Discovery.
Prävention von Hardware-Ausfall-Kaskaden
Einzelne GPU-Ausfälle können durch verteilte Trainingsjobs kaskadieren und Hunderte von Geräten beeinflussen. Sofortige Isolierung verhindert Fehlerausbreitung. Der nvidia-smi drain Befehl entfernt GPUs ordnungsgemäß aus Ressourcenpools. Kubernetes Device Plugins markieren ausgefallene GPUs als unhealthy und verhindern neue Pod-Planung. Laufende Workloads migrieren innerhalb von 2 Minuten auf gesunde Ressourcen.
Speicherfehler lösen progressive Reaktionen basierend auf dem Schweregrad aus. Single-Bit-Fehler, die durch ECC korrigiert werden, setzen den Betrieb mit erhöhter Überwachungsfrequenz fort. Double-Bit-Fehler verursachen sofortige Workload-Migration und GPU-Quarantäne. Page-Retirement-Erschöpfung löst Hardware-Ersatzplanung aus. Automatisierte Bestellsysteme halten 2% Ersatzbestand für schnellen Ersatz vor.
Netzteilausfälle in redundanten Konfigurationen setzen den Betrieb mit reduzierter Kapazität fort. N+1-Konfigurationen verlieren Redundanz, halten aber vollen Betrieb aufrecht. Lastverteilung verteilt Stromverbrauch über überlebende Netzteile um. Die Effizienz sinkt um 5-10% und erhöht die Wärmeerzeugung. Ersatzplanung zielt auf 4-Stunden-Reaktion für Redundanzwiederherstellung ab. Teslas Dojo-Cluster halten Hot-Spare-Netzteile vor, die 5-Minuten-Ersatz ermöglichen.
Mainboard-Komponentenausfälle erfordern sorgfältige Diagnose zur Unterscheidung reparierbarer von terminalen Ausfällen. PCIe-Retimer erfordern gelegentlich Neusitzen und stellen den Betrieb ohne Ersatz wieder her. VRM (Voltage Regulator Module) Ausfälle können einzelne GPUs betreffen, während andere weiter funktionieren. BIOS-Wiederherstellungsverfahren stellen korrumpierte Firmware ohne Hardware-Ersatz wieder her. Dell EMCs integrierte Diagnosen identifizieren Ausfälle auf Komponentenebene und ermöglichen gezielte Reparaturen.
Thermische Kaskadenprävention erfordert aggressive Intervention. Temperaturen benachbarter GPUs steigen um 5-10°C, wenn Nachbarn ausfallen. Workload-Umverteilung verhindert Hotspot-Bildung. Leere Rack-Einheiten zwischen ausgefallener Hardware verbessern den Luftstrom. Tragbare Spot-Kühler werden innerhalb von 15 Minuten für kritische Bereiche eingesetzt. Diese Maßnahmen halten den Betrieb während der für Reparaturen erforderlichen Zeit aufrecht.
[Inhalt für Übersetzung gekürzt]