Incident Response voor GPU-Clusters: Draaiboeken voor Veelvoorkomende Storingen
Bijgewerkt 8 december 2025
Update december 2025: Vloeistofkoelingstoringen zijn nu de belangrijkste incidentcategorie voor moderne GPU-clusters—CDU-storingen, lekdetectie, koelvloeistofkwaliteitsproblemen. H100/H200-downtime kost $25-40K per GPU-dag, waardoor snelle respons cruciaal is. AIOps-platforms (PagerDuty, Datadog) integreren GPU-specifieke runbooks. Elastische trainingsframeworks verkleinen de impactzone van GPU-storingen. Checkpoint-frequentieoptimalisatie (10-15 min) minimaliseert trainingsverlies door incidenten.
Wanneer 500 H100 GPU's plotseling offline gaan tijdens een kritieke trainingsrun, kost elke seconde $1.200 aan verloren rekentijd. Wanneer vloeistofkoeling uitvalt in een 2MW GPU-cluster, stijgt de temperatuur 1°C per 30 seconden richting thermische uitschakeling. Wanneer InfiniBand-fabric partitioneert tijdens gedistribueerde training, wordt 10.000 GPU-uur aan berekening waardeloos. Deze scenario's vereisen precieze, geoefende responsen die schade minimaliseren en service snel herstellen. Deze gids biedt beproefde draaiboeken voor GPU-infrastructuurincidenten.
Incidentclassificatie en Ernstniveaus
GPU-infrastructuurincidenten vereisen gespecialiseerde ernstclassificaties die verder gaan dan traditionele IT-frameworks. Severity 1 (Kritiek) incidenten omvatten volledige clusteruitval, risico op gegevensverlies, of veiligheidsrisico's die meer dan 100 GPU's treffen of $50.000 uurlijkse impact hebben. Deze triggeren onmiddellijke escalatie naar management, leveranciersinschakeling en 24/7 war room-activering. OpenAI's GPT-4-training ondervond drie Severity 1-incidenten over zes maanden, elk met CEO-betrokkenheid vanwege $2 miljoen dagelijkse trainingskosten.
Severity 2 (Hoog) incidenten treffen 20-100 GPU's of veroorzaken 50% prestatiedegradatie over grotere clusters. Responstijd richt zich op 15 minuten met 2-uur oplossingsdoelen. Deze incidenten omvatten doorgaans gedeeltelijke koelingstoringen, stroomdistributieproblemen of netwerkpartitie-events. Meta's infrastructuur alarmeert automatisch piketdienst-engineers voor Severity 2-events, met escalatie naar senior architecten na 30 minuten zonder voortgang.
Severity 3 (Gemiddeld) incidenten treffen minder dan 20 GPU's of veroorzaken 25% prestatiedegradatie. Deze omvatten individuele node-storingen, driver-issues of gelokaliseerde netwerkproblemen. Oplossingsdoelen worden verlengd tot 4 uur waarbij follow-up op de volgende werkdag acceptabel is. Geautomatiseerde systemen handelen 70% van Severity 3-incidenten af zonder menselijke tussenkomst via zelfherstellende mechanismen.
Severity 4 (Laag) incidenten betreffen enkele GPU-storingen of kleine prestatievariaties onder 10%. Deze gaan naar standaard ticketing-workflows met 24-uur oplossingsdoelen. Anthropic's infrastructuur plaatst automatisch getroffen resources in quarantaine, waardoor productie-workloads kunnen doorgaan terwijl reparaties plaatsvinden tijdens onderhoudsvensters.
Financiële impactberekeningen bepalen ernsttoewijzingen. Elke H100 GPU vertegenwoordigt $30.000 kapitaalinvestering met $50 uurlijkse operationele kosten. Trainingsonderbrekingen kunnen dagen aan berekeningen ter waarde van miljoenen ongeldig maken. Lambda Labs berekent incidentkosten als: (Getroffen GPU's × uurtarief × verwachte duur) + (checkpoint-hersteltijd × clusterkosten) + (SLA-boetes). Deze formule triggerde Severity 1-classificatie voor een 50-GPU-storing vanwege $500.000 checkpoint-herstelkosten.
Procedures bij Stroomuitval
Complete stroomuitvalscenario's vereisen onmiddellijke load shedding om cascade-storingen tijdens herstel te voorkomen. UPS-systemen die GPU-clusters ondersteunen bieden doorgaans 5-7 minuten runtime bij volle belasting. De eerste 30 seconden bepalen het incidentverloop: automatische transferschakelaars moeten inschakelen, generatoren moeten starten en koelsystemen moeten operationeel blijven. Microsoft's draaiboek initieert automatische workload-opschorting binnen 10 seconden na detectie van stroomgebeurtenis.
Fase 1 (0-30 seconden) focust op statusbehoud. Gedistribueerde trainingsjobs moeten onmiddellijk een checkpoint maken, wat vooraf geconfigureerde checkpoint-locaties met voldoende bandbreedte vereist. Het kubectl exec-commando triggert nood-checkpointing over Kubernetes pods. Opslagsystemen schakelen naar write-through modus, wat datapersistentie garandeert. Netwerkapparatuur op afzonderlijke UPS-systemen behoudt connectiviteit voor remote management.
Fase 2 (30 seconden - 2 minuten) omvat loadprioritering. Niet-kritieke workloads stoppen automatisch op basis van pod-prioriteitsklassen. Inference-workloads blijven serveren met verminderde capaciteit. Trainingsjobs slaan status op en sluiten graceful af. Koelsystemen reduceren tot minimaal levensvatbare operatie, waarbij temperaturen onder thermische limieten blijven. Power management-systemen reduceren 40% load, wat UPS-runtime verlengt tot 15 minuten.
Fase 3 (2-5 minuten) vereist generatorsynchronisatie. Automatische transferschakelaars synchroniseren generatoroutput met UPS-systemen voordat load wordt overgedragen. Mislukte generatorstarts triggeren onmiddellijke escalatie met handmatige startprocedures. Brandstofysteemstatusverificatie garandeert 24-uur runtime-capaciteit. Google's datacenters onderhouden 48-uur brandstofvoorraden met automatische bijvulcontracten geactiveerd tijdens verlengde uitval.
Herstelprocedures beginnen zodra stabiele stroom terugkeert. Gefaseerd herstel voorkomt dat gelijktijdige inrushstroom stroomsystemen overweldigt. Opslagsystemen initialiseren eerst, gevolgd door netwerkinfrastructuur, dan compute nodes in 10%-incrementen. GPU power limits reduceren tijdelijk tot 80% tijdens stabilisatie. Volledige capaciteit keert terug na 30 minuten stabiele operatie. CoreWeave's herstelautomatisering herstelt 1.000 GPU's naar productie in 45 minuten na stroomherstel.
Responsen bij Koelsysteemuitval
Vloeistofkoelingstoringen escaleren snel met GPU-temperaturen die 20°C per minuut stijgen zonder actieve koeling. Onmiddellijke respons triggert automatische frequentie-throttling, wat warmtegeneratie met 40% vermindert. Het nvidia-smi -pl 400-commando verlaagt H100-vermogen van 700W naar 400W, wat kritieke responstijd koopt. Workload-migratie naar niet-getroffen zones begint automatisch terwijl reparatieteams mobiliseren.
Primaire loop-storingen vereisen isolatie van getroffen secties terwijl flow naar operationele gebieden behouden blijft. Bypass-kleppen leiden flow om rond defecte componenten. Redundante pompen activeren, wat 60% flow-capaciteit behoudt. CDU (Coolant Distribution Unit)-storingen triggeren automatische omschakeling naar backup-units binnen 30 seconden. Supermicro's RSD (Rack Scale Design)-systemen bevatten geautomatiseerde klepbesturing die storingen isoleert tot individuele racks.
Secundaire loop-storingen tussen CDU's en koeltorens treffen volledige faciliteiten. Noodchillers activeren binnen 2 minuten en bieden tijdelijke warmteafvoer. Datacenterpersoneel opent handmatig noodventilatie, wat hete lucht direct naar buiten afvoert ondanks efficiëntieverliezen. Mobiele koelunits worden binnen 30 minuten ingezet in kritieke gebieden. Facebook's Prineville-faciliteit onderhoudt 2MW aan mobiele koelcapaciteit voor noodrespons.
Lekdetectie triggert onmiddellijke isolatieprotocollen. Watersensoren onder GPU-racks activeren solenoïdkleppen, wat flow stopt binnen 500 milliseconden. Getroffen racks schakelen automatisch uit terwijl netwerkconnectiviteit behouden blijft voor remote diagnose. Herstelteams zetten absorberend materiaal en mobiele ontvochtigers in om corrosie te voorkomen. Microsoft's onderzeeboot-datacenters gebruiken diëlektrische koelvloeistoffen, wat waterschaderisico volledig elimineert.
Luchtkoelingsaugmentatie ondersteunt vloeistofgekoelde systemen tijdens gedeeltelijke storingen. CRAC (Computer Room Air Conditioning)-units verhogen output met 50% om verminderde vloeistofkoelcapaciteit te compenseren. Hot aisle containment-systemen activeren, wat koelefficiëntie met 20% verbetert. Tijdelijke ventilatoren worden ingezet in kritieke gebieden en bieden spotkoeling voor oververhitte racks. Deze maatregelen handhaven operaties tijdens de 4-6 uur die nodig zijn voor vloeistofkoelingsreparaties.
Netwerkpartitie en Connectiviteitsverlies
InfiniBand-fabric partities vernietigen gedistribueerde trainingsefficiëntie onmiddellijk. Automatische detectie triggert binnen 100 milliseconden met subnet manager heartbeats. Getroffen nodes gaan automatisch in quarantaine, wat voorkomt dat gedeeltelijke updates modelstatus corrumperen. Job schedulers ontvangen topologie-updates en herplannen werk naar gezonde partities. NCCL error handling termineert getroffen collectieve operaties clean.
Herstel vereist systematische fabric-reconstructie. De opensm subnet manager herbouwt routing-tabellen en ontdekt overlevende paden. Gedeeltelijke fabric-operatie gaat door met verminderde bandbreedte terwijl reparaties vorderen. Link width-degradatie van 4x naar 2x behoudt connectiviteit met 50% bandbreedtereductie. Amazon's EFA (Elastic Fabric Adapter)-infrastructuur routeert automatisch rond storingen en behoudt 85% geaggregeerde bandbreedte tijdens single-switch storingen.
Ethernet-netwerkstoringen treffen zowel training- als inference-workloads verschillend. BGP (Border Gateway Protocol)-reconvergentie voltooit binnen 30 seconden voor redundante paden. ECMP (Equal-Cost Multi-Path)-routing distribueert verkeer over overlevende links. Opslagverkeersprioritering garandeert dat checkpoint-operaties voltooien ondanks verminderde bandbreedte. Quality of Service-beleid garandeert 40% bandbreedte voor kritieke operaties.
Complete netwerkisolatie triggert autonome operatiemodus. Nodes gaan door met lokale berekening terwijl resultaten gebufferd worden. Gedistribueerde trainingsjobs pauzeren bij synchronisatiebarrières en behouden status. Lokale NVMe-opslag buffert tot 1TB aan checkpoint-data in afwachting van connectiviteitsherstel. Bij netwerkherstel synchroniseert gebufferde data automatisch, waarbij operaties hervat worden binnen minuten in plaats van uren herstart.
DNS- en service discovery-storingen voorkomen workload-scheduling ondanks functionerende infrastructuur. Backup DNS-servers activeren automatisch met 15-seconden TTL (Time To Live)-waarden die snelle updates mogelijk maken. Kubernetes CoreDNS pods herstarten op niet-getroffen nodes binnen 30 seconden. Statische IP-configuraties in nooddraaiboeken omzeilen DNS voor kritieke managementtoegang. HashiCorp Consul biedt service mesh-resilience met automatische failover voor service discovery.
Preventie van Hardware-storingscascades
Enkele GPU-storingen kunnen cascaderen door gedistribueerde trainingsjobs en honderden apparaten treffen. Onmiddellijke isolatie voorkomt foutpropagatie. Het nvidia-smi drain-commando verwijdert GPU's graceful uit resource pools. Kubernetes device plugins markeren defecte GPU's als unhealthy, wat nieuwe pod-scheduling voorkomt. Draaiende workloads migreren naar gezonde resources binnen 2 minuten.
Geheugenfouten triggeren progressieve responsen op basis van ernst. Single-bit errors gecorrigeerd door ECC blijven opereren met verhoogde monitoringfrequentie. Double-bit errors veroorzaken onmiddellijke workload-migratie en GPU-quarantaine. Page retirement-uitputting triggert hardware-vervangingsplanning. Geautomatiseerde bestelsystemen onderhouden 2% reserve-inventaris voor snelle vervanging.
Voedingstoringen in redundante configuraties blijven opereren met verminderde capaciteit. N+1-configuraties verliezen redundantie maar behouden volledige operatie. Load balancing herverdeelt stroomverbruik over overlevende voedingen. Efficiëntie daalt 5-10% wat warmtegeneratie verhoogt. Vervangingsplanning richt zich op 4-uur respons voor redundantieherstel. Tesla's Dojo-clusters onderhouden hot-spare voedingen die 5-minuten vervangingen mogelijk maken.
Moederbordcomponentstoringen vereisen zorgvuldige diagnose om repareerbare van terminale storingen te onderscheiden. PCIe retimers vereisen soms herplaatsing, wat operatie herstelt zonder vervanging. VRM (Voltage Regulator Module)-storingen kunnen enkele GPU's treffen terwijl andere blijven werken. BIOS-herstelprocedures herstellen gecorrumpeerde firmware zonder hardwarevervanging. Dell EMC's geïntegreerde diagnostiek identificeert component-level storingen wat gerichte reparaties mogelijk maakt.
Thermische cascade-preventie vereist agressieve interventie. Aangrenzende GPU-temperaturen stijgen 5-10°C wanneer buren uitvallen. Workload-herverdeling voorkomt hotspot-vorming. Lege rack-units tussen defecte hardware verbeteren luchtstroom. Mobiele spotkoelers worden binnen 15 minuten ingezet voor kritieke gebieden. Tempor
[Content afgekapt voor vertaling]