Resposta a Incidentes para Clusters de GPU: Playbooks para Cenários Comuns de Falha
Atualizado em 8 de dezembro de 2025
Atualização de Dezembro de 2025: Falhas de refrigeração líquida agora lideram a categoria de incidentes para clusters de GPU modernos—falhas de CDU, detecção de vazamentos, problemas de qualidade do refrigerante. O tempo de inatividade de H100/H200 custa $25-40K por GPU-dia, tornando a resposta rápida crítica. Plataformas de AIOps (PagerDuty, Datadog) estão integrando runbooks específicos para GPU. Frameworks de treinamento elástico estão reduzindo o raio de impacto de falhas de GPU. A otimização da frequência de checkpoints (10-15 min) está minimizando a perda de treinamento decorrente de incidentes.
Quando 500 GPUs H100 ficam offline repentinamente durante uma execução de treinamento crítica, cada segundo custa $1.200 em tempo de computação perdido. Quando a refrigeração líquida falha em um cluster de GPU de 2MW, as temperaturas sobem 1°C a cada 30 segundos em direção ao desligamento térmico. Quando a malha InfiniBand se particiona durante o treinamento distribuído, 10.000 GPU-horas de computação se tornam inúteis. Esses cenários exigem respostas precisas e ensaiadas que minimizem danos e restaurem o serviço rapidamente. Este guia fornece playbooks testados em batalha para incidentes de infraestrutura de GPU.
Classificação de Incidentes e Níveis de Severidade
Incidentes de infraestrutura de GPU requerem classificações de severidade especializadas além dos frameworks tradicionais de TI. Incidentes de Severidade 1 (Crítica) envolvem falha completa do cluster, risco de perda de dados ou riscos de segurança afetando mais de 100 GPUs ou impacto horário de $50.000. Estes acionam escalação executiva imediata, engajamento de fornecedores e ativação de war room 24/7. O treinamento do GPT-4 da OpenAI experimentou três incidentes de Severidade 1 ao longo de seis meses, cada um exigindo envolvimento do CEO devido aos custos diários de treinamento de $2 milhões.
Incidentes de Severidade 2 (Alta) impactam 20-100 GPUs ou causam degradação de desempenho de 50% em clusters maiores. O tempo de resposta visa 15 minutos com metas de resolução de 2 horas. Esses incidentes tipicamente envolvem falhas parciais de refrigeração, problemas de distribuição de energia ou eventos de partição de rede. A infraestrutura da Meta automaticamente aciona engenheiros de plantão para eventos de Severidade 2, com escalação para arquitetos seniores após 30 minutos sem progresso.
Incidentes de Severidade 3 (Média) afetam menos de 20 GPUs ou causam degradação de desempenho de 25%. Estes incluem falhas de nós individuais, problemas de drivers ou problemas de rede localizados. As metas de resolução se estendem para 4 horas com acompanhamento no próximo dia útil sendo aceitável. Sistemas automatizados lidam com 70% dos incidentes de Severidade 3 sem intervenção humana através de mecanismos de auto-recuperação.
Incidentes de Severidade 4 (Baixa) envolvem falhas de GPU única ou variações menores de desempenho abaixo de 10%. Estes entram em fluxos de trabalho de tickets padrão com metas de resolução de 24 horas. A infraestrutura da Anthropic automaticamente coloca em quarentena os recursos afetados, permitindo que as cargas de trabalho de produção continuem enquanto os reparos prosseguem durante as janelas de manutenção.
Cálculos de impacto financeiro direcionam as atribuições de severidade. Cada GPU H100 representa $30.000 de investimento de capital com custo operacional horário de $50. Interrupções de treinamento podem invalidar dias de computação no valor de milhões. A Lambda Labs calcula o custo do incidente como: (GPUs afetadas × taxa horária × duração esperada) + (tempo de recuperação de checkpoint × custo do cluster) + (penalidades de SLA). Esta fórmula acionou classificação de Severidade 1 para uma falha de 50 GPUs devido aos custos de recuperação de checkpoint de $500.000.
Procedimentos de Resposta a Falhas de Energia
Cenários de perda total de energia requerem desligamento imediato de cargas para prevenir falhas em cascata durante a recuperação. Sistemas UPS que suportam clusters de GPU tipicamente fornecem 5-7 minutos de autonomia em carga total. Os primeiros 30 segundos determinam a trajetória do incidente: chaves de transferência automática devem engajar, geradores devem partir e sistemas de refrigeração devem manter operação. O playbook da Microsoft inicia suspensão automática de cargas de trabalho dentro de 10 segundos da detecção do evento de energia.
A Fase 1 (0-30 segundos) foca na preservação de estado. Jobs de treinamento distribuído devem fazer checkpoint imediatamente, exigindo locais de checkpoint pré-configurados com largura de banda suficiente. O comando kubectl exec aciona checkpointing de emergência em pods do Kubernetes. Sistemas de armazenamento mudam para modo write-through, garantindo persistência de dados. Equipamentos de rede em sistemas UPS separados mantêm conectividade para gerenciamento remoto.
A Fase 2 (30 segundos - 2 minutos) envolve priorização de carga. Cargas de trabalho não críticas terminam automaticamente baseadas em classes de prioridade de pods. Cargas de trabalho de inferência continuam servindo com capacidade degradada. Jobs de treinamento salvam estado e desligam graciosamente. Sistemas de refrigeração reduzem para operação mínima viável, mantendo temperaturas abaixo dos limites térmicos. Sistemas de gerenciamento de energia desligam 40% da carga, estendendo a autonomia do UPS para 15 minutos.
A Fase 3 (2-5 minutos) requer sincronização de geradores. Chaves de transferência automática sincronizam a saída do gerador com sistemas UPS antes de transferir a carga. Partidas de gerador falhas acionam escalação imediata com procedimentos de partida manual. Verificação do status do sistema de combustível garante capacidade de autonomia de 24 horas. Os data centers do Google mantêm suprimentos de combustível de 48 horas com contratos de reabastecimento automático ativados durante interrupções prolongadas.
Os procedimentos de recuperação começam assim que a energia estável retorna. A restauração em fases previne corrente de inrush simultânea sobrecarregando sistemas de energia. Sistemas de armazenamento inicializam primeiro, seguidos pela infraestrutura de rede, depois nós de computação em incrementos de 10%. Limites de potência de GPU temporariamente reduzem para 80% durante a estabilização. Capacidade total retorna após 30 minutos de operação estável. A automação de recuperação da CoreWeave restaura 1.000 GPUs para produção em 45 minutos após a restauração de energia.
Respostas a Falhas do Sistema de Refrigeração
Falhas de refrigeração líquida escalam rapidamente com temperaturas de GPU subindo 20°C por minuto sem refrigeração ativa. A resposta imediata aciona throttling automático de frequência, reduzindo a geração de calor em 40%. O comando nvidia-smi -pl 400 corta a potência da H100 de 700W para 400W, ganhando tempo crítico de resposta. A migração de cargas de trabalho para zonas não afetadas começa automaticamente enquanto equipes de reparo se mobilizam.
Falhas do loop primário requerem isolamento das seções afetadas enquanto mantêm fluxo para áreas operacionais. Válvulas de bypass redirecionam o fluxo ao redor de componentes falhados. Bombas redundantes ativam, mantendo 60% da capacidade de fluxo. Falhas de CDU (Unidade de Distribuição de Refrigerante) acionam switchover automático para unidades de backup em 30 segundos. Os sistemas RSD (Rack Scale Design) da Supermicro incluem controles de válvula automatizados isolando falhas a racks individuais.
Falhas do loop secundário entre CDUs e torres de refrigeração impactam instalações inteiras. Chillers de emergência ativam em 2 minutos, fornecendo rejeição temporária de calor. Pessoal do data center abre manualmente ventilação de emergência, exaurindo ar quente diretamente para fora apesar das perdas de eficiência. Unidades de refrigeração portáteis implantam em áreas críticas em 30 minutos. A instalação de Prineville do Facebook mantém 2MW de capacidade de refrigeração portátil para resposta de emergência.
Detecção de vazamento aciona protocolos de isolamento imediato. Sensores de água sob racks de GPU ativam válvulas solenoides, parando o fluxo em 500 milissegundos. Racks afetados desligam automaticamente enquanto mantêm conectividade de rede para diagnóstico remoto. Equipes de recuperação implantam materiais absorventes e desumidificadores portáteis prevenindo corrosão. Os data centers submarinos da Microsoft usam fluidos de refrigeração dielétricos, eliminando completamente o risco de dano por água.
Aumento de refrigeração a ar suporta sistemas de refrigeração líquida durante falhas parciais. Unidades CRAC (Computer Room Air Conditioning) aumentam a saída em 50% compensando a capacidade reduzida de refrigeração líquida. Sistemas de contenção de corredor quente ativam, melhorando a eficiência de refrigeração em 20%. Ventiladores temporários implantam em áreas críticas, fornecendo refrigeração pontual para racks superaquecendo. Essas medidas mantêm operações durante as 4-6 horas necessárias para reparos de refrigeração líquida.
Partição de Rede e Perda de Conectividade
Partições de malha InfiniBand destroem a eficiência de treinamento distribuído instantaneamente. A detecção automática aciona em 100 milissegundos usando heartbeats do gerenciador de subnet. Nós afetados entram em quarentena automaticamente, prevenindo atualizações parciais de corromper o estado do modelo. Schedulers de jobs recebem atualizações de topologia, reagendando trabalho para partições saudáveis. O tratamento de erros do NCCL termina operações coletivas afetadas de forma limpa.
A recuperação requer reconstrução sistemática da malha. O gerenciador de subnet opensm reconstrói tabelas de roteamento, descobrindo caminhos sobreviventes. Operação parcial da malha continua com largura de banda reduzida enquanto reparos prosseguem. Degradação de largura de link de 4x para 2x mantém conectividade com redução de 50% da largura de banda. A infraestrutura EFA (Elastic Fabric Adapter) da Amazon automaticamente roteia ao redor de falhas, mantendo 85% da largura de banda agregada durante falhas de switch único.
Falhas de rede Ethernet impactam tanto cargas de trabalho de treinamento quanto de inferência de forma diferente. A reconvergência BGP (Border Gateway Protocol) completa em 30 segundos para caminhos redundantes. Roteamento ECMP (Equal-Cost Multi-Path) distribui tráfego entre links sobreviventes. Priorização de tráfego de armazenamento garante que operações de checkpoint completem apesar da largura de banda reduzida. Políticas de Qualidade de Serviço garantem 40% da largura de banda para operações críticas.
Isolamento completo de rede aciona modo de operação autônoma. Nós continuam computação local enquanto armazenam resultados em buffer. Jobs de treinamento distribuído pausam em barreiras de sincronização, preservando estado. Armazenamento NVMe local armazena em buffer até 1TB de dados de checkpoint aguardando restauração de conectividade. Após recuperação de rede, dados em buffer sincronizam automaticamente, retomando operações em minutos ao invés de horas de reinício.
Falhas de DNS e descoberta de serviços previnem agendamento de cargas de trabalho apesar de infraestrutura funcional. Servidores DNS de backup ativam automaticamente com valores TTL (Time To Live) de 15 segundos permitindo atualizações rápidas. Pods CoreDNS do Kubernetes reiniciam em nós não afetados em 30 segundos. Configurações de IP estático em runbooks de emergência contornam DNS para acesso crítico de gerenciamento. O HashiCorp Consul fornece resiliência de service mesh com failover automático para descoberta de serviços.
Prevenção de Cascata de Falha de Hardware
Falhas de GPU única podem cascatear através de jobs de treinamento distribuído afetando centenas de dispositivos. Isolamento imediato previne propagação de erros. O comando nvidia-smi drain remove graciosamente GPUs de pools de recursos. Plugins de dispositivo Kubernetes marcam GPUs falhadas como não saudáveis, prevenindo novo agendamento de pods. Cargas de trabalho em execução migram para recursos saudáveis em 2 minutos.
Erros de memória acionam respostas progressivas baseadas em severidade. Erros de bit único corrigidos por ECC continuam operando com frequência de monitoramento aumentada. Erros de bit duplo causam migração imediata de carga de trabalho e quarentena de GPU. Esgotamento de aposentadoria de página aciona agendamento de substituição de hardware. Sistemas de pedidos automatizados mantêm 2% de inventário sobressalente para substituição rápida.
Falhas de fonte de alimentação em configurações redundantes continuam operando com capacidade reduzida. Configurações N+1 perdem redundância mas mantêm operação completa. Balanceamento de carga redistribui consumo de energia entre fontes sobreviventes. Eficiência cai 5-10% aumentando geração de calor. Agendamento de substituição visa resposta de 4 horas para restauração de redundância. Os clusters Dojo da Tesla mantêm fontes de alimentação hot-spare permitindo substituições de 5 minutos.
Falhas de componentes de placa-mãe requerem diagnóstico cuidadoso distinguindo falhas reparáveis de terminais. Retimers PCIe ocasionalmente requerem reencaixe, restaurando operação sem substituição. Falhas de VRM (Voltage Regulator Module) podem afetar GPUs únicas enquanto outras continuam operando. Procedimentos de recuperação de BIOS restauram firmware corrompido sem substituição de hardware. Os diagnósticos integrados da Dell EMC identificam falhas em nível de componente permitindo reparos direcionados.
Prevenção de cascata térmica requer intervenção agressiva. Temperaturas de GPUs adjacentes sobem 5-10°C quando vizinhos falham. Redistribuição de carga de trabalho previne formação de pontos quentes. Unidades de rack vazias entre hardware falhado melhoram fluxo de ar. Refrigeradores pontuais portáteis implantam em 15 minutos para áreas críticas. Tempor
[Conteúdo truncado para tradução]