GPU 클러스터를 위한 인시던트 대응: 일반적인 장애 시나리오를 위한 플레이북
2025년 12월 8일 업데이트
2025년 12월 업데이트: 수랭 장애가 현재 현대 GPU 클러스터에서 가장 많은 인시던트 유형을 차지합니다—CDU 장애, 누수 감지, 냉각수 품질 문제 등. H100/H200의 다운타임 비용은 GPU당 일일 $25,000-40,000에 달해 신속한 대응이 필수적입니다. AIOps 플랫폼(PagerDuty, Datadog)이 GPU 전용 런북을 통합하고 있습니다. 탄력적 훈련 프레임워크가 GPU 장애의 영향 범위를 줄이고 있습니다. 체크포인트 빈도 최적화(10-15분)가 인시던트로 인한 훈련 손실을 최소화합니다.
500개의 H100 GPU가 중요한 훈련 실행 중 갑자기 오프라인이 되면, 매초 $1,200의 컴퓨팅 비용이 손실됩니다. 2MW GPU 클러스터에서 수랭이 실패하면, 온도가 30초마다 1°C씩 상승하여 열 셧다운을 향해 치닫습니다. 분산 훈련 중 InfiniBand 패브릭이 분할되면, 10,000 GPU-시간의 연산이 무용지물이 됩니다. 이러한 시나리오는 피해를 최소화하고 서비스를 신속히 복구하는 정밀하고 연습된 대응을 요구합니다. 이 가이드는 GPU 인프라 인시던트를 위한 실전 검증된 플레이북을 제공합니다.
인시던트 분류 및 심각도 수준
GPU 인프라 인시던트는 기존 IT 프레임워크를 넘어서는 전문화된 심각도 분류가 필요합니다. 심각도 1(Critical) 인시던트는 완전한 클러스터 장애, 데이터 손실 위험, 또는 100개 이상의 GPU에 영향을 미치거나 시간당 $50,000 이상의 영향을 주는 안전 위험을 포함합니다. 이는 즉각적인 경영진 에스컬레이션, 벤더 참여, 24/7 워룸 활성화를 트리거합니다. OpenAI의 GPT-4 훈련은 6개월간 세 번의 심각도 1 인시던트를 경험했으며, 일일 $200만의 훈련 비용으로 인해 각각 CEO 참여가 필요했습니다.
심각도 2(High) 인시던트는 20-100개의 GPU에 영향을 미치거나 더 큰 클러스터에서 50% 성능 저하를 유발합니다. 대응 시간 목표는 15분이며 2시간 해결 목표를 가집니다. 이러한 인시던트는 일반적으로 부분적인 냉각 장애, 전력 분배 문제, 또는 네트워크 분할 이벤트를 포함합니다. Meta의 인프라는 심각도 2 이벤트에 대해 자동으로 온콜 엔지니어에게 페이지를 보내며, 30분 내 진전이 없으면 시니어 아키텍트로 에스컬레이션됩니다.
심각도 3(Medium) 인시던트는 20개 미만의 GPU에 영향을 미치거나 25% 성능 저하를 유발합니다. 여기에는 개별 노드 장애, 드라이버 문제, 또는 국소적인 네트워크 문제가 포함됩니다. 해결 목표는 4시간으로 연장되며 익일 영업시간 후속 조치가 허용됩니다. 자동화된 시스템이 자가 치유 메커니즘을 통해 심각도 3 인시던트의 70%를 사람 개입 없이 처리합니다.
심각도 4(Low) 인시던트는 단일 GPU 장애 또는 10% 미만의 경미한 성능 변동을 포함합니다. 이들은 24시간 해결 목표를 가진 표준 티켓팅 워크플로우에 들어갑니다. Anthropic의 인프라는 영향받은 리소스를 자동으로 격리하여, 유지보수 시간대에 수리가 진행되는 동안 프로덕션 워크로드가 계속될 수 있게 합니다.
재정적 영향 계산이 심각도 할당을 주도합니다. 각 H100 GPU는 $30,000의 자본 투자와 시간당 $50의 운영 비용을 나타냅니다. 훈련 중단은 수백만 달러 가치의 며칠 연산을 무효화할 수 있습니다. Lambda Labs는 인시던트 비용을 다음과 같이 계산합니다: (영향받은 GPU × 시간당 요금 × 예상 기간) + (체크포인트 복구 시간 × 클러스터 비용) + (SLA 패널티). 이 공식은 $500,000의 체크포인트 복구 비용으로 인해 50-GPU 장애에 대해 심각도 1 분류를 트리거했습니다.
전원 장애 대응 절차
완전한 전력 손실 시나리오는 복구 중 캐스케이드 장애를 방지하기 위한 즉각적인 부하 차단이 필요합니다. GPU 클러스터를 지원하는 UPS 시스템은 일반적으로 전체 부하에서 5-7분의 런타임을 제공합니다. 처음 30초가 인시던트 궤적을 결정합니다: 자동 전환 스위치가 작동해야 하고, 발전기가 시작되어야 하며, 냉각 시스템이 운영을 유지해야 합니다. Microsoft의 플레이북은 전력 이벤트 감지 후 10초 이내에 자동 워크로드 일시 중단을 시작합니다.
1단계(0-30초)는 상태 보존에 집중합니다. 분산 훈련 작업은 즉시 체크포인트해야 하며, 충분한 대역폭을 가진 사전 구성된 체크포인트 위치가 필요합니다. kubectl exec 명령이 Kubernetes 파드 전체에서 긴급 체크포인팅을 트리거합니다. 스토리지 시스템은 write-through 모드로 전환하여 데이터 지속성을 보장합니다. 별도의 UPS 시스템에 있는 네트워크 장비가 원격 관리를 위한 연결성을 유지합니다.
2단계(30초 - 2분)는 부하 우선순위 지정을 포함합니다. 비중요 워크로드는 파드 우선순위 클래스에 따라 자동으로 종료됩니다. 추론 워크로드는 저하된 용량으로 계속 서비스합니다. 훈련 작업은 상태를 저장하고 정상적으로 종료됩니다. 냉각 시스템은 열 한계 이하로 온도를 유지하며 최소 가동 운영으로 줄입니다. 전력 관리 시스템이 40% 부하를 차단하여 UPS 런타임을 15분으로 연장합니다.
3단계(2-5분)는 발전기 동기화가 필요합니다. 자동 전환 스위치가 부하를 전환하기 전에 발전기 출력을 UPS 시스템과 동기화합니다. 발전기 시작 실패는 수동 시작 절차와 함께 즉각적인 에스컬레이션을 트리거합니다. 연료 시스템 상태 확인이 24시간 런타임 용량을 보장합니다. Google의 데이터 센터는 장기 정전 시 활성화되는 자동 재급유 계약과 함께 48시간 연료 공급을 유지합니다.
복구 절차는 안정적인 전력이 복구되면 시작됩니다. 단계적 복원이 동시 돌입 전류로 인한 전력 시스템 과부하를 방지합니다. 스토리지 시스템이 먼저 초기화되고, 네트워크 인프라가 그 다음, 그리고 컴퓨트 노드가 10% 증분으로 따릅니다. GPU 전력 제한이 안정화 기간 동안 일시적으로 80%로 감소합니다. 30분의 안정적인 운영 후 전체 용량이 복구됩니다. CoreWeave의 복구 자동화는 전력 복원 후 45분 내에 1,000개의 GPU를 프로덕션으로 복구합니다.
냉각 시스템 장애 대응
수랭 장애는 능동 냉각 없이 분당 20°C씩 GPU 온도가 상승하며 빠르게 악화됩니다. 즉각적인 대응이 자동 주파수 스로틀링을 트리거하여 발열을 40% 줄입니다. nvidia-smi -pl 400 명령은 H100 전력을 700W에서 400W로 줄여 중요한 대응 시간을 확보합니다. 수리 팀이 동원되는 동안 영향받지 않은 존으로의 워크로드 마이그레이션이 자동으로 시작됩니다.
1차 루프 장애는 운영 영역으로의 흐름을 유지하면서 영향받은 섹션의 격리가 필요합니다. 바이패스 밸브가 장애 구성 요소 주변으로 흐름을 우회시킵니다. 중복 펌프가 활성화되어 60% 유량 용량을 유지합니다. CDU(Coolant Distribution Unit) 장애는 30초 이내에 백업 유닛으로의 자동 전환을 트리거합니다. Supermicro의 RSD(Rack Scale Design) 시스템은 장애를 개별 랙으로 격리하는 자동 밸브 제어를 포함합니다.
CDU와 냉각 타워 사이의 2차 루프 장애는 전체 시설에 영향을 미칩니다. 비상 칠러가 2분 이내에 활성화되어 임시 방열을 제공합니다. 데이터 센터 인력이 수동으로 비상 환기를 열어 효율 손실에도 불구하고 뜨거운 공기를 직접 외부로 배출합니다. 휴대용 냉각 장치가 30분 이내에 중요 영역에 배치됩니다. Facebook의 Prineville 시설은 비상 대응을 위해 2MW의 휴대용 냉각 용량을 유지합니다.
누수 감지는 즉각적인 격리 프로토콜을 트리거합니다. GPU 랙 아래의 물 센서가 500밀리초 이내에 솔레노이드 밸브를 활성화하여 흐름을 차단합니다. 영향받은 랙은 원격 진단을 위한 네트워크 연결을 유지하면서 자동으로 전원이 차단됩니다. 복구 팀이 부식 방지를 위해 흡수재와 휴대용 제습기를 배치합니다. Microsoft의 수중 데이터 센터는 유전체 냉각 유체를 사용하여 물 손상 위험을 완전히 제거합니다.
공랭 보강이 부분 장애 시 수랭 시스템을 지원합니다. CRAC(Computer Room Air Conditioning) 유닛이 출력을 50% 증가시켜 감소된 수랭 용량을 보상합니다. 핫 아일 격리 시스템이 활성화되어 냉각 효율을 20% 향상시킵니다. 임시 팬이 중요 영역에 배치되어 과열 랙에 스팟 냉각을 제공합니다. 이러한 조치는 수랭 수리에 필요한 4-6시간 동안 운영을 유지합니다.
네트워크 분할 및 연결 손실
InfiniBand 패브릭 분할은 분산 훈련 효율을 즉시 파괴합니다. 서브넷 매니저 하트비트를 사용하여 100밀리초 이내에 자동 감지가 트리거됩니다. 영향받은 노드는 자동으로 격리되어 부분 업데이트가 모델 상태를 손상시키는 것을 방지합니다. 작업 스케줄러가 토폴로지 업데이트를 받아 건강한 파티션으로 작업을 재스케줄링합니다. NCCL 오류 처리가 영향받은 집합 연산을 깔끔하게 종료합니다.
복구는 체계적인 패브릭 재구성이 필요합니다. opensm 서브넷 매니저가 라우팅 테이블을 재구성하여 생존 경로를 발견합니다. 수리가 진행되는 동안 감소된 대역폭으로 부분 패브릭 운영이 계속됩니다. 4x에서 2x로의 링크 폭 저하가 50% 대역폭 감소로 연결성을 유지합니다. Amazon의 EFA(Elastic Fabric Adapter) 인프라는 장애를 자동으로 우회하여 단일 스위치 장애 시 85%의 총 대역폭을 유지합니다.
이더넷 네트워크 장애는 훈련과 추론 워크로드에 다르게 영향을 미칩니다. BGP(Border Gateway Protocol) 재수렴은 중복 경로에서 30초 이내에 완료됩니다. ECMP(Equal-Cost Multi-Path) 라우팅이 생존 링크에 걸쳐 트래픽을 분산합니다. 스토리지 트래픽 우선순위 지정이 감소된 대역폭에도 불구하고 체크포인트 작업이 완료되도록 보장합니다. QoS 정책이 중요 작업에 40% 대역폭을 보장합니다.
완전한 네트워크 격리는 자율 운영 모드를 트리거합니다. 노드는 결과를 버퍼링하면서 로컬 연산을 계속합니다. 분산 훈련 작업은 동기화 배리어에서 일시 중지되어 상태를 보존합니다. 로컬 NVMe 스토리지가 연결 복원을 기다리며 최대 1TB의 체크포인트 데이터를 버퍼링합니다. 네트워크 복구 시 버퍼링된 데이터가 자동으로 동기화되어 재시작의 몇 시간 대신 몇 분 내에 운영을 재개합니다.
DNS 및 서비스 디스커버리 장애는 기능적인 인프라에도 불구하고 워크로드 스케줄링을 방해합니다. 백업 DNS 서버가 빠른 업데이트를 가능하게 하는 15초 TTL(Time To Live) 값으로 자동 활성화됩니다. Kubernetes CoreDNS 파드가 30초 이내에 영향받지 않은 노드에서 재시작됩니다. 비상 런북의 정적 IP 구성이 중요 관리 접근을 위해 DNS를 우회합니다. HashiCorp Consul이 서비스 디스커버리를 위한 자동 장애 조치와 함께 서비스 메시 복원력을 제공합니다.
하드웨어 장애 캐스케이드 방지
단일 GPU 장애는 수백 개의 장치에 영향을 미치는 분산 훈련 작업을 통해 캐스케이드될 수 있습니다. 즉각적인 격리가 오류 전파를 방지합니다. nvidia-smi drain 명령이 리소스 풀에서 GPU를 정상적으로 제거합니다. Kubernetes 장치 플러그인이 장애 GPU를 비정상으로 표시하여 새로운 파드 스케줄링을 방지합니다. 실행 중인 워크로드가 2분 이내에 건강한 리소스로 마이그레이션됩니다.
메모리 오류는 심각도에 따라 점진적인 대응을 트리거합니다. ECC로 수정된 단일 비트 오류는 모니터링 빈도를 높이며 계속 작동합니다. 이중 비트 오류는 즉각적인 워크로드 마이그레이션과 GPU 격리를 유발합니다. 페이지 리타이어먼트 소진은 하드웨어 교체 스케줄링을 트리거합니다. 자동 주문 시스템이 빠른 교체를 위해 2% 예비 재고를 유지합니다.
중복 구성의 전원 공급 장치 장애는 감소된 용량에서 계속 작동합니다. N+1 구성은 중복성을 잃지만 전체 운영을 유지합니다. 부하 분산이 생존 공급 장치에 걸쳐 전력 소비를 재분배합니다. 효율이 5-10% 감소하여 발열이 증가합니다. 교체 스케줄링은 중복성 복원을 위해 4시간 대응을 목표로 합니다. Tesla의 Dojo 클러스터는 5분 교체를 가능하게 하는 핫 스페어 전원 공급 장치를 유지합니다.
마더보드 구성 요소 장애는 수리 가능한 것과 치명적인 장애를 구분하는 신중한 진단이 필요합니다. PCIe 리타이머는 가끔 재장착으로 교체 없이 작동을 복원합니다. VRM(Voltage Regulator Module) 장애는 다른 GPU가 계속 작동하는 동안 단일 GPU에만 영향을 미칠 수 있습니다. BIOS 복구 절차가 하드웨어 교체 없이 손상된 펌웨어를 복원합니다. Dell EMC의 통합 진단이 구성 요소 수준 장애를 식별하여 타겟팅된 수리를 가능하게 합니다.
열 캐스케이드 방지는 적극적인 개입이 필요합니다. 인접 GPU 온도는 이웃이 고장나면 5-10°C 상승합니다. 워크로드 재분배가 핫스팟 형성을 방지합니다. 고장난 하드웨어 사이의 빈 랙 유닛이 공기 흐름을 개선합니다. 휴대용 스팟 쿨러가 15분 이내에 중요 영역에 배치됩니다. 임시
[번역을 위해 내용 잘림]