무중단 데이터센터 마이그레이션: GPU 클러스터 완벽 가이드

액체 냉각 GPU 마이그레이션으로 복잡성 증가—냉각수 배수, 매니폴드 분리, 새 사이트에서의 누수 테스트 필요. 체크포인트 기반 학습 복구가 탄력적 학습 프레임워크(DeepSpeed, FSDP)와 함께 개선 중...

무중단 데이터센터 마이그레이션: GPU 클러스터 완벽 가이드

무중단 데이터센터 마이그레이션: GPU 클러스터 완벽 가이드

2025년 12월 8일 업데이트

2025년 12월 업데이트: 액체 냉각 GPU 마이그레이션으로 복잡성이 증가하고 있습니다—냉각수 배수, 매니폴드 분리, 새 사이트에서의 누수 테스트가 필요합니다. 체크포인트 기반 학습 복구가 탄력적 학습 프레임워크(DeepSpeed, FSDP)와 함께 개선되고 있습니다. GPU 비용(H100당 $25,000-40,000)으로 인해 마이그레이션 계획이 더욱 중요해졌습니다. 멀티 클라우드 페일오버가 물리적 마이그레이션의 대안을 제공합니다. 코로케이션 계약에 마이그레이션 지원 SLA가 점점 더 많이 포함되고 있습니다.

지속적인 AI 학습을 유지하면서 데이터센터 간에 10,000개의 GPU를 이동하는 것은 불가능해 보입니다. 하지만 Meta가 2023년 시설 통합 과정에서 전체 마이그레이션에서 단 47초의 컴퓨팅 시간만 손실하며 정확히 이 작업을 수행했다는 사실을 알면 이야기가 달라집니다.¹ 비결은 조율된 워크로드 마이그레이션, 이중화된 네트워킹, 그리고 모든 장애 모드를 예측하는 세심한 계획에 있습니다. 조직들은 계획되지 않은 GPU 클러스터 다운타임 동안 시간당 평균 560만 달러를 손실하므로, 무중단 마이그레이션 기술은 선택이 아닌 필수입니다.² 원활한 마이그레이션과 치명적인 실패의 차이는 수백 건의 복잡한 이전을 통해 정제된 실행 방법론에 달려 있습니다.

Gartner에 따르면 데이터센터 마이그레이션의 83%가 어떤 형태로든 서비스 중단을 경험하며, GPU 클러스터는 상호 연결된 특성과 상태 유지 학습 워크로드로 인해 고유한 도전에 직면합니다.³ 단 하나의 잘못 구성된 InfiniBand 연결이 수 주간의 모델 학습을 망칠 수 있습니다. 장비 이동 중 전력 변동은 열 보호 셧다운을 유발합니다. 성공적인 물리적 마이그레이션도 새 시설의 냉각 용량이 갑작스러운 GPU 열 부하를 감당하지 못한다는 것을 발견하면 실패합니다. 무중단 마이그레이션 기술을 마스터한 조직은 AI 운영에 위험을 주지 않으면서 인프라 비용을 최적화하고, 용량 제약에 대응하며, 더 나은 시설 옵션을 활용할 수 있는 유연성을 얻습니다.

GPU 상호 연결로 마이그레이션 복잡성이 배가됩니다

GPU 클러스터는 기존 서버 인프라와 근본적으로 다르게 작동합니다. 각 H100 GPU는 900GB/s로 작동하는 NVLink 브릿지를 통해 다른 7개의 GPU에 연결됩니다.⁴ InfiniBand 패브릭은 나노초 단위의 지연 시간으로 수백 개의 GPU를 연결합니다. 학습 작업은 수천 개의 GPU에 걸쳐 동시에 상태를 유지하며, 체크포인트는 수 테라바이트에 달합니다. 이러한 연결을 잠시라도 끊으면 활성 워크로드가 파괴되고 학습 데이터가 손상될 수 있습니다.

마이그레이션 중에는 네트워크 토폴로지 보존이 중요해집니다. 1,024-GPU 클러스터는 균일한 지연 시간을 유지하기 위해 특정 케이블 길이의 팻 트리 네트워크 토폴로지를 사용합니다.⁵ 다른 랙 레이아웃을 가진 새 시설로 서버를 이동하면 케이블 길이가 변경되어 집합 연산 성능이 최대 40%까지 저하되는 지연 시간 변동이 발생합니다. 팀은 마이그레이션이 시작되기 전에 대상 시설의 정확한 물리적 토폴로지를 매핑해야 합니다.

스토리지 대역폭 요구사항은 마이그레이션을 더욱 복잡하게 만듭니다. 대규모 언어 모델의 학습 체크포인트는 5TB에 달하며, 일반적인 NVMe 속도로 쓰는 데 30분이 필요합니다.⁶ 모델은 마이그레이션 전에 체크포인트를 생성하고, 새 위치로 전송한 후, 학습을 재개하기 전에 복원해야 합니다. 체크포인트-복원 사이클만으로도 대형 모델의 경우 2-3시간이 소요될 수 있어, 장애가 연장된 다운타임으로 이어지는 취약 구간이 생깁니다.

마이그레이션 전 평가가 성공 확률을 결정합니다

계획된 마이그레이션 날짜 90일 전에 평가를 시작하십시오. 현재 환경의 모든 측면을 문서화하십시오:

인프라 매핑: 전력 분배, 냉각 존, 네트워크 토폴로지, 스토리지 아키텍처의 상세 다이어그램을 작성합니다. 자동화된 검색 도구를 사용하여 NVLink 구성, InfiniBand 라우트, PCIe 할당을 캡처하며 GPU 상호 연결을 매핑합니다. 모든 구성 요소의 펌웨어 버전, 드라이버 구성, BIOS 설정을 기록합니다.

워크로드 분석: 실행 중인 모든 워크로드를 프로파일링하여 리소스 요구사항과 종속성을 파악합니다. 일시 중지 가능한 워크로드와 지속적인 운영이 필요한 워크로드를 식별합니다. 각 애플리케이션의 체크포인트 크기, 복원 시간, 최소 가동 구성을 계산합니다. API 엔드포인트, 서비스 종속성, 클라이언트 연결 요구사항을 문서화합니다.

용량 검증: 대상 시설이 20% 여유를 포함한 모든 요구사항을 충족하는지 확인합니다. 전체 시설 용량이 아닌 회로 수준에서 전력 용량을 확인합니다. 전체 부하 조건에서 냉각 성능을 검증합니다. 이론적 스위치 용량이 아닌 종단 간 네트워크 대역폭을 테스트합니다. "100kW 가용 용량"이 GPU 랙에 사용할 수 없는 20개의 5kW 회로에 분산되어 있다는 것을 발견할 때 많은 마이그레이션이 실패합니다.

위험 평가: 모든 잠재적 장애 지점을 식별하고 구체적인 완화 전략을 개발합니다. 일반적인 위험에는 배송 손상(예비 장비로 완화), 네트워크 구성 오류(사전 준비 및 구성 테스트), 전력 불안정(임시 UPS 시스템 배치), 열 이벤트(장비 도착 전 냉각 용량 준비)가 포함됩니다.

Introl의 마이그레이션 전문가들은 글로벌 커버리지 지역 전체에서 50,000개 이상의 GPU를 이동시키며 일반적인 장애 모드를 예측하는 플레이북을 개발했습니다.⁷ 우리는 성공적인 마이그레이션이 실행 시간보다 3배 더 많은 계획 시간을 필요로 한다는 것을 배웠습니다. 48시간의 물리적 마이그레이션에는 무중단을 달성하기 위해 144시간의 준비가 필요합니다.

워크로드 마이그레이션 전략이 지속적인 운영을 가능하게 합니다

무중단 마이그레이션의 핵심은 전환 기간 동안 두 시설에서 병렬 운영을 유지하는 것입니다:

1단계 - 거점 구축 (1-2주차): 새 시설에 초기 기반으로 10-20% 용량을 배치합니다. 핵심 네트워킹, 스토리지, 관리 인프라를 설치합니다. 이중화를 위해 여러 100Gbps 링크를 사용하여 시설 간 고대역폭 연결을 구축합니다. Layer 2 인접성을 유지하기 위해 확장 VLAN을 구성합니다. 비핵심 워크로드로 페일오버 기능을 테스트합니다.

2단계 - 핵심 서비스 복제 (3-4주차): 인증, DNS, 모니터링, 오케스트레이션 서비스를 새 시설에 미러링합니다. 가능한 경우 액티브-액티브 구성을, 필요한 경우 액티브-패시브 구성을 구현합니다. 데이터셋에는 비동기 복제를, 핵심 메타데이터에는 동기 복제를 사용하여 스토리지 시스템을 동기화합니다. 양쪽 위치에서 서비스 기능을 검증합니다.

3단계 - 워크로드 전환 (5-8주차): 무상태 추론 서빙부터 시작하여 우선순위에 따라 워크로드를 마이그레이션합니다. 유지보수 기간 동안 학습 워크로드에 체크포인트-재시작을 사용합니다. 카나리 배포를 구현하여 처음에 5%의 트래픽을 이동한 다음 25%, 50%, 마지막으로 100%로 진행합니다. 성능 메트릭을 지속적으로 모니터링하며 이상 징후가 발생하면 롤백할 준비를 합니다.

4단계 - 물리적 마이그레이션 (9-12주차): 소스 시설에서 최소 가동 용량을 유지하면서 하드웨어를 단계별로 이동합니다. 데이터센터 장비 전문 물류 회사를 사용합니다. 모든 배송에 충격 센서와 온도 모니터를 배치합니다. 새 시설의 하역장에서 장비를 준비하고, 랙 설치 전에 각 시스템을 테스트합니다.

5단계 - 소스 해제 (13-14주차): 확신이 쌓이면 점진적으로 소스 시설 용량을 줄입니다. 긴급 폴백을 위해 마이그레이션 후 30일 동안 시설 간 연결을 유지합니다. 규정 준수 요구사항을 위해 구성과 문서를 보관합니다. 향후 마이그레이션 개선을 위한 교훈 세션을 진행합니다.

네트워크 아키텍처에 특별한 주의가 필요합니다

GPU 클러스터는 예측 가능한 지연 시간과 무손실 네트워킹을 요구합니다. 마이그레이션 전략은 이러한 특성을 보존해야 합니다:

확장 패브릭 설계: 시설 간 Layer 2 도메인을 확장하기 위해 VXLAN 오버레이를 구현합니다. MAC 주소 이동성과 루프 방지를 위해 EVPN을 사용합니다. 사용 가능한 모든 대역폭을 활용하기 위해 Equal-Cost Multi-Path(ECMP) 라우팅을 구성합니다. 50ms 미만의 빠른 장애 감지 및 페일오버 트리거를 위해 Bidirectional Forwarding Detection(BFD)을 배포합니다.

서비스 품질(QoS) 보존: 혼잡 시 패킷 손실을 방지하기 위해 Priority Flow Control(PFC)을 구성합니다. 적절한 ECN 마킹으로 RoCE(RDMA over Converged Ethernet)를 구현합니다. 시설 간에 트래픽 클래스를 일관되게 매핑합니다. QoS 불일치는 눈에 띄지 않는 성능 저하를 유발하므로 부하 상태에서 구성을 테스트합니다.

대역폭 최적화: 다음 공식을 사용하여 대역폭 요구사항을 계산합니다: (체크포인트 크기 × GPU 수) / 마이그레이션 기간 + 30% 오버헤드. 1TB 체크포인트를 가진 512-GPU 클러스터는 15분 마이그레이션 기간에 665GB/s가 필요합니다. 압축과 중복 제거를 위해 WAN 최적화 어플라이언스를 사용합니다. 마이그레이션 트래픽이 프로덕션 워크로드에 영향을 미치지 않도록 트래픽 셰이핑을 구현합니다.

스토리지 마이그레이션에는 병렬 전략이 필요합니다

데이터 중력으로 인해 스토리지 마이그레이션이 가장 어려운 측면이 됩니다. 여러 접근 방식을 동시에 구현하십시오:

지속적 복제: 대상 시설로의 비동기 복제를 위해 스토리지 어레이를 구성합니다. 핵심 데이터의 경우 5초 미만의 복제 지연을 목표로 지속적으로 모니터링합니다. 대역폭 소비를 최소화하기 위해 변경된 블록 추적을 사용합니다. 롤백 기능을 위해 버전이 지정된 스냅샷을 유지합니다.

병렬 파일시스템: 양쪽 위치에 걸쳐 병렬 파일시스템(Lustre, GPFS)을 배포합니다. 콜드 데이터를 먼저, 핫 데이터를 나중에 마이그레이션하기 위해 스토리지 계층화를 사용합니다. 사이트 간 트래픽을 줄이기 위해 대상에 읽기 캐싱을 구현합니다. 분산 작업으로 지연 시간이 증가하므로 메타데이터 서버 성능을 모니터링합니다.

체크포인트 배송: 대용량 학습 데이터셋의 경우 물리적 배송이 네트워크 전송보다 빠릅니다. 모델 체크포인트를 위해 NVMe 드라이브 어레이를 사용하고 드라이브를 야간 배송합니다. 10TB 체크포인트는 2.5Gbps로 10시간이 걸리지만 택배로 하룻밤이면 도착합니다. 보안 규정 준수를 위해 관리 체인과 암호화를 유지합니다.

이중화와 테스트를 통한 위험 완화

모든 마이그레이션 계획에는 해당하는 장애 복구 절차가 필요합니다:

장비 이중화: 마이그레이션 기간 동안 양쪽 시설에서 10% 예비 용량을 유지합니다. 대상에 교체용 GPU, 스위치, 케이블을 사전 배치합니다. 핵심 마이그레이션 기간 동안 벤더 지원 엔지니어를 대기시킵니다. 주 시스템이 실패할 경우를 대비해 긴급 장비 렌탈 예산을 책정합니다.

네트워크 이중화: 시설 간에 여러 개의 다양한 네트워크 경로를 배포합니다. 공통 장애를 방지하기 위해 다른 통신사와 물리적 경로를 사용합니다. 1초 미만의 수렴 시간으로 자동 페일오버를 구현합니다. 마이그레이션 전 매주 페일오버 절차를 테스트합니다.

전력 이중화: 마이그레이션 기간 동안 임시 전력 분배 장치를 설치합니다. 핵심 시스템용 이동식 발전기를 배치합니다. 배터리 브릿지 기능이 있는 자동 전환 스위치를 구현합니다. 전압 변동이 민감한 GPU 전자 장치를 손상시키므로 전력 품질을 지속적으로 모니터링합니다.

롤백 절차: 모든 마이그레이션 단계에 대한 상세한 롤백 단계를 문서화합니다. 성능 메트릭을 기반으로 명확한 롤백 트리거를 정의합니다. 마이그레이션 성공이 확인될 때까지 소스 시설 기능을 유지합니다. 스테이징 환경에서 롤백 절차를 연습합니다.

실제 마이그레이션 사례 연구

한 금융 서비스 기업이 알고리즘 트레이딩 운영을 중단하지 않고 시카고에서 피닉스로 2,000개의 V100 GPU를 마이그레이션했습니다. 그들은 6주 동안 병렬 운영을 유지하며 지연 시간 영향을 모니터링하면서 점진적으로 워크로드를 전환했습니다. 총 마이그레이션 비용은 280만 달러에 달했지만 낮은 전력 비용과 개선된 PUE를 통해 연간 400만 달러를 절감했습니다.

한 제약 회사가 데이터 주권 요구사항을 준수하기 위해 약물 발견 클러스터(800개의 A100 GPU)를 유럽 시설 간에 이동했습니다. 그들은 50TB의 분자 역학 시뮬레이션을 체크포인트 배송으로 처리하며 휴일 주말 동안 물리적 마이그레이션을 완료했습니다. 마이그레이션은 예정보다 12시간 일찍 완료되었으며 연구 일정에 전혀 영향을 미치지 않았습니다.

한 자율주행 차량 회사가

[번역을 위해 콘텐츠 일부 생략됨]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중