GB200 NVL72 배포: 액체 냉각 구성에서 72개 GPU 관리
2025년 12월 8일 업데이트
72개의 GPU가 단일 연산 장치로 작동하는 것이 이제 생산 현실이 되었습니다. GB200 NVL72는 120킬로와트를 소비하며 단일 랙에서 1.4 엑사플롭스의 AI 연산 성능을 제공합니다.¹ 이 아키텍처는 노드 간의 전통적인 경계를 완전히 허물고, 기존 클러스터를 괴롭히던 분산 컴퓨팅 페널티 없이 조 단위 파라미터 모델을 처리하는 일관된 연산 패브릭을 만들어냅니다. 이러한 시스템을 배포하는 조직들은 인프라 팀이 가능하다고 생각하는 것의 정의를 바꾸는 엔지니어링 도전에 직면합니다.
2025년 12월 업데이트: GB200 NVL72 시스템은 2024년 12월부터 주요 클라우드 제공업체에 출하되기 시작했으며, 2025년 2~3분기에 대량 생산이 본격화되었습니다. 애널리스트들은 공급망 최적화 요구 사항으로 인해 2025년 출하량 전망을 25,000~35,000개 캐비닛으로 수정했습니다(초기 전망 50,000~80,000개에서 하향). NVIDIA는 이미 GTC 2025에서 후속작 GB300 NVL72를 공개했으며, 288GB HBM3e 메모리, GPU당 1.4kW 전력, 50% 향상된 성능(1,100 PFLOPS FP4 추론)을 갖춘 Blackwell Ultra GPU를 탑재했습니다. GB300 시스템은 2025년 3분기에 생산에 들어갔으며 Quanta가 9월부터 유닛 출하를 시작했습니다. 새로운 배포를 계획하는 조직은 즉각적인 GB200 수요 대비 GB300 가용성을 평가해야 합니다.
숫자만으로도 경험 많은 데이터 센터 설계자들을 놀라게 합니다: 576테라바이트/초 속도로 접근 가능한 13.5테라바이트의 HBM3e 메모리, 5세대 NVLink를 통해 130테라바이트/초의 GPU 간 대역폭 제공.² 각 랙의 무게는 3,000킬로그램이며 필수 액체 냉각 시스템을 통해 전달되는 2.4메가와트의 냉각 용량이 필요합니다.³ 단일 시스템 가격이 300만 달러이고 GPT-4급 모델을 몇 달이 아닌 몇 주 만에 훈련할 수 있을 때, 전통적인 배포 플레이북은 무의미해집니다.
CoreWeave는 2025년 인도 예정으로 23억 달러 규모의 GB200 NVL72 시스템을 주문했으며, 대규모 언어 모델 훈련 및 추론 시장을 지배할 플랫폼의 능력에 전체 인프라 전략을 걸었습니다.⁴ Lambda Labs는 전력 및 냉각 요구 사항을 지원하기 위해 시설을 완전히 재건해야 함에도 불구하고 200대를 사전 구매했습니다.⁵ 이 시스템에 대한 골드러시는 근본적인 진실을 드러냅니다: GB200 NVL72 인프라를 배포할 수 없는 조직은 파운데이션 모델 개발에서 도태될 위험이 있습니다.
아키텍처가 컴퓨팅 경계를 재정의하다
GB200 NVL72는 36개의 Grace-Blackwell Superchip을 2단계 NVLink 스위치 시스템을 통해 연결하여 전례 없는 연산 일관성을 만들어냅니다. 각 Superchip은 Arm 기반 Grace CPU와 두 개의 Blackwell GPU를 결합하고, NVLink-C2C를 통해 양방향 900GB/s 대역폭으로 연결됩니다.⁶ 72개의 GPU가 메모리를 공유하고 마치 단일 거대 프로세서처럼 통신하여, 기존 분산 훈련을 제한하는 동기화 오버헤드를 제거합니다.
NVLink Switch Tray는 시스템의 백본을 형성하며, 9개의 트레이가 각각 4개의 NVLink Switch 칩을 지원합니다. 이 스위치들은 GPU당 1.8TB/s로 GPU 간 전대전 연결을 제공하여, 모든 GPU가 300나노초 이내에 시스템의 모든 메모리 위치에 접근할 수 있게 합니다.⁷ 지연 시간의 균일성은 개발자가 전체 시스템을 72배의 리소스를 가진 단일 GPU처럼 다룰 수 있게 하여 소프트웨어 개발을 극적으로 단순화합니다.
메모리 아키텍처는 컴퓨팅 역사상 모든 선례를 깨뜨립니다. 시스템은 576TB/s 총 대역폭을 가진 13.5TB의 HBM3e 메모리와 Grace CPU가 접근 가능한 추가 2.25TB의 LPDDR5X를 제공합니다.⁸ 메모리 일관성은 모든 프로세서에 걸쳐 확장되어, CPU와 GPU가 명시적 복사 없이 데이터 구조를 공유할 수 있습니다. 이전에는 여러 노드에 걸친 복잡한 모델 병렬화가 필요했던 대규모 언어 모델이 이제 단일 NVL72의 메모리 공간 내에 완전히 들어갑니다.
냉각은 부가적인 요소가 아닌 아키텍처의 필수 부분이 됩니다. NVIDIA는 엄격한 사양의 액체 냉각을 의무화합니다: 유입 온도 20-25°C, 분당 80리터의 유량, 1.5bar를 초과하지 않는 압력 강하.⁹ 냉각 시스템은 연속적인 120kW 발열에도 불구하고 정션 온도를 75°C 이하로 유지합니다. 사양에서 벗어나면 성능을 60%까지 감소시킬 수 있는 자동 스로틀링이 트리거되어, 냉각이 연산 자원만큼 중요해집니다.
전력 공급은 완전한 인프라 재설계를 요구합니다. 시스템은 4개의 30kW 전원 셸프를 통해 연속적으로 120kW를 사용하며, 각각 480V 3상 입력이 필요합니다.¹⁰ 전력 변환은 두 단계로 이루어집니다: 전원 셸프에서 AC를 54V DC로, 그 다음 컴퓨트 보드에서 54V를 부하 지점 전압으로 변환합니다. 이 아키텍처는 97%의 변환 효율을 달성하지만, 전력 변환만으로도 여전히 3.6kW의 폐열이 발생합니다.
물리적 배포 도전이 배가되다
GB200 NVL72를 설치하려면 군사적 정밀도와 전문 장비가 필요합니다. 시스템은 네 개의 별도 구성 요소로 도착합니다: 1,500kg의 컴퓨트 랙, 800kg의 NVLink Switch 랙, 400kg의 CDU, 300kg의 전력 분배 장치.¹¹ 표준 데이터 센터 문은 폭을 수용할 수 없어 문틀과 때로는 벽의 제거가 필요합니다. Introl의 배포 팀은 바닥 표면을 손상시키지 않고 구성 요소를 배치하기 위해 2,000kg 등급의 특수 유압 리프트를 사용합니다.
바닥 하중은 즉각적인 구조적 우려를 제시합니다. 컴퓨트 랙은 단 0.8제곱미터에 1,500kg을 집중시켜 1,875 kg/m²의 점 하중을 만듭니다.¹² 1,000 kg/m² 등급의 표준 이중 바닥은 무게를 분산시키기 위해 강철 보강판이 필요합니다. 많은 시설에서 NVL72 배포를 위해 특별히 타설된 보강 콘크리트 패드가 있는 슬래브 온 그레이드 설치를 선택합니다. 지진 지역에서는 지진 시 이동을 방지하기 위한 추가 앵커링이 필요합니다.
케이블 관리는 5,000개 이상의 개별 연결로 3차원 퍼즐이 됩니다. 시스템은 GPU 인터커넥트용 144개의 구리 NVLink 케이블, 네트워크 연결용 288개의 광케이블, 72개의 액체 냉각 튜브, 수백 개의 전원 케이블을 사용합니다.¹³ NVIDIA는 정확한 케이블 길이와 배선 다이어그램을 제공하며, 편차는 1.8TB/s 속도에서 신호 무결성 문제를 야기합니다. 설치 팀은 케이블 관리에만 60-80시간을 소비하며, 증강 현실 헤드셋을 사용하여 모든 연결이 사양과 일치하는지 확인합니다.
액체 냉각 인프라는 제약 수준의 청결도를 요구합니다. 냉각 루프에는 특정 전도도, pH, 입자 수준을 유지해야 하는 특수 제조된 200리터의 냉각수가 들어 있습니다.¹⁴ 단 하나의 오염 입자가 개별 칩을 냉각하는 마이크로채널 콜드 플레이트를 막을 수 있습니다. 설치 팀은 냉각수를 주입하기 전에 전체 시스템을 탈이온수로 세 번 세척합니다. 이 과정은 12-16시간이 걸리며 특수 펌핑 장비가 필요합니다.
네트워크 통합은 전례 없는 대역폭 프로비저닝을 요구합니다. 각 NVL72는 외부 연결을 위해 8개의 400GbE 연결이 필요하며, 시스템당 총 3.2Tb/s입니다.¹⁵ 대역폭 요구 사항은 많은 시설의 전체 외부 연결을 초과합니다. 조직은 일반적으로 NVL72 시스템에서 코어 라우터까지 전용 광섬유 런을 배포하여 기존의 탑 오브 랙 스위칭 아키텍처를 우회합니다. 네트워크 설계는 NVL72 시스템이 분산 훈련 중 체크포인트와 그래디언트를 교환하는 동서 트래픽 패턴을 고려해야 합니다.
극한 규모에서의 소프트웨어 오케스트레이션
72개의 GPU를 일관된 시스템으로 관리하려면 근본적인 소프트웨어 아키텍처 변경이 필요합니다. NVIDIA의 NVLink Switch System 소프트웨어는 모든 GPU에 걸쳐 단일 메모리 공간을 생성하지만, 애플리케이션은 이 기능을 활용하도록 설계되어야 합니다. Horovod 및 PyTorch Distributed와 같은 기존 분산 훈련 프레임워크는 불필요한 오버헤드가 됩니다. 개발자는 수동 개입 없이 72개의 GPU에 걸쳐 모델을 자동으로 파티셔닝하는 NVIDIA의 Transformer Engine 라이브러리를 사용합니다.¹⁶
컨테이너 오케스트레이션 플랫폼은 NVL72의 리소스 모델에 어려움을 겪습니다. Kubernetes는 기본적으로 시스템을 72개의 개별 GPU로 인식하여 스케줄링 충돌과 리소스 단편화를 초래합니다. NVIDIA는 NVL72를 단일 스케줄 가능 단위로 표시하는 커스텀 디바이스 플러그인을 제공하지만, 이는 표준 ML 플랫폼과의 호환성을 깨뜨립니다.¹⁷ 조직은 종종 멀티테넌시를 시도하는 대신 전체 NVL72 시스템을 단일 워크로드에 전용으로 할당합니다.
메모리 관리는 통합 메모리 공간에도 불구하고 NUMA 효과를 신중하게 고려해야 합니다. 각 Grace CPU는 로컬 GPU에 500GB/s 대역폭을 가진 로컬 LPDDR5X 메모리를 가지지만, 원격 GPU에는 100GB/s만 제공합니다.¹⁸ 최적의 성능을 위해서는 크로스 소켓 메모리 접근을 최소화하는 데이터 배치 알고리즘이 필요합니다. NVIDIA의 Magnum IO 라이브러리는 일부 최적화를 자동으로 처리하지만, 커스텀 애플리케이션은 명시적인 NUMA 인식이 필요합니다.
72개의 GPU가 하나로 작동할 때 장애 처리가 복잡해집니다. 단일 GPU 장애는 전통적으로 노드 컴퓨팅의 1/8을 잃는 것을 의미했습니다. NVL72에서는 NVLink 토폴로지 의존성으로 인해 하나의 GPU 장애가 전체 시스템을 불안정하게 만들 수 있습니다. NVIDIA는 장애 구성 요소 주위로 NVLink 라우팅을 동적으로 재구성하는 하드웨어 수준 장애 격리를 구현하지만, GPU 장애당 성능이 15-20% 저하됩니다.¹⁹ 대부분의 배포에서는 프로덕션 유닛에서 수리를 시도하는 대신 예비 NVL72 시스템을 유지합니다.
성능 모니터링은 압도적인 양의 텔레메트리를 생성합니다. 각 GPU는 온도, 전력, 메모리 대역폭, 컴퓨팅 활용도를 다루는 초당 10,000개 이상의 메트릭을 생성합니다.²⁰ 72개의 GPU와 CPU, 스위치를 곱하면 단일 NVL72가 초당 100만 개의 메트릭을 생성합니다. 기존 모니터링 시스템은 이 볼륨을 처리할 수 없습니다. 조직은 전용 시계열 데이터베이스를 배포하고 AI 기반 분석을 사용하여 텔레메트리 스트림에서 이상을 식별합니다.
경제 모델이 기존 사고방식에 도전하다
GB200 NVL72의 300만 달러 가격표는 대안과 비교할 때까지 천문학적으로 보입니다. 개별 DGX H100 시스템에서 동등한 컴퓨팅을 구축하려면 270만 달러의 9개 노드가 필요하지만, 5배 더 높은 전력 소비와 10배 더 많은 랙 공간이 필요합니다.²¹ NVL72의 일관된 아키텍처는 노드 간 통신 오버헤드를 제거하여 대규모 모델 훈련에 대해 30% 더 나은 실제 처리량을 제공합니다. 프리미엄은 훈련 시간 단축과 낮은 운영 비용을 통해 스스로를 상쇄합니다.
전력 경제성은 120kW 소비에도 불구하고 NVL72에 유리합니다. 유사한 컴퓨팅을 달성하는 기존 분산 시스템은 네트워킹 오버헤드를 포함하여 400-500kW를 소비합니다.²² kWh당 0.10달러의 산업용 전기 요금에서 전력 절감은 연간 300,000달러에 해당합니다. 감소된 냉각 부하는 연간 100,000달러를 추가로 절감합니다. 일반적인 3년 감가상각 기간 동안 에너지 절감은 초기 프리미엄의 거의 절반을 상쇄합니다.
훈련 시간 단축은 경쟁 우위로 직접 전환됩니다. OpenAI는 NVL72 시스템에서 GPT-4 훈련이 이전 인프라의 90일 대비 45일 만에 완료될 것으로 추정합니다.²³ 컴퓨팅 자원에 하루 100만 달러를 지출하는 조직에게 시간 절감은 합리적인 모든 하드웨어 프리미엄을 정당화합니다. AI 시장에서의 선점 이점은 순수한 재무 계산 이상으로 속도를 귀중하게 만듭니다.
활용률은 통합 아키텍처로 극적으로 향상됩니다. 기존 클러스터는 통신 및 동기화 오버헤드로 인해 50-60%의 GPU 활용률을 달성합니다.²⁴ NVL72 시스템은 노드 간 병목 현상을 제거하여 85-90%의 활용률을 유지합니다. 향상된 활용률은 각 NVL72가 기존 GPU 120-130개의 유효 컴퓨팅을 제공한다는 것을 의미하며, 대규모 AI 인프라의 경제성을 변화시킵니다.
운영 비용은 많은 재무 분석가들을 놀라게 합니다. 시스템의 복잡성은 200,000달러 이상의 급여를 받는 전담 엔지니어링 팀을 필요로 합니다. 냉각수만 연간 10,000달러이며 분기별 테스트에 2,000달러가 듭니다. 단일 NVL72의 예비 부품 재고는 500,000달러의 자본을 묶습니다. 그러나 이러한 비용은 모델 개발을 위한 충분한 컴퓨팅이 없는 것의 기회 비용에 비하면 미미합니다.
실제 배포가 운영 현실을 드러내다
Anthropic의 Claude 3 훈련 인프라
[번역을 위해 콘텐츠 축약됨]