1200W GPU를 위한 물리적 인프라: 전력, 냉각 및 랙 설계 요구사항
2025년 12월 8일 업데이트
GPU 전력 소비가 700W에서 1200W로 도약한 것은 단순한 70% 이상의 증가가 아닙니다—이는 지난 10년간 데이터센터 설계를 이끌어온 모든 가정을 근본적으로 무너뜨리며, 기존 IT 환경보다는 산업 제조 시설에 가까운 인프라를 요구합니다.¹ NVIDIA의 B200과 GB300 Blackwell Ultra는 이제 칩당 1200-1400W를 요구하며, 곧 출시될 Vera Rubin 플랫폼은 요구사항을 더욱 높일 것입니다.² 오늘 인프라를 구축하는 조직들은 가정용 전기 히터와 맞먹는 열을 발생시키고, 냉각 장치 포함 시 30kg에 달하며, 전기차 충전소에서 차용한 전력 공급 시스템을 필요로 하는 GPU에 대비해야 합니다.
2025년 12월 업데이트: 1200W GPU 시대가 도래했습니다. GB200 시스템(슈퍼칩당 1200W)이 2025년 내내 출하되었으며, GB300 Blackwell Ultra(1400W)가 현재 생산 중입니다. NVIDIA의 Vera Rubin 플랫폼은 2025년 9월부터 테스트 샘플이 출하되고 있으며, NVL144 구성의 경우 랙당 최대 600kW가 필요합니다—현재 GB200 NVL72 시스템 대비 5배 증가입니다. 2024년에 1200W에 대비한 인프라를 준비한 조직들은 이제 2000W 이상의 칩이 2027년에 등장할 것이라는 현실에 직면해 있습니다. 여기에 문서화된 인프라 결정은 여전히 기본이 되지만, 미래 지향적 배포는 상당히 높은 전력 밀도를 계획해야 합니다.
인프라 과제는 규모를 곱할 때 복합됩니다. 8개의 1200W GPU가 장착된 단일 랙은 컴퓨팅만으로 10kW를 소비하지만, 지원 장비를 포함하면 랙당 총 소비량이 15-18kW로 증가합니다.³ Microsoft의 최신 데이터센터 설계는 이미 1200W 칩을 수용하며, 시설은 서버룸보다 알루미늄 제련소에 더 가깝습니다.⁴ 준비에는 전기 업그레이드, 냉각 시스템 설치, 구조 보강에 18-24개월의 리드 타임이 필요하며, 단일 GPU를 구매하기 전에 메가와트당 5-8백만 달러의 비용이 듭니다.
얼리 어답터들은 인프라 요구사항을 과소평가한 것에 대해 고통스러운 교훈을 얻습니다. Cerebras는 전력이 주요 과제라고 생각하며 23kW 웨이퍼 스케일 엔진을 배포했지만, 냉각 펌프의 진동이 칩 고장을 일으킨다는 것을 발견했습니다.⁵ Tesla의 Dojo 슈퍼컴퓨터는 겉보기에 충분한 냉각 용량에도 불구하고 1000W 이상의 칩이 과열되어 시설 전체 재설계가 필요했습니다.⁶ 차세대 GPU를 배포하는 모든 조직은 값비싼 개조가 필요한 새로운 고장 모드를 발견하게 되어, 수백만 달러의 실수를 피하기 위해 적절한 준비가 중요합니다.
전력 공급 아키텍처가 새로운 영역에 진입하다
기존의 208V 전력 분배는 1200W 부하에서 물리적으로 불가능해집니다. 208V에서 1200W를 공급하려면 3상 전력에서 위상당 5.8암페어가 필요하지만, 전기 코드에 따른 80% 디레이팅을 고려하면 7.2암페어 회로가 됩니다.⁷ 전류는 각 GPU에 대해 엄지손가락 굵기의 6 AWG 케이블이 필요하며, 표준 랙에 물리적으로 맞지 않는 케이블 번들을 만듭니다. 설치 인건비 전에 구리만으로도 GPU당 500달러의 원자재 비용이 듭니다.
480V 전력 분배가 1200W 칩을 위한 유일한 실행 가능한 솔루션으로 떠오릅니다. 480V 3상에서 1200W는 위상당 1.5암페어만 필요하며, 12 AWG 배선으로 관리 가능합니다.⁸ 유럽 데이터센터는 표준 400V 분배를 통해 이점을 얻으며, 이것이 많은 하이퍼스케일러가 차세대 인프라를 위해 북유럽 배포를 우선시하는 이유입니다. 북미 시설은 208V에서 480V 분배로의 변압기 업그레이드가 필요하며, 메가와트당 50만 달러의 변환 장비가 추가됩니다.⁹
직류(DC) 분배는 AC 시스템을 괴롭히는 여러 변환 비효율성을 제거합니다. 기존 AC-DC 변환은 변압기와 정류기 손실을 통해 전력의 8-10%를 낭비합니다.¹⁰ Google의 데이터센터는 380V DC 분배가 유틸리티에서 칩까지 99% 효율을 달성함을 보여줍니다.¹¹ 1200W GPU의 경우, DC 분배는 변환 손실만으로 칩당 120W를 절약합니다. 절약된 전력은 변환 열에 대한 냉각 요구사항과 동일하여 효율성 이점이 복합됩니다.
전원 공급 장치 설계가 정교한 전력 관리 시스템으로 발전합니다. 기존 PSU는 80 Plus Titanium 효율 94%에서 2000W에서 최대입니다.¹² 8개의 1200W GPU를 지원하려면 N+1 이중화를 갖춘 여러 3000W 이상의 공급 장치가 필요합니다. Delta Electronics는 고밀도 GPU 배포를 위해 특별히 4000W 전원 셸프를 개발했으며, GaN 트랜지스터를 사용하여 97% 효율을 달성합니다.¹³ 각 전원 셸프는 15,000달러의 비용이 들지만 연속 운영 시 연간 50,000달러의 전기료를 절약합니다.
GPU가 마이크로초 내에 유휴 상태에서 전체 부하로 전환될 때 과도 전력 관리가 중요해집니다. 200W 유휴에서 전체 전력으로 전환하는 1200W GPU는 전력 그리드를 불안정하게 만드는 1000W 스텝 부하를 생성합니다.¹⁴ 커패시터 뱅크가 이러한 전환을 완화하지만 신중한 크기 조정이 필요합니다: 너무 작으면 전압 강하로 시스템이 충돌하고, 너무 크면 비용이 불필요하게 증가합니다. 최신 GPU 전력 공급에는 랙당 5,000달러의 비용이 들지만 전력으로 인한 고장을 방지하는 50,000마이크로패럿 커패시터 어레이가 포함됩니다.
1200W 냉각에는 반드시 액체가 필요하다
공기 냉각은 엔지니어링의 창의성과 관계없이 1200W GPU에서 열역학적으로 불가능해집니다. 공기로 1200W의 열을 제거하려면 30°F 온도 상승과 함께 400 CFM이 필요합니다.¹⁵ 8개의 GPU는 3,200 CFM이 필요하며, 서버 랙 내에 100mph 이상의 바람을 만듭니다. 팬 전력만으로도 500W를 소비하여 제거해야 할 열이 더 추가됩니다. 공기 흐름이 달성 가능하더라도 음향 수준은 110dBA를 초과하여 몇 분 내에 영구적인 청력 손상을 일으킵니다.¹⁶
콜드 플레이트로의 직접 액체 냉각이 최소한의 실행 가능한 솔루션이 됩니다. CoolIT Systems의 직접 액체 냉각은 사람의 머리카락보다 작은 마이크로채널이 있는 특수 콜드 플레이트를 사용하여 GPU당 1500W를 처리합니다.¹⁷ 이 시스템은 분당 2리터 유량으로 30°C 유입수를 사용하여 칩 온도를 80°C 이하로 유지합니다. 엔지니어링은 기존 IT보다 포뮬러 1 레이싱에 더 가까우며, 공차는 마이크로미터로, 열저항은 와트당 섭씨 분율로 측정됩니다.
침수 냉각은 극단적인 밀도 배포에 우수한 열 제거를 제공합니다. Submer의 SmartPodX는 유전체 유체 침수를 사용하여 60평방피트에서 100kW를 처리합니다.¹⁸ 공기의 부재는 공기 및 콜드 플레이트 냉각을 괴롭히는 핫스팟과 열 구배를 제거합니다. GRC는 1200W GPU가 침수 상태에서 직접 액체 냉각보다 15°C 더 차갑게 작동한다고 보고합니다.¹⁹ 이 기술은 완전한 인프라 재설계가 필요하지만 다른 접근 방식으로는 불가능한 밀도를 가능하게 합니다.
2상 냉각은 최대 열 제거를 위해 상변화 물리학을 활용합니다. 3M의 Novec 유체는 50°C에서 끓으며, 기화는 단상 액체보다 10배 더 많은 열을 흡수합니다.²⁰ Intel은 60°C 접합 온도를 유지하면서 실험용 칩에서 2000W를 제거하는 2상 냉각을 시연했습니다.²¹ 이 기술은 GPU에 대해 아직 실험적이지만 1500W 이상의 미래 칩에 대한 진화 가능성을 나타냅니다. 얼리 어답터는 2상 업그레이드 경로를 갖춘 시설을 설계해야 합니다.
열 배출 인프라는 GPU 전력에 비례하여 확장됩니다. 1200W GPU가 있는 10MW 시설은 겨울에 2,500가구에 해당하는 열을 발생시킵니다.²² 냉각탑은 분당 35,000갤런의 응축수 흐름을 처리해야 합니다. 물 부족 지역의 건식 쿨러는 50% 더 많은 용량이 필요하고 20% 더 많은 전력을 소비합니다. 인프라는 서버룸을 훨씬 넘어 메가와트당 2-3백만 달러의 비용이 드는 산업 규모의 기계 시스템으로 확장됩니다.
구조 공학이 막대한 하중에 직면하다
GPU 무게는 통합 냉각 시스템과 함께 극적으로 증가합니다. 베어 1200W GPU의 무게는 5kg이지만, 콜드 플레이트, 매니폴드 및 냉각수를 추가하면 GPU당 총 무게가 15kg에 달합니다.²³ 8-GPU 서버는 완전히 로드되면 200kg에 근접하여 대부분의 이중 바닥 등급인 평방미터당 150kg을 초과합니다. 무게 집중은 시간이 지남에 따라 콘크리트를 균열시키고 강철 지지대를 휘게 하는 점 하중을 생성합니다.
냉각 시스템의 진동은 예상치 못한 구조적 문제를 일으킵니다. 액체 냉각용 고유량 펌프는 건물 구조와 공진하는 50-120Hz 주파수의 진동을 발생시킵니다.²⁴ Cerebras는 펌프 진동이 솔더 조인트에 기계적 응력을 통해 GPU 메모리 오류를 일으킨다는 것을 발견했습니다.²⁵ 랙당 10,000달러가 추가되지만 진동으로 인한 고장을 방지하는 스프링-댐퍼 시스템을 사용한 격리 마운팅이 필수가 됩니다.
대형 GPU 인프라에 대해 지진 고려 사항이 배가됩니다. 캘리포니아 건축 코드는 400파운드를 초과하는 장비에 대해 앵커링을 요구하지만, 1200W GPU 랙은 완전히 로드되면 2,000파운드에 근접합니다.²⁶ 지진 앵커링은 뒤집히지 않고 1.5g 수평 가속도를 견뎌야 합니다. 앵커링 시스템은 랙당 5,000달러의 비용이 들며 바닥 슬래브가 하중을 처리할 수 있는지 확인하기 위한 구조 분석이 필요합니다. 일본의 데이터센터는 지진 시 30cm의 수평 이동을 허용하는 면진 시스템을 사용합니다.
액체 분배는 데이터센터 설계에서 거의 고려되지 않는 정수압 하중을 추가합니다. 1200W GPU용 냉각 루프는 랙당 500리터 이상의 냉각수를 포함하며, 장비 무게 외에 500kg의 무게가 있습니다.²⁷ 파이프 경로는 이 무게와 분당 20리터 이상의 유량에서 오는 동적 힘을 지지해야 합니다. 치명적인 누출은 전체 데이터센터 층을 침수시킬 수 있는 충분한 액체를 방출합니다. 이차 격납 시스템이 필수가 되어 건설 비용이 20% 증가하지만 환경 재해를 방지합니다.
액세스 플로어링은 1200W 인프라를 위해 완전한 재설계가 필요합니다. 기존의 2피트 이중 바닥은 장비 무게를 지지하거나 필요한 케이블링과 배관을 수용할 수 없습니다. 현대의 1200W 배포는 타일 대신 강철 그레이팅이 있는 4피트 이중 바닥을 사용합니다.²⁸ 더 깊은 플레넘은 12인치 냉각 파이프와 대규모 케이블 번들을 수용합니다. 건설 비용은 40% 증가하지만 필요한 인프라 공간과 하중 용량을 제공합니다.
네트워크 및 케이블 인프라도 그에 따라 확장된다
각 1200W GPU는 컴퓨트 아일랜드가 되는 것을 방지하기 위해 여러 고속 네트워크 연결이 필요합니다. NVIDIA의 B200은 GPU당 3.2Tb/s 총 대역폭을 위해 8개의 400GbE 포트를 지원합니다.²⁹ 8개의 GPU는 이중화를 포함하여 64개의 네트워크 케이블이 필요하며, 직경 8인치의 케이블 번들을 만듭니다. 케이블만으로도 랙당 200kg의 무게가 나가며 고속 DAC 케이블 50,000달러 또는 액티브 광 케이블 100,000달러의 비용이 듭니다.
전력 케이블링은 중요한 인프라 과제가 됩니다. 각 1200W GPU는 연쇄 고장을 방지하기 위해 전용 전력 공급이 필요합니다. 480V를 사용하면 케이블 굵기가 줄어들지만, 안전 요구사항은 개별 회로 보호를 의무화합니다. 8개의 GPU가 있는 랙은 접지 및 중성선과 함께 24개의 전력 케이블(GPU당 3상)이 필요합니다. 케이블 트레이 시스템은 전력과 데이터 케이블 사이의 적절한 분리를 유지하면서 미터당 100kg의 케이블 무게를 지지해야 합니다.
대역폭 요구사항으로 인해 광 인프라가 필수가 됩니다. 구리 케이블은 3미터를 넘어 400GbE를 지원할 수 없어 의미 있는 토폴로지를 위해 광 연결을 강제합니다.³⁰ 각 광 트랜시버는 15W를 소비하고 3,000달러의 비용이 들어, 완전히 연결된 8-GPU 시스템에 1kW의 전력과 200,000달러의 트랜시버가 추가됩니다. 광 인프라는 많은 조직이 부족한 특수 청소 도구, 테스트 장비 및 전문 지식이 필요합니다.
케이블 관리는 대부분이 인식하는 것보다 냉각 효율성에 더 많은 영향을 미칩니다. 잘못된 케이블 라우팅은 하이브리드 공기/액체 시스템에서 공기 흐름을 제한하여 열 스로틀링을 유발하는 핫스팟을 만듭니다. 적절한 케이블 관리는 유지보수 접근을 위해 케이블을 정리하면서 공기 흐름을 위한 40% 개방 영역을 유지합니다.³¹ 구조화된 케이블링 시스템은 사전 측정된 길이와 정의된 라우팅 경로를 사용하지만 2-3배의 설치 시간이 필요합니다. 이 투자는 유지보수 시간 감소와 냉각 효율성 향상을 통해 보상됩니다.
관리 네트워크는 제어 평면 고갈을 방지하기 위해 데이터 경로와 분리가 필요합니다. 각 1200W GPU는 대역 외 관리를 위한 IPMI/Redfish 연결이 필요하며, 추가 네트워크 스위치와 케이블링이 필요합니다.³² 환경 모니터링은 온도, 습도, 압력 및 누출 감지를 위해 랙당 수백 개의 센서를 추가합니다. 관리 인프라는 기가비트의 텔레메트리를 생성하며
[번역을 위해 내용 잘림]