고밀도 랙: AI 데이터센터 인프라를 위한 100kW+ 설계

2025년 평균 AI 랙 비용 390만 달러 vs 기존 50만 달러—7배 증가. GB200NVL72 랙 132kW 도달; Blackwell Ultra 및 Rubin은 2026-2027년까지 랙당 576개 GPU로 250-900kW 목표. NVIDIA OCP 2025...

고밀도 랙: AI 데이터센터 인프라를 위한 100kW+ 설계

고밀도 랙: AI 데이터센터 인프라를 위한 100kW+ 설계

2025년 12월 11일 업데이트

2025년 12월 업데이트: 2025년 평균 AI 랙 비용 390만 달러 vs 기존 50만 달러—7배 증가. GB200NVL72 랙 132kW 도달; Blackwell Ultra 및 Rubin은 2026-2027년까지 랙당 576개 GPU로 250-900kW 목표. NVIDIA OCP 2025에서 1MW 랙 설계 공개. Eaton Heavy-Duty SmartRack은 AI용으로 5,000파운드 정적 하중 지원. 100kW 인프라 구축 비용은 랙당 20-30만 달러.

2025년 평균 AI 랙 비용은 390만 달러로, 기존 서버 랙의 50만 달러와 비교된다.¹ 이러한 7배의 비용 증가는 GPU가 1,000와트 임계값을 넘어서면서 랙 전력 밀도가 100kW를 넘어 1MW를 향해 치솟는 상황에서 랙 요구사항의 근본적인 변화를 반영한다.² NVIDIA의 Blackwell Ultra와 Rubin AI 서버는 2026-2027년까지 랙당 최대 576개 GPU로 250~900kW를 필요로 할 것이다.³ 이러한 시스템을 수용하는 랙 인프라는 기존 인클로저가 예상하지 못했던 구조 보강, 액체 냉각 통합, 전력 분배 기능을 갖추어 진화해야 한다.

데이터센터 랙 시장은 AI 워크로드가 물리적 인프라 요구사항을 재편함에 따라 2033년까지 94억 1천만 달러 규모로 성장할 것으로 예상된다.⁴ 랙당 10-15kW를 처리하는 기존 데이터센터와 달리, AI 시설은 머신러닝 연산 수요를 지원하기 위해 랙당 40-250kW가 필요하다.⁵ AI 인프라를 계획하는 조직은 전력 밀도와 무게 용량에 대한 레거시 가정이 아닌 현재 및 예상 GPU 요구사항에 맞춰 랙 사양을 평가해야 한다.

전력 밀도 진화가 새로운 랙 설계를 요구한다

랙당 100kW+ 급증은 데이터센터 인프라의 진화이자 혁명을 나타낸다.⁶ 5-10kW 부하용으로 설계된 기존 랙은 근본적인 아키텍처 변경 없이는 최신 GPU 서버 전력 요구사항을 안전하게 지원할 수 없다.

현재 밀도 범위는 다양한 배포 시나리오에 걸쳐 있다. 고밀도 AI 훈련 클러스터는 40-60kW 랙이 필요하다. 대규모 언어 모델 워크로드는 최소 70kW를 요구한다. 국가 안보 및 AI 연구를 위한 슈퍼컴퓨팅 애플리케이션은 100kW 이상을 소비한다.⁷ 이러한 궤적은 계속 가속화되고 있다.

NVIDIA 시스템 요구사항이 인프라 벤치마크를 정의한다. 2024년에 도입된 GB200NVL72 랙 설계는 피크 전력 밀도 132kW에 도달한다.⁸ 미래의 Blackwell Ultra 및 Rubin 시스템은 랙당 576개 GPU로 최대 900kW를 필요로 한다.⁹ NVIDIA의 OCP 2025 오프닝 키노트에서 최대 1MW를 요구하는 차세대 AI 랙이 공개되었다.¹⁰

전력 분배 아키텍처가 밀도 증가에 적응한다. 정류를 중앙화하면 소스에 더 가깝게 AC를 DC로 변환한 다음 고전압 DC를 랙에 직접 분배하여 손실을 줄이고 PUE를 개선한다.¹¹ Meta, Google, Microsoft를 포함한 하이퍼스케일러들은 최대 13.8kV의 중전압 분배와 400VDC 및 800VDC의 고전압 DC 아키텍처를 배포하고 있다.¹²

비용 영향은 상당하다. 새로운 100kW 지원 인프라 구축 비용은 랙당 20-30만 달러이지만 미래 성장을 위한 여유를 제공한다.¹³ 기존 시설을 40kW 밀도로 개조하는 비용은 랙당 5-10만 달러이다.¹⁴ 투자 규모는 신중한 용량 계획을 필요로 한다.

고밀도 배포를 위한 구조적 요구사항

GPU 서버가 기존 서버 무게를 초과함에 따라 무게 용량이 중요해진다. AI 서버는 레거시 랙이 안전하게 지원할 수 없는 더 밀집된 구성요소, 더 큰 방열판, 액체 냉각 하드웨어를 탑재한다.

정적 무게 용량은 완전 로드된 구성을 수용해야 한다. Eaton은 2024년 10월 AI 전용으로 최대 5,000파운드의 정적 무게 용량을 갖춘 Heavy-Duty SmartRack 인클로저를 출시했다.¹⁵ 확장된 54인치 깊이는 GPU 배포에서 일반적인 더 큰 AI 서버를 수용한다.¹⁶ 2,000-3,000파운드 부하용으로 설계된 표준 랙은 AI 서버 배포 전에 평가가 필요하다.

바닥 하중은 시설 평가를 필요로 한다. 만수 시 CDU 무게는 3톤에 달할 수 있으며, 800kg/m²의 바닥 하중 용량이 필요하다.¹⁷ 서버 무게와 액체 냉각 인프라와 결합하면 총 바닥 하중이 기존 데이터센터 사양을 초과할 수 있다.

랙 깊이가 표준 치수를 넘어 확장된다. NVIDIA HGX 서버 및 유사 플랫폼은 42인치 표준 깊이 랙이 제공하는 것보다 더 깊은 인클로저가 필요하다.¹⁸ 확장된 깊이 계획은 통로 간격, 시설 레이아웃, 케이블 배선에 영향을 미친다.

열 관리 통합이 구조 설계에 영향을 미친다. 고전력 랙은 중단 없는 공기 흐름 경로가 필요한 열 기류를 생성한다.¹⁹ NVIDIA는 최적화된 공랭 구성을 위해 하단에 서버 2대, 3-6U 빈 공간, 그 위에 서버 2대를 배치할 것을 권장한다.²⁰ 랙 레이아웃은 냉각 효율성에 직접적인 영향을 미친다.

액체 냉각 통합 요구사항

AI 워크로드를 지원하는 랙은 공랭 인클로저가 예상하지 못했던 액체 냉각 인프라를 수용해야 한다. 이 통합은 랙 선택과 시설 계획에 복잡성을 더한다.

콜드 플레이트 지원은 매니폴드 통합이 필요하다. 직접 칩 냉각은 CPU와 GPU 열원에 냉각수를 공급하여 랙당 30-40kW를 제거한다.²¹ 랙은 인클로저 내 유체 분배를 위한 마운팅 포인트, 배관 경로, 누출 방지 기능을 제공해야 한다.

후면 도어 열교환기 마운팅이 하이브리드 냉각을 가능하게 한다. RDHx 시스템은 랙 후면에 부착되어 최신 구성에서 랙당 최대 120kW를 제거한다.²² 랙 구조 사양은 RDHx 무게와 배관 연결을 지원해야 한다.

침수 호환성이 최고 밀도를 가능하게 한다. 침수 냉각은 시스템을 유전체 유체에 담가 팬을 제거하면서 50-100kW를 처리한다.²³ 일부 배포에서는 기존 인클로저 대신 랙 규모 침수 탱크를 사용하여 다른 시설 계획이 필요하다.

하이브리드 아키텍처가 냉각 방식을 결합한다. 일반적인 2025년 설계는 70% 액체 냉각과 30% 공기 냉각을 포함하며, 랙이 통합 지점 역할을 한다.²⁴ 랙은 두 가지 냉각 방식을 동시에 수용해야 한다.

유량 사양이 냉각 능력을 결정한다. 45°C 입구 온도에서 1.2 LPM/kW의 업계 표준은 85kW 랙이 45°C로 냉각하면서 102 LPM 유량을 지원하는 CDU와 열교환기가 필요함을 의미한다.²⁵ 랙 배관은 필요한 유량을 제한해서는 안 된다.

OCP Open Rack 사양

Open Compute Project는 하이퍼스케일 효율성을 최적화하는 랙 표준을 정의한다. AI 워크로드 요구사항이 지속적인 사양 진화를 주도한다.

Open Rack V3 (ORV3)가 기반을 확립했다. Meta는 2022년 Google과 Rittal의 기여로 기본 사양을 정의하고 발표했다.²⁶ 21인치 너비는 EIA 19인치 표준을 초과하여 상당한 공기 흐름 증가를 허용한다.²⁷ 전원 셸프, 정류기, 배터리 백업 사양이 통합 전력 분배를 가능하게 한다.

Open Rack Wide (ORW)가 차세대 AI를 다룬다. Meta는 OCP 2025에서 차세대 AI 시스템의 전력, 냉각, 서비스 용이성 요구에 최적화된 오픈소스 더블 와이드 랙 표준으로 ORW 사양을 소개했다.²⁸ 이 사양은 표준화되고 상호 운용 가능하며 확장 가능한 데이터센터 설계를 향한 근본적인 전환을 나타낸다.²⁹

Mt Diablo (Diablo 400) 사양은 AI 클러스터용 전력 랙 사이드카를 설명한다. Google, Meta, Microsoft가 공동 작성한 이 사양은 기존 48V 구성을 넘어 전력 공급을 확장하는 분리형 전력 랙을 정의한다.³⁰ Delta Electronics는 1.1MW 규모의 AI 랙에 전력을 공급하기 위해 NVIDIA와 개발한 800VDC "AI Power Cube" 에코시스템을 선보였다.³¹

Clemente 사양은 NVIDIA GB300 Host Processor Modules를 Meta의 AI/ML 훈련 및 추론 사용 사례에 맞는 폼 팩터로 통합하는 컴퓨트 트레이를 설명한다.³² 이 사양은 사이드카 전력 랙이 있는 OCP ORv3 HPR을 사용한 첫 번째 배포를 나타낸다.

업계 구현이 사양의 가치를 입증한다. AMD는 ORW 개방형 표준을 기반으로 구축된 "Helios" 랙 규모 레퍼런스 시스템을 발표했다.³³ Rittal의 Open Rack V3 직접 액체 냉각 준비는 고성능 컴퓨팅 및 AI 기술 열 방출을 다룬다.³⁴

AI 랙 배포를 위한 벤더 솔루션

주요 인프라 벤더들이 2024-2025년 동안 AI 전용 랙 제품을 출시했다.

Schneider Electric은 2025년 6월 고밀도 NetShelter Racks을 출시한 후 NVIDIA의 MGX 아키텍처를 지원하는 새로운 OCP 기반 랙 시스템을 선보였다.³⁵ 이 제품들은 Schneider의 전력 분배 및 냉각 포트폴리오와 통합된다.

Eaton Heavy-Duty SmartRack 인클로저는 5,000파운드 정적 무게 용량과 54인치 확장 깊이로 AI 배포를 목표로 한다.³⁶ 이 사양은 GPU 인프라에서 일반적인 더 크고 무거운 서버를 다룬다.

Supermicro는 랙당 최대 100kW 전력 및 냉각을 갖춘 랙 규모 액체 냉각 솔루션을 제공하며, 시스템, 랙, 클러스터 수준에서 완전히 검증되어 리드타임이 단축된다.³⁷ 이 솔루션은 Supermicro의 GPU 서버 포트폴리오와 통합된다.

Rittal은 AI 기술 열 방출 요구사항을 다루는 액체 냉각 준비가 된 OCP ORV3 호환 랙을 제공한다.³⁸ 이 제품들은 직접 액체 냉각 통합을 지원한다.

Legrand는 2025년 상반기 AI 중심 데이터센터 인프라 포트폴리오에서 24% 매출 증가를 달성했으며, 연간 매출 5억 유로를 추가하는 7건의 인수를 완료했다.³⁹ 이 회사의 데이터센터 매출은 2025년에 20억 유로를 초과할 것으로 예상된다.⁴⁰

네트워크 인프라 고려사항

AI 클러스터는 기존 데이터센터보다 5배 더 높은 광섬유 인프라 밀도가 필요하다.⁴¹ 랙 선택은 AI 네트워킹이 요구하는 케이블 밀도를 수용해야 한다.

InfiniBand 및 고속 이더넷 케이블링에는 라우팅 용량이 필요하다. AI 클러스터는 서버 간 GPU를 동기화하기 위해 초고대역폭, 저지연 네트워크(400Gbps+ 이더넷 또는 InfiniBand XDR)에 의존한다.⁴² 네트워크 패브릭은 랙당 4-5배 더 많은 광섬유 인터커넥트를 갖춘 슈퍼컴퓨터 설계와 유사하다.⁴³

케이블 관리 통합이 랙 선택에 영향을 미친다. 랙당 10-20개 케이블용으로 설계된 표준 케이블 관리 액세서리는 AI 네트워킹이 요구하는 수백 개의 고속 연결을 수용할 수 없다. 조달 전에 랙 케이블 관리 용량을 평가하라.

오버헤드 대 언더플로어 라우팅이 랙 배치에 영향을 미친다. AI 케이블 밀도가 기존 이중 바닥 용량을 초과하여 오버헤드 케이블 관리 채택을 촉진할 수 있다. 랙 높이는 서비스 용이성을 유지하면서 오버헤드 라우팅을 수용해야 한다.

밀도 성장을 위한 계획

AI 인프라를 배포하는 조직은 현재 요구사항이 아닌 예상 성장에 맞춰 랙 투자 규모를 결정해야 한다.

GPU 로드맵 인식이 용량 계획에 정보를 제공한다. NVIDIA의 H100(700W)에서 Blackwell(1000W+)을 거쳐 Rubin(더 높음)으로의 진행은 밀도 상승을 계속한다. 현재 GPU용으로 배포된 랙은 차세대 전력 요구사항을 수용해야 한다.

모듈형 전력 분배가 점진적 용량 증가를 가능하게 한다. 랙당 PDU 대 버스웨이 분배가 용량 확장 방식에 영향을 미친다. 랙 선택과 함께 전력 아키텍처를 계획하라.

냉각 여유가 좌초된 컴퓨트를 방지한다. 초기 공랭 배포에도 액체 냉각 기능을 갖춘 랙은 밀도가 증가함에 따라 전환을 가능하게 한다. 점진적 비용은 랙 교체에 비해 미미하다.

바닥 공간 효율성이 규모에 따라 복리로 증가한다. 더 높은 밀도의 랙은 동등한 컴퓨트 용량에 필요한 총 랙 수를 줄인다. 랙이 적으면 바닥 공간이 줄고, 케이블 길이가 짧아지며, 잠재적으로 더 작은 시설이 가능하다.

Introl의 글로벌 엔지니어링 팀은 초기 GPU 서버 배포부터 100,000 액셀러레이터 시설까지 257개 위치에서 AI 설치를 위한 고밀도 랙 인프라를 배포한다. 랙 선택은 시설 효율성과 미래 GPU 세대를 위한 용량에 직접적인 영향을 미친다.

인프라 기반

랙은 AI 인프라 투자를 위한 물리적 기반을 나타낸다. 390만 달러 상당의 GPU 서버와 네트워킹 장비를 수용하는 인클로저는 해당 투자를 안전하게 지원하면서 해당 시스템이 요구하는 전력 공급 및 냉각 인프라를 가능하게 해야 한다.

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중