AI를 위한 코로케이션 공급업체 선택: DGX-Ready 시설 및 120kW 랙 요구사항
2025년 12월 8일 업데이트
2025년 12월 업데이트: 120kW 랙은 이제 목표가 아닌 기본 사양입니다. NVIDIA GB200 NVL72는 120kW에서 작동하며, Vera Rubin NVL144는 2026년까지 랙당 600kW를 목표로 합니다. 액체 냉각 채택률은 데이터 센터의 22%에 도달했습니다(시장 규모: 55억 2천만 달러 → 2030년까지 157억 5천만 달러). Direct-to-chip이 47% 시장 점유율을 차지하고 있습니다. Colovore는 200kW/랙 시설을 위해 9억 2,500만 달러를 확보했습니다. DGX-Ready 요구사항은 Blackwell 시스템을 위해 진화하고 있으며, 공급업체들은 600kW Vera Rubin 인프라로 가는 디딤돌로서 150-200kW 밀도 지원을 서두르고 있습니다.
AI 인프라를 위해 잘못된 코로케이션 공급업체를 선택하면 열 셧다운, 전력 장애, 그리고 800만 달러의 GPU 투자 손실로 이어집니다. 한 Fortune 500 기업은 공급업체의 "AI-ready" 시설이 실제로 80kW 랙을 냉각할 수 없다는 것을 발견했습니다.¹ NVIDIA의 DGX-Ready 프로그램은 현대 GPU 배포의 극한 요구사항을 충족하는 전 세계 47개 시설만을 인증하여, 자격을 갖춘 공급업체가 3배 프리미엄 요금을 부과하고 18개월 대기자 명단을 유지하는 판매자 시장을 형성하고 있습니다.² 마케팅 주장과 실제 역량 간의 격차로 인해 조직들은 전력 역률 보정부터 내진 브레이싱 사양까지 수십 가지 기술적 매개변수를 평가해야 하며, 동시에 실제로 120kW 랙 밀도를 지원하는 시설에서 희소한 용량을 확보하기 위해 경쟁해야 합니다.
코로케이션 환경은 세 가지 계층으로 분화됩니다: 10kW 랙으로 어려움을 겪는 기존 공급업체, 40kW를 어렵게 관리하는 과도기 시설, 그리고 액체 냉각과 대규모 전력 인프라를 통해 120kW 이상을 달성하는 엘리트 운영업체.³ 각 NVIDIA DGX H100 SuperPOD는 랙당 최소 35kW를 필요로 하며, 네트워킹과 스토리지가 완전히 채워진 최적 구성에서는 120kW에 도달합니다.⁴ 조직들은 마케팅 주장과 관계없이 코로케이션 시설의 90%가 단순히 현대 AI 인프라를 지원할 수 없다는 것을 발견하게 되며, 목적에 맞게 구축된 시설로의 이전이나 배포를 12-18개월 지연시키는 비용이 많이 드는 개조가 필요하게 됩니다.
전력 인프라가 근본적인 제약 조건을 정의합니다
현대 AI 코로케이션은 기존 시설이 물리적으로 제공할 수 없는 전력 밀도를 요구합니다. 단일 120kW 랙은 208V 3상 전력에서 600암페어를 필요로 하며, 랙당 여러 225A 회로가 필요합니다.⁵ 전기 인프라는 정상 상태 부하뿐만 아니라 계산 강도에 따라 0.95에서 0.85 사이로 변동하는 GPU 워크로드의 역률 변화도 처리해야 합니다. 안정적인 IT 부하를 위해 설계된 시설은 GPU가 다른 작동 모드를 순환할 때 고조파 왜곡을 경험합니다.
전력 이중화는 고밀도에서 기하급수적으로 복잡해집니다. 기존 2N 이중화는 인프라 비용을 두 배로 늘리는 반면, N+1 구성은 유지보수 중 연쇄 장애 위험이 있습니다. DGX-Ready 시설은 단일 장애 지점을 방지하는 격리된 전력 경로를 갖춘 2N+1 아키텍처를 구현합니다.⁶ 각 전력 경로에는 2% 전압 변동 및 3% 총 고조파 왜곡 이내의 전력 품질을 유지하는 온라인 이중 변환 UPS 시스템이 포함됩니다. 배터리 백업은 최소 15분 동안 전체 부하를 유지해야 하며, 10MW AI 배포를 위해 2,400kWh의 배터리 용량이 필요합니다.
유틸리티 전력 가용성은 다른 어떤 요소보다 사이트 선택을 제약합니다. 북부 버지니아와 실리콘 밸리 같은 주요 코로케이션 시장은 전력 모라토리엄에 직면해 있으며, 새로운 용량은 2027년까지 사용할 수 없습니다.⁷ 즉시 사용 가능한 전력을 제공하는 2차 시장은 열등한 연결성에도 불구하고 프리미엄 가격을 부과합니다. 가용 전력이 있는 피닉스 시설은 전력이 제한된 버지니아의 월 $180 대비 월 kW당 $500를 청구합니다.⁸ 조직은 지연 시간 요구사항과 운영 고려사항에 대해 전력 가용성의 균형을 맞춰야 합니다.
냉각 용량이 실제 밀도와 마케팅 밀도를 결정합니다
"고밀도 지원"이라는 마케팅 주장은 실제 열 부하와 마주할 때 무너집니다. 120kW 랙은 시간당 409,000 BTU의 열을 발생시키며, 이는 34개의 가정용 난방기가 지속적으로 작동하는 것과 같습니다.⁹ 에어 쿨링은 핫 아일 컨테인먼트와 최적화된 공기 흐름을 사용해도 랙당 약 30kW에서 물리적 한계에 도달합니다. 120kW 밀도를 달성하려면 리어 도어 열교환기 또는 Direct-to-chip 솔루션과 같은 액체 냉각이 필요합니다.
코로케이션 공급업체는 다양한 정교함으로 액체 냉각에 접근합니다. 기본 구현은 고객이 제공하는 냉각 장비에 냉각수를 제공하여 복잡성을 테넌트에게 전가합니다. 고급 시설은 통합 CDU, 매니폴드 및 모니터링이 포함된 cooling-as-a-service를 제공합니다. NVIDIA DGX-Ready 인증은 랙당 최소 500kW 냉각 용량과 25°C 공급 수온을 요구합니다.¹⁰ 공급업체는 30초 이내에 자동 장애 조치가 완료되는 N+1 냉각 이중화를 입증해야 합니다.
프리 쿨링 시간은 운영 비용에 상당한 영향을 미칩니다. 북부 기후의 시설은 연간 6,000시간 이상의 프리 쿨링을 달성하여 기계식 냉각에 비해 MW당 $120,000의 비용을 절감합니다.¹¹ 그러나 추운 기후는 건설상의 문제가 있고 숙련된 인력이 부족할 수 있습니다. 최적의 균형은 특정 워크로드 패턴과 비즈니스 요구사항에 따라 달라집니다. 24/7 추론 워크로드는 더 시원한 시간대로 이동할 수 있는 배치 훈련 작업보다 프리 쿨링의 혜택을 더 많이 받습니다.
네트워크 연결이 분산 AI 워크로드를 가능하게 합니다
AI 코로케이션은 전례 없는 네트워크 용량과 다양성을 요구합니다. 훈련 워크로드는 분산 노드 간에 400Gbps의 지속적인 트래픽을 생성하는 반면, 추론 서빙은 최종 사용자에게 밀리초 미만의 지연 시간을 요구합니다.¹² DGX-Ready 시설은 시설 내 마이크로초 미만의 지연 시간으로 랙당 최소 4x400GbE 연결을 제공합니다. 크로스 커넥트 옵션은 InfiniBand와 이더넷 패브릭을 동시에 지원해야 합니다.
캐리어 다양성은 분산 훈련 작업을 분열시키는 네트워크 파티션을 방지합니다. 엘리트 시설은 다양한 광섬유 경로로 20개 이상의 캐리어와 연결을 유지합니다.¹³ AWS Direct Connect, Azure ExpressRoute, Google Cloud Interconnect에 대한 클라우드 온램프는 하이브리드 배포를 가능하게 합니다. 지리적으로 분산된 시설 간의 전용 파장은 재해 복구 및 워크로드 마이그레이션을 지원합니다. 포괄적인 연결을 위한 월별 비용은 10랙 배포에 대해 $50,000에 달합니다.
인터넷 피어링 계약은 추론 서빙 비용에 극적인 영향을 미칩니다. 강력한 피어링을 갖춘 시설은 순수 트랜짓 계약에 비해 대역폭 비용을 60-80% 절감합니다.¹⁴ Equinix IX와 같은 주요 피어링 교환소는 수천 개의 네트워크에 직접 액세스를 제공합니다. 콘텐츠 전송 네트워크는 자주 액세스하는 모델을 엣지 위치에 캐시합니다. 스마트 라우팅은 지연 시간과 비용 매개변수를 기반으로 경로 선택을 최적화합니다.
보안 및 컴플라이언스가 공급업체 선택을 형성합니다
AI 인프라에는 포괄적인 보안이 필요한 가치 있는 지적 재산이 포함되어 있습니다. DGX-Ready 시설은 여러 보안 계층을 갖춘 심층 방어 아키텍처를 구현합니다.¹⁵ 경계 보안에는 차량 충돌 방지 장벽, 맨트랩 입구, 24/7 무장 경비원이 포함됩니다. 생체 인식 접근 제어는 데이터 홀 출입을 제한합니다. 개별 케이지는 벽 넘기 접근을 방지하는 지붕 덮개와 함께 물리적 격리를 제공합니다. 카메라 시스템은 AI 기반 이상 탐지와 함께 90일 녹화를 유지합니다.
컴플라이언스 인증은 보안 구현을 검증합니다. SOC 2 Type II 증명은 시간에 따른 제어 효과를 확인합니다. ISO 27001 인증은 체계적인 보안 관리를 입증합니다. HIPAA 컴플라이언스는 의료 AI 워크로드를 가능하게 합니다. 금융 서비스는 워크로드 유형에 따라 PCI DSS 또는 FISMA와 같은 특정 인증을 요구합니다. 각 인증은 운영 오버헤드를 추가하지만 대상 시장을 확장합니다.
GPU 가치가 증가함에 따라 공급망 보안이 중요해집니다. 시설은 하드웨어 진위를 확인하고 관리 연속성을 유지해야 합니다. 안전한 폐기 서비스는 폐기된 장비로부터의 데이터 유출을 방지합니다. 일부 공급업체는 하드웨어 보안 모듈이 있는 신뢰할 수 있는 실행 환경을 제공합니다. 추가 보안 조치는 기본 코로케이션 비용에 10-15%를 추가하지만 치명적인 침해를 방지합니다.
Introl은 전 세계 100개 이상의 시설에 GPU 인프라를 배포하면서 글로벌 커버리지 영역 전반에 걸쳐 코로케이션 공급업체를 평가합니다.¹⁶ 당사의 평가 프레임워크는 127개의 기술적 매개변수를 평가하여 단순히 역량을 주장하는 공급업체와 고밀도 AI 워크로드를 진정으로 지원할 수 있는 공급업체를 식별합니다.
지리적 분포가 지연 시간과 비용에 영향을 미칩니다
코로케이션 지리는 여러 벡터를 통해 AI 배포에 영향을 미칩니다. 훈련 워크로드는 더 높은 지연 시간을 허용하여 저비용 위치에 배치할 수 있습니다. 추론 서빙은 사용자와의 근접성을 요구하여 지리적 분포가 필요합니다. 데이터 주권 규정은 특정 데이터셋에 대해 국내 처리를 의무화합니다. 자연재해 위험은 보험 비용과 비즈니스 연속성 계획에 영향을 미칩니다.
주요 시장(북부 버지니아, 실리콘 밸리, 댈러스)은 우수한 연결성을 제공하지만 용량 제약에 직면합니다. 코로케이션 비용은 24개월 약정이 필요하며 월 kW당 $600에 달합니다.¹⁷ 2차 시장(피닉스, 애틀랜타, 시카고)은 kW당 $300-400로 가용 용량을 제공합니다. 3차 시장(솔트레이크시티, 오마하, 콜럼버스)은 kW당 $200 가격을 제공하지만 에코시스템 지원이 제한적입니다.
국제적 고려사항은 공급업체 선택을 복잡하게 합니다. 유럽 시설은 GDPR을 준수하지만 미국 동등 시설보다 40% 더 비쌉니다. 아시아 시설은 제조업과의 근접성을 제공하지만 규제 불확실성에 직면합니다. 다국적 배포는 다양한 전력 표준, 냉각 방식 및 운영 관행을 탐색해야 합니다. 환율 변동은 국제 계약에 5-10%의 불확실성을 추가합니다.
계약 구조 및 상업적 조건
AI 인프라를 위한 코로케이션 계약은 기존 계약과 상당히 다릅니다:
전력 약정: 계약은 테이크-오어-페이 조항과 함께 약정된 전력 사용량을 명시합니다. 초과 사용 시 kW당 $500-1,000의 패널티가 부과됩니다.¹⁸ 공급업체는 6개월 이내에 80% 전력 활용률을 요구합니다. 할당된 미사용 전력은 회수할 수 없습니다. 성장 예약은 현재 가격으로 향후 용량을 확보합니다.
냉각 SLA: 온도 및 습도 보장은 열 쓰로틀링을 방지합니다. 공급 수온은 사양의 1°C 이내를 유지해야 합니다. 유량은 랙당 최소 GPM을 보장합니다. 냉각 장애에 대한 응답 시간은 15분을 초과할 수 없습니다. 패널티는 SLA 위반 시 시간당 $10,000에 달합니다.
유연성 조건: AI 워크로드는 전례 없는 유연성을 요구합니다. 확장 권리는 이전 없이 성장을 가능하게 합니다. 축소 권리는 시장 하락 시 규모 축소를 허용합니다. 기술 갱신 조항은 인프라 업데이트를 허용합니다. 해지 조항은 정의된 패널티와 함께 종료 옵션을 제공합니다.
가격 모델: 올인클루시브 가격은 예산 책정을 단순화하지만 유연성을 줄입니다. 계량 가격은 비용을 사용량에 맞추지만 불확실성을 만듭니다. 전력 기반 가격은 효율적인 운영에 유리합니다. 공간 기반 가격은 고밀도 배포에 불리합니다. 하이브리드 모델은 예측 가능성과 최적화 인센티브의 균형을 맞춥니다.
체계적 선택을 위한 평가 프레임워크
체계적인 평가는 최적의 공급업체 선택을 보장합니다:
기술 점수 (40% 가중치): - 전력 밀도 역량 (랙당 최대 kW) - 냉각 기술 및 용량 - 네트워크 연결 옵션 - 액체 냉각 준비 상태 - 인프라 이중화 수준
상업 점수 (25% 가중치): - 모든 수수료를 포함한 kW당 총 비용 - 계약 유연성 조건 - SLA 패널티 및 보장 - 성장 수용 옵션 - 재무 안정성 지표
운영 점수 (20% 가중치): - 리모트 핸즈 역량 - 크로스 커넥트 프로비저닝 속도 - 유지보수 기간 및 절차 - 인시던트 대응 시간 - 고객 포털 기능
전략 점수 (15% 가중치): - 지리적 커버리지 정렬 - 에코시스템 파트너십 품질 - 혁신 로드맵 정렬 - 지속 가능성 이니셔티브 - 문화적 적합성 평가
실제 사례
[번역을 위해 콘텐츠 잘림]