AI를 위한 코로케이션 제공업체 선택: DGX-Ready 시설 및 120kW 랙 요구사항
2025년 12월 8일 업데이트
2025년 12월 업데이트: 120kW 랙은 이제 기본 사양이며, 더 이상 목표가 아닙니다. NVIDIA GB200 NVL72는 120kW에서 작동하며, Vera Rubin NVL144는 2026년까지 랙당 600kW를 목표로 하고 있습니다. 액체 냉각 도입률은 데이터센터의 22%에 달했습니다 (시장: $5.52B→2030년까지 $15.75B). Direct-to-chip이 47%의 시장 점유율을 차지하고 있습니다. Colovore는 200kW/랙 시설을 위해 $925M을 확보했습니다. DGX-Ready 요구사항은 Blackwell 시스템에 맞춰 진화하고 있으며, 제공업체들이 600kW Vera Rubin 인프라의 징검다리로서 150-200kW 밀도 지원을 위해 서두르고 있습니다.
AI 인프라를 위한 잘못된 코로케이션 제공업체 선택은 열 차단, 전력 장애, 그리고 $800만의 고립된 GPU 투자 손실로 이어집니다. 한 Fortune 500 기업이 제공업체의 "AI-ready" 시설이 실제로는 80kW 랙을 냉각할 수 없다는 것을 발견했을 때 겪었던 일입니다.¹ NVIDIA의 DGX-Ready 프로그램은 최신 GPU 배포의 극한 요구사항을 충족하는 전 세계 47개 시설만을 인증하여, 자격을 갖춘 제공업체가 3배의 프리미엄 요금을 책정하고 18개월의 대기 명단을 유지하는 판매자 시장을 만들어냅니다.² 마케팅 주장과 실제 역량 간의 격차는 조직들로 하여금 역률 보정부터 내진 브레이싱 사양까지 수십 가지의 기술적 매개변수를 평가하도록 강요하며, 동시에 진정으로 120kW 랙 밀도를 지원하는 시설에서 희소한 용량을 놓고 경쟁해야 합니다.
코로케이션 환경은 세 가지 계층으로 분화됩니다: 10kW 랙에 어려움을 겪는 전통적인 제공업체, 40kW를 어렵게 관리하는 과도기 시설, 그리고 액체 냉각과 대규모 전력 인프라를 통해 120kW+를 달성하는 엘리트 운영업체입니다.³ 각 NVIDIA DGX H100 SuperPOD는 랙당 최소 35kW를 요구하며, 네트워킹과 스토리지로 완전히 구성되었을 때 최적 구성에서 120kW에 달합니다.⁴ 조직들은 마케팅 주장과 관계없이 코로케이션 시설의 90%가 단순히 최신 AI 인프라를 지원할 수 없다는 것을 발견하고, 목적별로 구축된 시설로의 마이그레이션이나 배포를 12-18개월 지연시키는 값비싼 개조를 강요받습니다.
전력 인프라가 근본적인 제약을 정의합니다
최신 AI 코로케이션은 전통적인 시설이 물리적으로 제공할 수 없는 전력 밀도를 요구합니다. 단일 120kW 랙은 208V 3상 전력에서 600암페어를 요구하며, 랙당 여러 개의 225A 회로를 필요로 합니다.⁵ 전기 인프라는 정상 상태 부하뿐만 아니라 계산 강도가 변할 때 0.95와 0.85 사이에서 변동하는 GPU 워크로드의 역률 변화도 처리해야 합니다. 안정적인 IT 부하를 위해 설계된 시설들은 GPU가 다양한 운영 모드를 순환할 때 고조파 왜곡을 경험합니다.
전력 중복성은 높은 밀도에서 기하급수적으로 복잡해집니다. 전통적인 2N 중복성은 인프라 비용을 두 배로 만드는 반면, N+1 구성은 유지보수 중 연쇄 고장의 위험을 안고 있습니다. DGX-Ready 시설은 단일 장애점을 방지하는 격리된 전력 트레인을 가진 2N+1 아키텍처를 구현합니다.⁶ 각 전력 경로에는 2% 전압 변동과 3% 총 고조파 왜곡 내에서 전력 품질을 유지하는 온라인 이중 변환 UPS 시스템이 포함됩니다. 배터리 백업은 최소 15분 동안 전체 부하를 지속해야 하며, 10MW AI 배포에 대해 2,400kWh의 배터리 용량이 필요합니다.
유틸리티 전력 가용성이 다른 어떤 요소보다도 사이트 선택을 제약합니다. Northern Virginia와 Silicon Valley와 같은 주요 코로케이션 시장은 전력 모라토리엄에 직면하고 있으며, 2027년까지 새로운 용량을 사용할 수 없습니다.⁷ 즉시 전력 접근을 제공하는 2차 시장은 열등한 연결성에도 불구하고 프리미엄 가격을 요구합니다. 사용 가능한 전력을 가진 Phoenix 시설은 전력이 제약된 Virginia의 $180에 비해 월 $500 per kW를 청구합니다.⁸ 조직들은 전력 가용성과 지연 시간 요구사항 및 운영 고려사항 간의 균형을 맞춰야 합니다.
냉각 용량이 실제 대 마케팅 밀도를 결정합니다
"고밀도 지원"이라는 마케팅 주장은 실제 열 부하와 마주했을 때 무너집니다. 120kW 랙은 시간당 409,000 BTU의 열을 생성하며, 이는 34개의 주거용 화로가 지속적으로 작동하는 것과 같습니다.⁹ 에어 쿨링은 핫 아일 격리와 최적화된 공기 흐름을 사용하더라도 랙당 약 30kW에서 물리적 한계에 도달합니다. 120kW 밀도를 달성하려면 후면 도어 열교환기 또는 direct-to-chip 솔루션과 같은 액체 냉각이 필요합니다.
코로케이션 제공업체들은 다양한 수준의 정교함으로 액체 냉각에 접근합니다. 기본 구현은 고객 공급 냉각 장비에 차가운 물을 제공하여 복잡성을 임차인에게 전가합니다. 고급 시설은 통합된 CDU, 매니폴드, 모니터링과 함께 cooling-as-a-service를 제공합니다. NVIDIA DGX-Ready 인증은 랙당 최소 500kW 냉각 용량과 함께 25°C 공급 수온을 요구합니다.¹⁰ 제공업체는 30초 내에 완료되는 자동 페일오버와 함께 N+1 냉각 중복성을 입증해야 합니다.
자연 냉각 시간은 운영 비용에 상당한 영향을 미칩니다. 북부 기후의 시설은 연간 6,000시간 이상의 자연 냉각을 달성하여 기계 냉각에 비해 MW당 $120,000의 비용을 절감합니다.¹¹ 그러나 추운 기후는 건설 문제를 제시하고 숙련된 인력이 부족할 수 있습니다. 최적의 균형은 특정 워크로드 패턴과 비즈니스 요구사항에 따라 달라집니다. 24/7 추론 워크로드는 더 시원한 기간으로 이동할 수 있는 배치 트레이닝 작업보다 자연 냉각의 혜택을 더 많이 받습니다.
네트워크 연결이 분산 AI 워크로드를 가능하게 합니다
AI 코로케이션은 전례 없는 네트워크 용량과 다양성을 요구합니다. 트레이닝 워크로드는 분산 노드 간 400Gbps의 지속적인 트래픽을 생성하며, 추론 서빙은 최종 사용자에게 밀리초 미만의 지연 시간을 요구합니다.¹² DGX-Ready 시설은 시설 내에서 마이크로초 미만의 지연 시간과 함께 랙당 최소 4x400GbE 연결성을 제공합니다. 크로스 커넥트 옵션은 InfiniBand와 Ethernet 패브릭을 동시에 지원해야 합니다.
캐리어 다양성은 분산 트레이닝 작업을 분할하는 네트워크 파티션을 방지합니다. 엘리트 시설은 다양한 파이버 경로로 20개 이상의 캐리어와의 연결을 유지합니다.¹³ AWS Direct Connect, Azure ExpressRoute, Google Cloud Interconnect에 대한 클라우드 온램프는 하이브리드 배포를 가능하게 합니다. 지리적으로 분산된 시설 간 전용 파장은 재해 복구와 워크로드 마이그레이션을 지원합니다. 10랙 배포에 대한 포괄적인 연결성의 월 비용은 $50,000에 달합니다.
인터넷 피어링 배열은 추론 서빙 비용에 극적인 영향을 미칩니다. 강력한 피어링을 가진 시설은 순수한 트랜짓 배열에 비해 대역폭 비용을 60-80% 절약합니다.¹⁴ Equinix IX와 같은 주요 피어링 교환소는 수천 개의 네트워크에 직접 액세스를 제공합니다. 콘텐츠 전송 네트워크는 에지 위치에서 자주 액세스되는 모델을 캐시합니다. 스마트 라우팅은 지연 시간과 비용 매개변수를 기반으로 경로 선택을 최적화합니다.
보안 및 규정 준수가 제공업체 선택을 형성합니다
AI 인프라는 포괄적인 보안이 필요한 귀중한 지적 재산을 포함합니다. DGX-Ready 시설은 여러 보안 계층을 가진 심층 방어 아키텍처를 구현합니다.¹⁵ 경계 보안에는 대테러 방벽, 맨트랩 입구, 24/7 무장 경비원이 포함됩니다. 생체 인식 액세스 제어는 데이터 홀 입구를 제한합니다. 개별 케이지는 벽 너머 액세스를 방지하는 지붕 덮개와 함께 물리적 격리를 제공합니다. 카메라 시스템은 AI 기반 이상 탐지와 함께 90일간의 기록을 유지합니다.
규정 준수 인증은 보안 구현을 검증합니다. SOC 2 Type II 증명은 시간에 따른 제어 효과성을 확인합니다. ISO 27001 인증은 체계적인 보안 관리를 입증합니다. HIPAA 규정 준수는 헬스케어 AI 워크로드를 가능하게 합니다. 금융 서비스는 워크로드 유형에 따라 PCI DSS 또는 FISMA와 같은 특정 인증을 요구합니다. 각 인증은 운영 오버헤드를 추가하지만 다룰 수 있는 시장을 확장합니다.
GPU 가치가 증가함에 따라 공급망 보안이 중요해집니다. 시설은 하드웨어 진위성을 확인하고 보관 사슬을 유지해야 합니다. 보안 파기 서비스는 폐기된 장비로부터의 데이터 누출을 방지합니다. 일부 제공업체는 하드웨어 보안 모듈과 함께 신뢰할 수 있는 실행 환경을 제공합니다. 추가 보안 조치는 기본 코로케이션 비용에 10-15%를 추가하지만 치명적인 침해를 방지합니다.
Introl은 글로벌 커버리지 지역에서 코로케이션 제공업체를 평가하며, 전 세계 100개 이상의 시설에서 GPU 인프라를 배포했습니다.¹⁶ 우리의 평가 프레임워크는 127개의 기술적 매개변수를 평가하여, 단순히 역량을 주장하는 제공업체 대비 진정으로 고밀도 AI 워크로드를 지원할 수 있는 제공업체를 식별합니다.
지리적 분산이 지연 시간과 비용에 영향을 미칩니다
코로케이션 지리는 여러 벡터를 통해 AI 배포에 영향을 미칩니다. 트레이닝 워크로드는 더 높은 지연 시간을 허용하여 저비용 위치에 배치할 수 있습니다. 추론 서빙은 사용자와의 근접성을 요구하며 지리적 분산이 필요합니다. 데이터 주권 규정은 특정 데이터셋에 대해 국내 처리를 의무화합니다. 자연 재해 위험은 보험 비용과 사업 연속성 계획에 영향을 미칩니다.
1차 시장(Northern Virginia, Silicon Valley, Dallas)은 우수한 연결성을 제공하지만 용량 제약에 직면합니다. 코로케이션 비용은 24개월 약정이 필요한 월 $600 per kW에 달합니다.¹⁷ 2차 시장(Phoenix, Atlanta, Chicago)은 $300-400 per kW로 사용 가능한 용량을 제공합니다. 3차 시장(Salt Lake City, Omaha, Columbus)은 $200 per kW 가격을 제공하지만 제한된 생태계 지원을 받습니다.
국제적 고려사항은 제공업체 선택을 복잡하게 만듭니다. 유럽 시설은 GDPR을 준수하지만 미국 동등품보다 40% 더 비쌉니다. 아시아 시설은 제조업과의 근접성을 제공하지만 규제 불확실성에 직면합니다. 다국적 배포는 다양한 전력 표준, 냉각 접근 방식, 운영 관행을 탐색해야 합니다. 환율 변동은 국제 계약에 5-10%의 불확실성을 추가합니다.
계약 구조 및 상업적 조건
AI 인프라를 위한 코로케이션 계약은 전통적인 배열과 상당히 다릅니다:
전력 약정: 계약은 take-or-pay 조항과 함께 약정된 전력 사용량을 명시합니다. 초과 사용량은 kW당 $500-1,000의 벌금을 부과합니다.¹⁸ 제공업체는 6개월 내에 80% 전력 활용을 요구합니다. 사용되지 않은 전력은 할당된 후 회수할 수 없습니다. 성장 예약은 현재 가격으로 미래 용량을 확보합니다.
냉각 SLA: 온도 및 습도 보장은 열 스로틀링을 방지합니다. 공급 수온은 사양의 1°C 내에 유지되어야 합니다. 유량은 랙당 최소 GPM을 보장합니다. 냉각 고장에 대한 응답 시간은 15분을 초과할 수 없습니다. SLA 위반에 대한 벌금은 시간당 $10,000에 달합니다.
유연성 조건: AI 워크로드는 전례 없는 유연성을 요구합니다. 확장 권리는 재배치 없이 성장을 가능하게 합니다. 축소 권리는 시장 침체 중 다운사이징을 허용합니다. 기술 재생 조항은 인프라 업데이트를 허용합니다. 종료 조항은 정의된 벌금과 함께 해지 옵션을 제공합니다.
가격 모델: 모든 것을 포함한 가격은 예산 편성을 단순화하지만 유연성을 감소시킵니다. 계량 가격은 비용을 사용량에 맞추지만 불확실성을 만듭니다. 전력 기반 가격은 효율적인 운영을 선호합니다. 공간 기반 가격은 고밀도 배포에 벌칙을 부여합니다. 하이브리드 모델은 예측 가능성과 최적화 인센티브의 균형을 맞춥니다.
체계적 선택을 위한 평가 프레임워크
체계적 평가는 최적의 제공업체 선택을 보장합니다:
기술 점수 (40% 가중치): - 전력 밀도 역량 (랙당 최대 kW) - 냉각 기술 및 용량 - 네트워크 연결 옵션 - 액체 냉각 준비성 - 인프라 중복성 수준
상업 점수 (25% 가중치): - 모든 수수료를 포함한 kW당 총 비용 - 계약 유연성 조건 - SLA 벌금 및 보장 - 성장 수용 옵션 - 재무 안정성 지표
운영 점수 (20% 가중치): - 원격 핸즈 역량 - 크로스 커넥트 프로비저닝 속도 - 유지보수 창 및 절차 - 사고 응답 시간 - 고객 포털 역량
전략 점수 (15% 가중치): - 지리적 커버리지 정렬 - 생태계 파트너십 품질 - 혁신 로드맵 정렬 - 지속 가능성 이니셔티브 - 문화적 적합성 평가