AI를 위한 레거시 데이터센터 개조: 액체 냉각 통합 가이드
2025년 12월 8일 업데이트
2025년 12월 업데이트: 개조의 필요성이 더욱 강화되었습니다. 현대 AI 랙은 이제 100-200kW를 필요로 하며(Vera Rubin은 2026년까지 600kW 목표), 레거시 5-15kW 시설은 더욱 부적합해지고 있습니다. 그러나 2025년 액체 냉각 시장이 55.2억 달러에 도달하면서 비용이 낮아지고 솔루션이 표준화되었습니다. Direct-to-chip 냉각의 47% 시장 점유율과 하이브리드 아키텍처로 인해 개조가 그 어느 때보다 실현 가능해졌습니다. 현재 데이터센터의 22%가 액체 냉각을 구현하고 있어 레거시 환경을 위한 검증된 통합 패턴이 존재합니다.
5kW 랙용으로 설계된 15년 된 데이터센터가 이제 40kW GPU 클러스터 요구에 직면하면서 인프라 위기가 발생하고, 조직들은 5천만 달러의 신규 시설 건설과 5백만 달러의 전략적 개조 중 선택해야 합니다.¹ Uptime Institute에 따르면 2015년 이전에 건설된 기업 데이터센터의 68%가 현대 AI 워크로드에 필요한 전력 밀도와 냉각 용량을 갖추지 못했지만, 이러한 시설의 82%는 임대 기간이 10년 이상 남아 있습니다.² 개조의 필요성이 명확해집니다: 조직은 기존 인프라를 변환하거나 경쟁사들이 AI 배포로 앞서가는 동안 귀중한 부동산 투자를 포기해야 합니다.
451 Research는 레거시 시설에 액체 냉각을 적용한 개조가 비용의 20%로 신규 건설 성능의 70%를 달성한다고 보여줍니다.³ 한 제약회사는 최근 2008년식 데이터센터를 개조하여 800개의 NVIDIA H100 GPU를 지원했으며, 비슷한 신규 건설의 3,500만 달러 대비 420만 달러를 지출했습니다. 개조는 신규 건설의 18개월 대비 4개월 만에 완료되었습니다. 스마트한 개조 전략은 기존 투자를 보존하면서 최첨단 AI 역량을 가능하게 하지만, 성공을 위해서는 신중한 평가, 단계적 구현, 그리고 특정 제한사항의 수용이 필요합니다.
레거시 인프라 제약이 개조 범위를 결정합니다
2015년 이전에 건설된 데이터센터는 일반적으로 랙당 3-7kW를 지원하며 천공 타일을 통해 냉기를 분배하는 이중 바닥을 사용합니다.⁴ 이 설계는 각각 30-50kW로 설계된 CRAC 유닛을 사용하여 1:1 냉각 중복성을 가정합니다. 전력 분배는 30A 회로를 통해 208V를 제공하여 오버헤드를 고려하면 랙 용량을 5kW로 제한합니다. 이 사양은 각각 400W를 소비하는 Dell PowerEdge 서버에는 완벽하게 작동했습니다. 총 10kW를 소비하는 서버에서 카드당 700W를 요구하는 H100 GPU에는 치명적으로 실패합니다.
구조적 제한은 냉각이나 전력 제약보다 극복하기 어렵습니다. 이중 바닥은 평방피트당 150파운드를 지지하지만 액체 냉각 랙은 3,000파운드를 초과합니다.⁵ 바닥 보강 비용은 평방피트당 200달러이며 시설 다운타임이 필요합니다. 12피트 미만의 천장 높이는 핫 아일 격납 옵션을 제한합니다. 600mm x 1000mm 랙에 최적화된 기둥 간격은 800mm x 1200mm GPU 시스템의 효율적인 레이아웃을 방해합니다. 일부 시설은 투자 수준에 관계없이 개조가 불가능합니다.
전력 인프라는 대부분의 개조에서 가장 결정적인 제약입니다. 총 2MW 용량과 1.5MW IT 부하를 가진 시설은 GPU 배포를 위한 여유가 없습니다. 유틸리티 업그레이드는 주요 시장에서 12-24개월이 소요되며 비용은 메가와트당 2백만 달러를 초과합니다.⁶ 480V 분배용으로 설계된 변압기는 효율적인 415V 운영을 위해 교체가 필요합니다. 2,000A용으로 설계된 스위치기어는 고밀도 GPU 배포의 3,000A 요구를 처리할 수 없습니다. 조직은 기존 전력 범위 내에서 작업하거나 긴 업그레이드 주기에 직면해야 합니다.
평가 방법론이 개조 실행 가능성을 결정합니다
포괄적인 인프라 문서화로 평가를 시작하십시오:
전력 시스템 감사: 유틸리티 입구에서 랙 PDU까지 전체 전력 경로를 매핑합니다. 변압기 용량을 문서화하고 수명과 유지보수 이력을 기록합니다. 고장 전류 기능을 포함한 스위치기어 등급을 확인합니다. 총 시설 전력뿐만 아니라 각 분배 레벨에서 사용 가능한 용량을 계산합니다. 개조를 통해 회수할 수 있는 비효율적인 분배로 인한 유휴 용량을 식별합니다.
냉각 시스템 분석: 실제 대비 명판 냉각 용량을 측정합니다. 15년 된 장비는 일반적으로 70% 효율로 작동합니다.⁷ 전산 유체 역학을 사용하여 공기 흐름 패턴을 매핑하고 재순환 영역을 식별합니다. 냉각수 온도, 유량 및 펌핑 용량을 문서화합니다. 최고 여름 조건에서 냉각탑 성능을 평가합니다. 인프라 업그레이드 없이 사용 가능한 최대 열 배출을 계산합니다.
구조 평가: 구조 엔지니어를 참여시켜 시설 전체의 바닥 하중 용량을 평가합니다. 액체 냉각 파이프를 위해 수정할 수 없는 내력벽을 식별합니다. 격납 시스템을 위한 천장 높이와 여유 공간을 확인합니다. 장비 배치를 제한하는 기둥 위치를 문서화합니다. 무거운 액체 냉각 랙에 대한 내진 보강 요구사항을 분석합니다.
네트워크 인프라 검토: GPU 배포 지정 구역 간 광섬유 연결을 확인합니다. InfiniBand 패브릭에 사용 가능한 다크 파이버를 문서화합니다. 추가 고대역폭 연결을 위한 케이블 트레이 용량을 평가합니다. GPU 클러스터 스위칭을 위한 충분한 공간이 있는 meet-me 룸을 식별합니다. 400G 연결을 위한 적절한 굽힘 반경을 유지하는 케이블 경로를 계획합니다.
Introl의 평가 팀은 글로벌 서비스 지역 전역에서 500개 이상의 레거시 시설을 평가하여 개조 성공 확률을 예측하는 표준화된 점수 시스템을 개발했습니다.⁸ 100점 척도에서 70점 이상을 받은 시설은 90%의 확률로 성공적인 개조를 달성합니다. 50점 미만인 시설은 신규 건설을 고려해야 합니다. 25,000-50,000달러의 평가 투자는 실패한 개조 시도로 인한 수백만 달러의 낭비를 방지합니다.
기존 시설을 위한 액체 냉각 통합 전략
세 가지 주요 접근 방식이 레거시 시설에서 액체 냉각을 가능하게 합니다:
후면 도어 열교환기(RDX): 가장 비침습적인 옵션으로 랙 도어에 냉각 코일을 장착하여 열이 실내로 들어가기 전에 포착합니다. 설치에는 바닥 수정이 필요 없고 배관도 최소화됩니다. 각 도어는 시설 냉각수를 사용하여 15-30kW의 열 배출을 처리합니다. 비용은 설치 포함 랙당 8,000-15,000달러입니다.⁹ 이 접근 방식은 냉각수 용량은 충분하지만 새 냉각 장비를 위한 공간이 제한된 시설에 적합합니다.
인로우 냉각 유닛: 모듈식 유닛이 기존 열 내 랙 위치를 차지하여 40-100kW 부하에 대한 표적 냉각을 제공합니다. 유닛은 오버헤드 또는 이중 바닥 아래로 배선된 유연한 호스를 통해 시설 냉각수에 연결됩니다. 각 유닛 비용은 20,000-35,000달러이며 하나의 랙 위치를 희생합니다.¹⁰ 이 솔루션은 사용 가능한 랙 공간은 있지만 실내 수준 냉각이 불충분한 시설에 적합합니다.
Direct-to-Chip 냉각: 가장 효과적이지만 복잡한 접근 방식으로 콜드 플레이트를 통해 프로세서에 직접 액체를 공급합니다. 구현에는 CDU 설치, 매니폴드 배포 및 광범위한 배관이 필요합니다. 비용은 랙당 50,000-80,000달러에 달하지만 60kW+ 밀도를 가능하게 합니다.¹¹ 시설은 CDU를 위한 적절한 기계 공간과 냉각수 분배를 위한 접근 가능한 경로가 필요합니다.
단계적 개조 구현으로 중단 최소화
1단계: 인프라 준비 (1-3개월) 기계 공간에 냉각 분배 유닛을 설치하고 기존 냉각수 시스템에 연결합니다. 생산 구역을 피해 접근 가능한 경로를 통해 주 냉각수 루프를 설치합니다. 운영을 중단하지 않고 가능한 경우 전력 분배를 업그레이드합니다. 현재 성능의 기준선을 설정하기 위해 모니터링 시스템을 배포합니다. 각 생산 워크로드에 대한 상세한 마이그레이션 계획을 수립합니다.
예산: 10랙 배포의 경우 500,000-1,500,000달러 다운타임: 적절히 계획된 경우 없음
2단계: 파일럿 배포 (4-5개월) 초기 액체 냉각 전환을 위해 2-3개 랙을 선택합니다. 가급적 개발 워크로드가 포함된 랙을 선택합니다. 벤더 사양을 정확히 따라 선택한 냉각 기술을 설치합니다. 시스템을 신중하게 커미셔닝하고 장애 시나리오와 중복성을 테스트합니다. 온도, 압력 및 유량을 지속적으로 모니터링합니다. 더 넓은 배포를 위해 배운 교훈을 문서화합니다.
예산: 150,000-300,000달러 다운타임: 전환 중 랙당 4-8시간
3단계: 생산 마이그레이션 (6-12개월) 운영 안정성을 유지하기 위해 5-10개 랙씩 웨이브로 생산 랙을 전환합니다. 비즈니스 영향을 최소화하기 위해 유지보수 창 동안 마이그레이션을 예약합니다. 배관 배선을 단순화하기 위해 열별로 액체 냉각을 구현합니다. 마이그레이션할 수 없는 레거시 장비에 대해 공기 냉각을 유지합니다. 실제 부하를 기반으로 냉각수 온도와 유량을 최적화합니다.
예산: 랙당 100,000-150,000달러 다운타임: 적절한 계획으로 랙당 2-4시간
4단계: 최적화 (13-18개월) 냉각기 효율을 개선하고 프리 쿨링을 가능하게 하기 위해 냉각수 온도를 높입니다. 실제 공기 흐름 패턴을 기반으로 격납 전략을 조정합니다. IT 부하에 맞게 냉각을 일치시키기 위해 가변 유량 제어를 구현합니다. 기생 손실을 줄이기 위해 불필요한 CRAC 유닛을 폐기합니다. 머신러닝을 사용하여 제어 알고리즘을 미세 조정합니다.
예산: 200,000-400,000달러 다운타임: 필요 없음
재무 분석으로 개조 투자 정당화
포괄적인 TCO 분석은 설득력 있는 개조 경제성을 보여줍니다:
개조 투자 내역 (20랙 GPU 클러스터): - 인프라 평가: 40,000달러 - 액체 냉각 장비: 1,200,000달러 - 설치 및 커미셔닝: 400,000달러 - 전력 분배 업그레이드: 600,000달러 - 구조 수정: 300,000달러 - 프로젝트 관리: 200,000달러 - 예비비 (20%): 548,000달러 - 총 투자: 3,288,000달러
대안적 신규 건설 비용: - 토지 취득: 2,000,000달러 - 건물 건설: 8,000,000달러 - 전력 인프라: 3,000,000달러 - 냉각 시스템: 2,000,000달러 - 네트워크 연결: 500,000달러 - 커미셔닝: 500,000달러 - 총 신규 건설: 16,000,000달러
개조로 인한 운영 절감: - PUE 1.8에서 1.3으로 개선: 연간 420,000달러 - 새 공간에 대한 임대 비용 회피: 연간 800,000달러 - 신규 장비로 인한 유지보수 비용 감소: 연간 150,000달러 - 효율 개선에 대한 유틸리티 인센티브: 일회성 200,000달러 - 총 연간 절감: 1,370,000달러 - 단순 회수 기간: 2.4년
실제 개조 성공 사례
금융 서비스 회사 (뉴욕) 과제: 3MW 용량의 2010년 시설이 AI 트레이딩 시스템 지원 필요 솔루션: 30개 랙에 후면 도어 열교환기 배포, 415V 전력으로 업그레이드 투자: 280만 달러 결과: 랙당 밀도 7kW에서 25kW로 증가, PUE 1.75에서 1.35로 개선 기간: 평가에서 전체 생산까지 6개월
의료 시스템 (보스턴) 과제: 2005년 데이터센터에 의료 영상 AI를 위한 GPU 용량 필요 솔루션: 15개 GPU 랙에 인로우 냉각 구현, 레거시 시스템에 공기 냉각 유지 투자: 190만 달러 결과: 신규 건설 없이 480개 A100 GPU 배포, 1,200만 달러 절감 기간: 다운타임 없이 4개월 구현
제조 회사 (디트로이트) 과제: 레거시 시설이 H100 GPU가 필요한 디지털 트윈 시뮬레이션 지원 불가 솔루션: 8개 고밀도 랙에 Direct-to-chip 냉각, 구조 보강 투자: 120만 달러 결과: 랙당 45kW 밀도 달성, 시설 수명 10년 연장 기간: 구조 작업 포함 8개월
리스크 완화 전략으로 개조 실패 방지
벤더 종속 방지: OCP 사양과 같은 개방형 표준을 사용하는 냉각 기술을 선택합니다. 종속성을 만드는 독점 냉각수 제형을 피합니다. 여러 제조업체의 장비를 수용할 수 있는 시스템을 설계합니다. 벤더 전환을 가능하게 하는 상세한 문서를 유지합니다. 시설 수명 동안의 잠재적 기술 변경에 대한 예산을 책정합니다.
용량 계획 버퍼: 미래 성장을 위해 20%의 냉각 및 전력 용량을 예약합니다. 점진적 확장을 가능하게 하는 모듈식 시스템을 설계합니다. 예상 성장을 위한 배관 같은 인프라를 사전 설치합니다. 확장 계획을 촉발하는 사용률 추세를 모니터링합니다. 용량 증가를 위해 유틸리티 제공업체와의 관계를 유지합니다.
**운영 연속성
[번역을 위해 내용 일부 생략됨]