랙당 40-250kW: 극한 밀도 데이터센터 솔루션

최신 AI는 랙당 40-250kW의 전력을 요구하지만 기존 냉각 시스템은 15kW에서 한계를 보입니다. 극한 밀도 인프라 배포를 위한 엔지니어링 솔루션을 알아보세요.

랙당 40-250kW: 극한 밀도 데이터센터 솔루션

5년 전에 지어진 데이터센터는 랙당 10kW 냉각에도 어려움을 겪고 있습니다. 오늘날의 AI 워크로드는 최소 40kW가 필요하며, 차세대 배포는 250kW를 목표로 합니다. 기존 인프라와 현대적 요구사항 간의 격차는 1,000억 달러 규모의 문제를 만들어내고 있으며, 이는 창의적 엔지니어링으로 해결할 수 있습니다.

NVIDIA의 GB200 NVL72 시스템은 단일 랙 구성에서 140kW를 소비합니다.¹ Microsoft의 최신 Azure 배포는 일상적으로 랙당 50kW에 도달합니다.² Google은 TPU 포드에서 60kW 밀도를 구현합니다.³ 어제의 클라우드를 구동했던 인프라는 내일의 AI를 처리할 수 없으며, 조직들은 명확한 선택에 직면해 있습니다: 처음부터 재구축하거나 격차를 메우는 창의적 솔루션을 엔지니어링하는 것입니다.

극한 밀도 냉각의 물리학

전통적인 이중바닥 공기 냉각은 랙당 15kW를 넘으면 치명적으로 실패합니다. 뜨거운 공기 재순환은 온도가 통제 불능으로 치솟는 열 폭주 상황을 만들 수 있습니다. 단일 40kW 랙은 14개의 가정용 히터가 지속적으로 작동하는 것과 같은 열을 발생시킵니다. 이러한 랙 8개를 한 줄로 배치하면, 200 평방피트에 압축된 소규모 사무용 건물의 열 출력을 관리하는 셈입니다.

엔지니어들은 세 가지 기본 접근법으로 극한 밀도 문제를 해결합니다. 직접 액체 냉각은 냉각재를 열원으로 직접 가져와서 후면 도어 열교환기나 콜드 플레이트로 랙당 30-40kW를 제거합니다. 침지 냉각은 전체 시스템을 유전체 유체에 담가서 팬의 필요성을 제거하며 50-100kW 밀도를 처리합니다. 하이브리드 접근법은 여러 기술을 결합하여 GPU에는 액체 냉각을, 저밀도 구성요소에는 공기 냉각을 유지합니다.

수학적으로 액체 냉각이 압도적으로 유리합니다. 물의 열전달 계수는 공기보다 3,500배 높습니다.⁴ 1갤런의 물은 3,000 세제곱피트의 공기와 같은 열을 제거할 수 있습니다. 액체 냉각 시스템은 전통적인 공기 냉각의 1.4-1.8에 비해 1.02-1.10의 전력 사용 효율성(PUE) 등급을 달성합니다.⁵ PUE가 0.1 개선될 때마다 10MW 시설에서 연간 약 100만 달러를 절약합니다.⁶

전력 분배 문제는 규모에서 배가됩니다.

단일 랙에 250kW를 공급하려면 전력 인프라의 근본적인 재설계가 필요합니다. 전통적인 208V 회로는 1,200암페어 연결이 필요하며, 이는 인간의 팔보다 두꺼운 케이블입니다. 현대적 시설은 전류 요구사항을 줄이기 위해 415V 또는 480V 분배를 배포하지만, 이러한 시스템도 막대한 구리 투자를 필요로 합니다. 단일 250kW 랙은 일반 가정 50채에 해당하는 전력 인프라를 필요로 합니다.

Introl의 현장 엔지니어들은 5kW 설계를 40kW 부하에 맞게 개조하려는 시설들을 정기적으로 접합니다. 회로 차단기가 지속적으로 작동합니다. 변압기가 과열됩니다. 전력 분배 장치가 설계되지 않았던 부하로 인해 실패합니다. 조직들은 종종 건물의 총 전력 용량이 소수의 고밀도 랙만 지원할 수 있다는 것을 발견하며, 완료까지 18-24개월이 걸리는 비싼 유틸리티 업그레이드를 강요받습니다.

영리한 전력 설계는 가능한 곳에서 DC 분배로 시작합니다. 직류는 전통적인 AC 시스템에서 전력의 10-15%를 낭비하는 변환 손실을 제거합니다.⁷ Facebook의 Open Compute Project는 DC 분배가 신뢰성을 향상시키면서 총 전력 소비를 20% 줄인다는 것을 입증했습니다.⁸ 현대적 GPU 시스템은 점점 더 직접 DC 입력을 지원하여 열을 발생시키고 효율성을 떨어뜨리는 여러 변환 단계를 제거합니다.

기계적 인프라는 완전한 재상상이 필요합니다.

표준 데이터센터 바닥은 평방피트당 150-250 파운드를 지원합니다. 완전히 적재된 250kW 랙은 단 10 평방피트에 집중되어 8,000 파운드를 초과합니다.⁹ 바닥 보강이 필수가 되어 랙당 구조 업그레이드에 50,000-100,000 달러를 추가합니다. 지진대는 지진 중 장비 손상을 방지하는 특수 격리 시스템을 필요로 하는 추가적인 도전에 직면합니다.

액체 냉각은 새로운 기계적 복잡성을 도입합니다. 냉각재 분배는 전통적인 시설이 갖추지 않은 펌프, 열교환기, 여과 시스템을 필요로 합니다. 1MW 액체 냉각 배포는 분당 400-500 갤런의 냉각재 유량이 필요합니다.¹⁰ 누수 감지가 중요해집니다. 단일 냉각재 유출은 수초 만에 수백만 달러의 장비를 파괴할 수 있습니다. Introl은 수분 감지 후 100밀리초 이내에 작동하는 자동 차단 밸브를 갖춘 삼중 중복 누수 감지를 배포합니다.

배관 인프라만으로도 막대한 투자를 의미합니다. 구리 파이프는 설치 시 선형 피트당 30-50달러입니다.¹¹ 단일 줄의 액체 냉각 랙은 공급 및 반환 라인에 500-1,000 피트의 배관이 필요합니다. 매니폴드, 밸브, 연결점은 랙당 20,000-30,000 달러를 추가합니다. 기계적 인프라는 종종 이를 지원하는 컴퓨팅 장비보다 더 많은 비용이 듭니다.

네트워크 아키텍처는 밀도 요구사항에 적응합니다.

극한 밀도 컴퓨팅은 전례 없는 네트워크 대역폭을 요구합니다. 각 NVIDIA H100 GPU는 최적 성능을 위해 400Gbps의 네트워크 연결을 필요로 합니다.¹² 8-GPU 서버는 3.2Tbps의 총 대역폭이 필요하며, 이는 5년 전 많은 전체 데이터센터가 소비했던 것보다 많습니다. 전통적인 톱 오브 랙 스위칭 아키텍처는 이러한 요구사항을 충족하는 데 어려움을 겪습니다.

고밀도 배포는 분산형 네트워킹 아키텍처의 채택을 촉진합니다. 스파인-리프 토폴로지는 트래픽 패턴에 관계없이 일관된 지연시간과 대역폭을 제공합니다. 실리콘 포토닉스는 구리로는 달성할 수 없는 800 Gbps와 1.6 Tbps 연결을 가능하게 합니다.¹³ Introl의 배포는 3미터 미만 연결에는 점점 더 직접 연결 구리(DAC) 케이블을, 더 긴 거리에는 능동 광케이블(AOC)을 사용하여 비용과 전력 소비를 모두 최적화합니다.

케이블 관리는 극한 밀도에서 놀랍도록 복잡해집니다. 40-GPU 랙은 전력, 네트워킹, 관리를 위해 200개 이상의 케이블이 필요합니다. 각 케이블은 전기 저항을 통해 열을 발생시킵니다. 잘못된 케이블 관리는 공기 흐름을 제한하여 열적 스로틀링을 유발하는 핫스팟을 만듭니다. Introl의 엔지니어는 설치 시간의 20-30%를 케이블 관리에 할애하며, 냉각 효율성을 최대화하면서 적절한 굽힘 반경을 유지하는 특수 라우팅 시스템을 활용합니다.

지리적 제약이 배포 전략을 형성합니다.

싱가포르는 첫날부터 랙당 50-100kW에 맞게 설계된 새로운 시설로 글로벌 밀도 채택을 선도합니다.¹⁴ 토지 부족은 수직 확장과 평방피트당 최대 컴퓨팅을 촉진합니다. 정부 인센티브는 세금 감면과 신속한 허가를 통해 액체 냉각 채택을 지원합니다. Introl의 APAC 진출은 지역 요구사항과 규정을 이해하는 현지 엔지니어와 함께 변화의 중심에 우리를 위치시킵니다.

북유럽 시장은 무료 냉각 이점을 위해 추운 기후를 활용합니다. 스톡홀름의 데이터센터는 열 배출을 위해 차가운 발트해 바닷물을 활용하여 연중 1.10 이하의 PUE를 달성합니다.¹⁵ 노르웨이 시설은 수력 전력과 자연 냉각을 결합하여 세계에서 가장 효율적인 AI 인프라를 만듭니다. Introl은 글로벌 연결 표준을 유지하면서 이러한 지리적 이점을 활용하는 배포를 관리합니다.

물 가용성은 점점 더 배포 위치를 결정합니다. 액체 냉각 시스템은 냉각 용량 kW당 분당 0.1-0.2 갤런을 소비합니다.¹⁶ 10MW 시설은 분당 1,000-2,000 갤런이 필요하며, 이는 5시간마다 올림픽 수영장을 채울 수 있는 양입니다. 사막 지역은 공기 냉각의 비효율성과 물 부족 사이의 불가능한 선택에 직면합니다. 미래를 내다보는 조직들은 이제 데이터센터 위치를 선택할 때 전력 가용성과 함께 물 권리를 평가합니다.

경제적 모델이 채택 결정을 촉진합니다.

극한 밀도 인프라의 비즈니스 케이스는 워크로드 특성에 달려 있습니다. 몇 주 동안 지속적으로 실행되는 AI 훈련 워크로드는 효율성을 향상시키는 모든 투자를 정당화합니다. 한 달간의 훈련 실행에서 1% 성능 향상은 7.2시간의 컴퓨팅 시간을 절약합니다. H100 인스턴스의 GPU-시간당 40달러에서, 겉보기에 작은 최적화가 막대한 수익을 창출합니다.¹⁷

자본 지출(CapEx) 비교는 전통적인 인프라를 선호하지만, 운영 지출(OpEx)은 다른 이야기를 들려줍니다. 액체 냉각은 공기 냉각에 비해 전력 소비를 30-40% 줄입니다.¹⁸ 1MW 배포는 전기 비용만으로 연간 400,000-500,000 달러를 절약합니다.¹⁹ 기계적 마모 감소는 장비 수명을 20-30% 연장하여 교체 비용을 연기합니다.²⁰ 더 높은 밀도는 기존 시설에서 더 많은 컴퓨팅을 가능하게 하여 메가와트당 평균 1,000-1,500만 달러의 새로운 건설 비용을 피합니다.²¹

총소유비용(TCO) 모델은 기회비용을 고려해야 합니다. 고밀도 인프라를 배포할 수 없는 조직은 그럴 수 있는 조직에 비해 경쟁 우위를 잃습니다. OpenAI의 GPT 훈련 실행은 최적화된 인프라 없이는 10배 더 오래 걸릴 것입니다.²² 랙당 40kW와 100kW 간의 차이는 모델이 몇 주 또는 몇 달에 훈련되는지를 결정합니다. 시장 리더십은 점점 더 전통적인 메트릭이 포착하지 못하는 인프라 역량에 달려 있습니다.

운영 복잡성은 새로운 전문성을 요구합니다.

극한 밀도 인프라 관리는 전통적인 데이터센터 팀이 갖추지 않은 기술을 요구합니다. 액체 냉각 시스템은 IT 부서에서 거의 찾을 수 없는 배관 전문성을 필요로 합니다. 기술자들은 유체 역학, 압력 차이, 냉각재의 화학을 이해해야 합니다. 단일 매개변수 잘못 구성이 치명적인 실패를 야기할 수 있습니다. 너무 많은 압력은 연결을 파열시킬 수 있고, 너무 적으면 펌프 공동화를 야기할 수 있습니다.

Introl은 550명의 현장 엔지니어를 위한 전문 교육 프로그램을 통해 전문성 격차를 해결합니다. 팀은 냉각재 유량 문제 진단, 냉각 분배 장치의 예방적 유지보수 수행, 누수 사건 대응을 학습합니다. 인증 프로그램은 다양한 냉각 기술의 제조업체별 요구사항을 다룹니다. 지역 팀은 글로벌 지식 베이스를 통해 모범 사례를 공유하여 모든 257개 지점에서 일관된 서비스 품질을 보장합니다.

모니터링 시스템은 전통적인 인프라보다 10배에서 100배 많은 데이터를 생성합니다. 각 랙은 온도, 압력, 유량, 전력 소비, 구성요소 건강을 다루는 수천 개의 텔레메트리 포인트를 생산합니다. 기계 학습 알고리즘은 실패가 발생하기 전에 예측하는 패턴을 식별합니다. Introl의 운영 팀은 예측 분석을 사용하여 계획된 다운타임 창에서 유지보수를 예약하여 중요한 AI 워크로드에 대해 99.999% 가용성을 달성합니다.

미래 기술은 경계를 더욱 밀어냅니다.

차세대 GPU는 훨씬 더 극한의 인프라를 요구할 것입니다. NVIDIA의 로드맵은 2027년까지 GPU당 1,500-2,000W를 제안합니다.²³ AMD의 MI400 시리즈는 유사한 전력 소비를 목표로 합니다.²⁴ Cerebras 웨이퍼 규모 엔진은 이미 단일 유닛에서 23kW를 소비합니다.²⁵ 내일의 인프라는 오늘날 불가능해 보이는 밀도를 처리해야 합니다.

이상 침지 냉각이 극한 밀도의 궁극적 솔루션으로 부상합니다. 유전체 유체는 정밀하게 제어된 온도에서 끓어서 구성요소를 최적 작동점에서 유지하는 등온 냉각을 제공합니다. 액체에서 증기로의 상변화는 엄청난 양의 열을 흡수합니다. 랙당 최대 250kW까지.²⁶ 미국 에너지부는 엑사스케일 컴퓨팅 시스템을 위한 이상 냉각 연구에 자금을 지원합니다.²⁷

소형 모듈식 원자로(SMR)는 그리드 전력 제약을 제거할 수 있습니다. 하이퍼스케일러들은 데이터센터와 핵전력의 공동 위치를 탐구하여 예측 가능한 비용으로 무탄소 전기를 제공합니다. 단일 300MW SMR은 3,000개의 100kW 랙, 즉 24,000개 GPU에 충분한 전력을 공급할 수 있습니다.²⁸ 규제 승인은 여전히 도전적이지만, 충분한 규모에서 경제성이 매력적이 됩니다.

앞으로 나아갈 길은 즉각적인 행동을 요구합니다.

AI 인프라를 구축하는 조직들은 향후 10년간 경쟁 지위를 결정하는 중요한 결정에 오늘 직면합니다. 기존 시설을 40kW 밀도에 맞게 개조하는 데는 랙당 50,000-100,000 달러가 듭니다.²⁹ 새로운 100kW 가능 인프라 구축은 랙당 200,000-300,000 달러가 들지만 미래 성장을 위한 여유를 제공합니다.³⁰ 잘못된 선택은 AI 워크로드가 폭발하는 시점에 조직을 구식 인프라에 묶어둡니다.

성공적인 전환은 포괄적인 평가로 시작됩니다. Introl의 엔지니어링 팀은 기존 전력 용량, 냉각 인프라, 구조 지원, 네트워크 아키텍처를 평가하여 최적 성능을 보장합니다. 우리는 밀도 증가를 제한하는 병목현상을 식별하고 중단을 최소화하는 단계적 업그레이드 계획을 개발합니다. 우리의 글로벌 진출은 클라이언트가 극한 밀도 솔루션을 필요로 하는 곳이라면 어디든 특수 장비와 전문성의 신속한 배포를 가능하게 합니다.

AI 인프라의 승자는 극한 밀도와 싸우기보다는 이를 받아들이는 자들이 될 것입니다. 지연되는 매달은 경쟁자들이 모델을 더 빠르게 훈련하고, 기능을 더 빨리 배포하며, 시장을 먼저 점유한다는 것을 의미합니다. 문제는 고밀도 인프라를 채택할지 여부가 아니라, 조직이 AI 시대의 경쟁 우위를 정의하는 컴퓨팅 요구사항을 지원하기 위해 얼마나 빨리 시설을 변환할 수 있느냐입니다.

참고문헌

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중