xAI 멤피스 콜로서스: 100,000 GPU 슈퍼컴퓨터 분석

xAI는 122일 만에 100,000 GPU 콜로서스 클러스터를 구축하고, 92일 만에 200K로 두 배 확장했습니다. 250MW 전력, Spectrum-X 이더넷. 세계 최대 AI 슈퍼컴퓨터의 내부 구조.

xAI 멤피스 콜로서스: 100,000 GPU 슈퍼컴퓨터 분석

xAI 멤피스 콜로서스: 100,000 GPU 클러스터 분석

2025년 12월 11일 업데이트

2025년 12월 업데이트: 콜로서스는 현재 150,000개의 H100 + 50,000개의 H200 + 30,000개의 GB200 GPU로 구성되어 있으며, 세계 최대의 단일 통합 AI 훈련 클러스터입니다. 122일 만에 초기 100K를 구축하고, 92일 만에 두 배로 확장했습니다. 100만 GPU로의 확장을 계획 중입니다. 멤피스 유틸리티 그리드에서 250MW를 소비하고 있습니다. Spectrum-X 이더넷은 기존 이더넷의 60%에 비해 95%의 처리량을 달성하고 있습니다.

xAI의 콜로서스 클러스터는 122일 만에 테네시주 멤피스의 구 가전제품 공장에 100,000개의 NVIDIA H100 GPU를 배치했습니다.¹ 이후 xAI는 92일 만에 시스템을 200,000 GPU로 두 배 확장했습니다.² 현재 이 클러스터는 150,000개의 H100 GPU, 50,000개의 H200 GPU, 30,000개의 GB200 GPU로 구성되어 있어, 세계에서 가장 크게 완전히 운영 중인 단일 통합 AI 훈련 클러스터입니다.³ xAI는 100만 GPU로 확장할 계획입니다.⁴ 이 프로젝트는 조직이 기존 계획 일정보다 속도를 우선시할 때 공격적인 인프라 배치가 어떤 모습인지 보여줍니다.

콜로서스 프로젝트는 대규모로 AI 인프라를 구축하는 모든 조직에 교훈을 제공합니다. 전력, 냉각, 네트워킹, 시설 선택에 관한 결정들은 기존 접근 방식이 너무 느릴 때 제약 조건을 어떻게 극복할 수 있는지 보여줍니다. 또한 이러한 트레이드오프는 보다 체계적인 배치가 피하는 위험도 드러냅니다.

건설 일정 및 접근 방식

머스크는 데이터 센터 건설에 대해 처음 18~24개월의 견적을 받았습니다.⁵ 그 일정을 거부한 xAI는 멤피스의 구 Electrolux 공장을 찾았는데, 이 가전 제조업체는 2012년에 공장을 열었다가 2020년에 폐쇄했습니다.⁶ 버려진 이 시설은 상당한 창고 공간과 15메가와트의 초기 산업용 전력을 제공했습니다.⁷

Supermicro CEO Charles Liang은 자사가 xAI와 협력하여 122일 만에 거대한 콜로서스 데이터 센터를 구축했다고 확인했습니다.⁸ Dell Technologies와 Supermicro 모두 xAI와 건설에 파트너십을 맺었습니다.⁹ 압축된 일정은 시설 준비, 전력 인프라, 냉각 시스템, 컴퓨팅 배치 전반에 걸쳐 병렬 작업 흐름을 필요로 했습니다.

100,000 GPU 클러스터는 각각 8개의 GPU를 포함하는 HGX 서버를 사용하며, 랙당 64개의 GPU를 갖춘 Supermicro 수냉식 랙에 수용됩니다.¹⁰ 총 배치는 1,500개의 GPU 랙으로 구성됩니다.¹¹ 이러한 랙 밀도는 처음부터 수냉을 필요로 했으며, Supermicro의 4U 수냉식 시스템이 열 관리를 제공합니다.¹²

초기 배치 3개월 후, xAI는 200,000 GPU로의 확장과 100만 GPU까지 계속 확장할 계획을 발표했습니다.¹³ 이 확장은 인프라 아키텍처가 근본적인 재설계 없이 성장을 수용할 수 있음을 보여주었습니다.

전례 없는 규모의 전력 인프라

콜로서스 시설은 현재 초기 150메가와트 구성에서 증가하여 약 250메가와트를 소비합니다.¹⁴ xAI는 Tesla Megapack 배터리 시스템과 함께 420메가와트의 전력을 생산할 수 있는 35개의 가스 터빈을 설치했습니다.¹⁵ 이 하이브리드 접근 방식은 기저 부하 전력과 그리드 독립성을 모두 제공합니다.

xAI는 97일 만에 첫 번째 MLGW 변전소를 설계하고 건설했으며, 일반적으로 2.5년이 걸리는 150메가와트 변전소를 완성했습니다.¹⁶ 이러한 가속화는 임시 전력 솔루션을 동시에 배치하면서 Memphis Light, Gas and Water와 협력해야 했습니다.

회사는 슈퍼컴퓨터에 전력을 공급하기 위해 208개의 Tesla Megapack을 배치했으며, 초기에는 MLGW 그리드에서 분리했습니다.¹⁷ Megapack은 대량의 전기를 저장하여 그리드 중단 시 백업을 제공하고 영구 유틸리티 연결이 완료되기 전에 운영을 가능하게 합니다.

Solaris Energy Infrastructure는 600메가와트의 가스 터빈 함대를 소유하고 있으며, 현재 약 400메가와트가 xAI에 서비스를 제공하고 있습니다.¹⁸ xAI는 Solaris의 1,700메가와트 주문장의 67%를 차지하며, 총 1,140메가와트입니다.¹⁹ Solaris는 2027년 2분기까지 xAI를 위해 1.1기가와트 이상의 완전 가동 터빈을 보유할 것으로 예상합니다.²⁰

Tulane Road 부지의 콜로서스 2 확장에는 약 170메가와트의 전력 부하를 지닌 최소 110,000개의 NVIDIA GB200 GPU가 포함됩니다.²¹ 추가 Megapack과 터빈 용량이 확장된 설치 면적을 지원합니다.

xAI는 슈퍼컴퓨터에 전력을 공급하기 위한 가스 연소 터빈 허가를 받았습니다.²² 허가는 2027년에 만료되며, 그때까지 xAI는 콜로서스 캠퍼스에 자금을 조달하고 건설한 두 개의 MLGW 변전소를 포함한 여러 전력 소스에 의존할 계획입니다.²³ xAI는 부지 근처에 500에이커 규모의 태양광 발전소 착공을 계획하고 있습니다.²⁴

냉각 시스템 및 수자원 인프라

처음부터 xAI는 슈퍼컴퓨터를 냉각하기 위해 물을 트럭으로 운반하고 내부 폐쇄 루프 시스템을 통해 재활용했습니다.²⁵ 이 비전통적인 접근 방식은 영구적인 수자원 인프라가 완료되기 전에 운영을 가능하게 했습니다. xAI는 장기적인 물 수요를 해결하기 위해 8천만 달러 규모의 폐수 재활용 시설 건설을 약속했습니다.²⁶

회사는 세계 최대의 세라믹 멤브레인 생물 반응기 폐수 재활용 플랜트를 계획하고 있습니다.²⁷ 완공되면 이 시설은 추정 47억 4,500만 갤런의 대수층 물을 보호할 것입니다.²⁸ 건설 중인 대규모 중수 냉각탑은 인근 중수 플랜트에서 콜로서스로 냉각된 재활용수를 파이프로 공급할 것입니다.²⁹

콜로서스 2는 하이브리드 냉각 방식을 사용합니다. 냉각의 약 절반은 xAI의 중수 시설에서 제공하고 나머지 절반은 공랭식을 사용합니다.³⁰ 2025년 8월까지 119개의 공랭식 냉각기가 약 200메가와트의 냉각 용량을 제공했으며, 이는 약 110,000개의 GB200 NVL72 GPU에 충분합니다.³¹

초기 건설 단계에서 xAI는 발전기와 미국 이동식 냉각 용량의 약 4분의 1을 임대하여 빠르게 운영을 시작했습니다.³² 임시 인프라의 공격적인 조달은 영구 시스템이 완료되는 동안 압축된 일정을 가능하게 했습니다.

Spectrum-X 이더넷 네트워킹

InfiniBand를 사용하는 대부분의 AI 훈련 클러스터와 달리, xAI의 콜로서스는 RDMA 네트워크를 위해 NVIDIA의 Spectrum-X 이더넷 플랫폼을 사용합니다.³³ 이 선택은 이더넷이 적절히 구성되면 가장 큰 AI 훈련 클러스터를 지원할 수 있음을 보여줍니다.

콜로서스는 2U 폼 팩터에서 64개의 800기가비트 이더넷 포트를 제공하는 51.2테라비트/초의 Spectrum SN5600을 사용합니다.³⁴ 개별 노드는 각 GPU에 단일 400기가비트 연결을 제공하는 NVIDIA의 BlueField-3 SuperNIC을 사용합니다.³⁵

네트워크는 패브릭의 세 계층 전체에서 흐름 충돌로 인한 애플리케이션 지연 저하나 패킷 손실 없이 달성했습니다.³⁶ 시스템은 Spectrum-X 혼잡 제어로 95%의 데이터 처리량을 유지했습니다.³⁷ 표준 이더넷은 수천 번의 흐름 충돌로 인해 이 규모에서 일반적으로 60%의 처리량만 제공합니다.³⁸

기존 이더넷 네트워크는 수천 개의 GPU가 동시에 통신할 때 인캐스트 문제로 어려움을 겪습니다.³⁹ InfiniBand는 전통적으로 내장된 Priority Flow Control과 하드웨어 수준의 혼잡 관리로 이를 해결했습니다.⁴⁰ Spectrum-X는 향상된 혼잡 제어 메커니즘과 함께 RoCE v2를 사용하여 유사한 결과를 달성합니다.⁴¹

이더넷 접근 방식은 성능을 유지하면서 InfiniBand에 비해 비용 이점과 유연성을 제공합니다. Direct Data Placement 기술을 갖춘 적응형 라우팅, 혼잡 제어, 향상된 AI 패브릭 가시성을 포함한 Spectrum-X 기능은 이더넷 인프라에서 InfiniBand와 같은 성능을 가능하게 합니다.⁴²

규모 비교

200,000 GPU의 콜로서스는 다른 주요 슈퍼컴퓨터를 상당한 차이로 초과합니다.⁴³ Oracle의 제타스케일 AI 슈퍼컴퓨터는 131,072개의 NVIDIA GPU를 포함합니다.⁴⁴ Lawrence Livermore 국립 연구소의 El Capitan은 44,544개의 GPU를 보유합니다.⁴⁵ Oak Ridge 국립 연구소의 Frontier는 37,632개의 GPU를 보유합니다.⁴⁶

xAI의 사양에 따르면, 콜로서스는 1엑사바이트를 초과하는 스토리지 용량과 함께 초당 194페타바이트의 총 메모리 대역폭을 달성합니다.⁴⁷ 메모리 대역폭은 수십만 개의 GPU에 걸쳐 AI 훈련이 필요로 하는 집합 연산을 가능하게 합니다.

이 클러스터는 xAI의 Grok 챗봇을 훈련하고 X 및 SpaceX를 포함한 다른 머스크 벤처에 컴퓨팅 지원을 제공합니다.⁴⁸ 다목적 활용은 여러 사업 분야에 걸쳐 인프라 투자를 정당화합니다.

콜로서스 2 확장

xAI는 2025년 3월 7일 콜로서스 2 프로젝트를 시작하여 멤피스의 100만 평방피트 창고와 총 100에이커에 달하는 두 개의 인접 부지를 인수했습니다.⁴⁹ Tulane Road 부지는 확장된 GPU 플릿을 호스팅할 것입니다.

확장은 350,000 GPU를 목표로 하며 높은 그리드 부하 시 백업 전력을 위한 세계 최대 규모의 Tesla Megapack 배터리 배치를 갖출 예정입니다.⁵⁰ 이 부지에는 GPU 인프라와 함께 60~70개의 Megapack이 설치될 예정입니다.⁵¹

멤피스 상공회의소는 xAI가 총 100만 GPU로 확장할 계획이라고 주장합니다.⁵² 그 규모를 달성하려면 현재 용량을 넘어서는 지속적인 전력 인프라 개발이 필요합니다. Solaris가 2027년에 계획하는 1.1기가와트는 현재 밀도 수준에서 약 50만 개의 고전력 GPU를 지원할 수 있습니다.

인프라 교훈

콜로서스 프로젝트는 AI 인프라 배치를 가속화하는 여러 접근 방식을 보여줍니다.

시설 재사용은 일정을 극적으로 압축할 수 있습니다. 전력 인프라가 갖춰진 기존 산업 시설을 찾으면 신축에 필요한 건설 시간이 제거됩니다. 폐쇄된 산업 시설에 접근할 수 있는 조직은 빠른 AI 인프라 배치 기회를 찾을 수 있습니다.

임시 인프라는 병렬 경로를 가능하게 합니다. 발전기, 이동식 냉각 장치 임대 및 물 운송을 통해 영구 인프라가 완료되는 동안 운영을 시작할 수 있었습니다. 임시 솔루션에 대한 비용 프리미엄은 운영 시작 시점이 경쟁 위치를 결정할 때 가치가 있을 수 있습니다.

이더넷은 가장 큰 클러스터를 지원할 수 있습니다. Spectrum-X 배치는 InfiniBand가 대규모 AI 훈련에 필요하지 않음을 증명합니다. 이더넷 전문 지식과 인프라를 보유한 조직은 가장 큰 배치에서도 InfiniBand를 채택할 필요가 없을 수 있습니다.

전력은 여전히 주요 제약 조건입니다. 배터리 저장, 가스 터빈, 가속화된 변전소 건설을 포함한 창의적인 솔루션에도 불구하고 전력 가용성이 배치 속도와 규모를 제한했습니다. 대규모 AI 클러스터를 계획하는 조직은 먼저 전력 용량을 확보해야 합니다.

트레이드오프에는 규제 문제, 지역 사회 관계 문제, 압축된 일정으로 인한 기술적 위험이 포함됩니다. xAI의 가스 터빈 허가는 2027년에 만료되어 전환 요구 사항이 발생합니다.⁵³ 지역 관리들은 xAI의 운영에 대한 제한된 가시성에 대해 우려를 표명했습니다.⁵⁴ 경쟁 우위를 가능하게 하는 속도는 더 느린 배치가 피하는 기술 부채를 만들 수 있습니다.

빠른 참조: 콜로서스 사양

사양
총 GPU 200,000개 이상 (150K H100, 50K H200, 30K GB200)
구축 시간 122일 (1단계), 92일 (2단계)
전력 소비 현재 250 MW
전력 인프라 35개 가스 터빈 (420 MW), 208개 Tesla Megapack
네트워킹 NVIDIA Spectrum-X 800G 이더넷
스토리지 1엑사바이트 이상
메모리 대역폭 194 PB/s
랙 구성 랙당 64 GPU, 1,500개 랙
냉각 수냉 + 중수 재활용
확장 목표 100만 GPU

핵심 요점

인프라 리더를 위해: - 기존 DC 견적: 18-24개월; xAI는 시설 재사용으로 122일 만에 완료 - 임시 인프라(임대 발전기, 이동식 냉각, 물 운송)가 병렬 경로를 가능하게 함 - 전력이 주요 제약 조건—GPU 조달 전에 용량 확보 필요 - Spectrum-X 이더넷이 200K GPU 규모에서 실행 가능성을 입증하여 InfiniBand 필요성에 도전

시설 팀을 위해: - 폐쇄된 산업 시설이 빠른 배치 기회를 제공 - 250 MW는 여러 전력 소스 필요—가스 터빈, 배터리, 유틸리티 변전소 - 중수 재활용이 대규모 물 문제 해결—8천만 달러 시설이 47억 갤런 대수층 보호 - 119개 공랭식 냉각기가 약 200 MW 냉각 용량 제공

전략 기획을 위해: - 속도 대 지속가능성 트레이드오프: 가스 터빈 허가 2027년 만료 - 압축된 일정이 체계적인 배치가 피하는 기술 부채 생성 - 다목적 활용(Grok, X, SpaceX)이 인프라 투자 정당화 - 100만 GPU 목표 달성에 필요한

[번역을 위해 내용이 잘림]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중