xAI孟菲斯Colossus:10万GPU集群架构解析
更新于2025年12月11日
2025年12月更新: Colossus目前配备15万块H100 + 5万块H200 + 3万块GB200 GPU——全球最大的单一连贯AI训练集群。初期10万GPU在122天内建成,又用92天实现翻倍。计划扩展至100万GPU。从孟菲斯电网取电250MW。Spectrum-X以太网实现95%吞吐率,而传统以太网仅为60%。
xAI的Colossus集群在122天内,于田纳西州孟菲斯市一座前家电工厂部署了10万块NVIDIA H100 GPU。¹ 随后xAI又用92天将系统扩展至20万GPU。² 该集群目前配备15万块H100 GPU、5万块H200 GPU和3万块GB200 GPU,是全球最大的完全运营、单一连贯AI训练集群。³ xAI计划扩展至100万GPU。⁴ 该项目展示了当一个组织将速度置于传统规划周期之上时,激进的基础设施部署是什么样子。
Colossus项目为任何大规模构建AI基础设施的组织提供了宝贵经验。围绕电力、散热、网络和设施选择的决策揭示了当传统方法过于缓慢时如何突破限制。这些权衡也揭示了更稳健的部署方式所能避免的风险。
建设时间线与方法
Musk最初收到的数据中心建设报价为18至24个月。⁵ 他拒绝了这一时间线,xAI找到了位于孟菲斯的前Electrolux工厂,该家电制造商于2012年开设并于2020年关闭该工厂。⁶ 这座废弃设施提供了可观的仓库空间和初始15兆瓦的工业电力。⁷
Supermicro首席执行官梁见后确认,他的公司与xAI合作在122天内建成了巨型Colossus数据中心。⁸ Dell Technologies和Supermicro均与xAI合作进行建设。⁹ 压缩的时间线要求在设施准备、电力基础设施、冷却系统和计算部署方面并行推进。
10万GPU集群使用每台包含8块GPU的HGX服务器,安装在Supermicro液冷机架中,每个机架64块GPU。¹⁰ 整个部署包含1,500个GPU机架。¹¹ 高机架密度从一开始就需要液冷,Supermicro的4U液冷系统提供热管理。¹²
初期部署三个月后,xAI宣布扩展至20万GPU,并计划继续扩展至100万。¹³ 此次扩展表明基础设施架构可以在无需根本性重新设计的情况下适应增长。
前所未有规模的电力基础设施
Colossus设施目前消耗约250兆瓦,高于最初的150兆瓦配置。¹⁴ xAI安装了35台能够产生420兆瓦电力的燃气轮机,并配备Tesla Megapack电池系统。¹⁵ 这种混合方式同时提供基础负荷电力和电网独立性。
xAI在97天内设计并建成了第一个MLGW变电站,完成了一个通常需要2.5年的150兆瓦变电站。¹⁶ 这一加速需要与Memphis Light, Gas and Water合作,同时部署临时电力解决方案。
该公司部署了208个Tesla Megapack为超级计算机供电,最初将其与MLGW电网隔离。¹⁷ Megapack存储大量电力,在电网中断期间提供备份,并在永久公用设施连接完成之前实现运营。
Solaris Energy Infrastructure拥有600兆瓦燃气轮机机组,目前约400兆瓦服务于xAI。¹⁸ xAI占Solaris 1,700兆瓦订单簿的67%,总计1,140兆瓦。¹⁹ Solaris预计到2027年第二季度将为xAI提供超过1.1吉瓦的全面运营涡轮机。²⁰
Tulane Road站点的Colossus 2扩展包括至少11万块NVIDIA GB200 GPU,电力负载约170兆瓦。²¹ 额外的Megapack和涡轮机容量支持扩展的规模。
xAI获得了燃气涡轮机为超级计算机供电的许可证。²² 该许可证于2027年到期,届时xAI打算依赖多种电源,包括在Colossus园区融资和建造的两个MLGW变电站。²³ xAI计划在该站点附近破土动工建设一个500英亩的太阳能农场。²⁴
冷却系统和水利基础设施
从一开始,xAI就用卡车运水,并通过内部闭环系统回收利用来冷却超级计算机。²⁵ 这种非常规方法使得在永久水利基础设施完成之前就能运营。xAI承诺建设一个价值8000万美元的废水回收设施以解决长期用水需求。²⁶
该公司计划建造世界上最大的陶瓷膜生物反应器废水回收厂。²⁷ 一旦完工,该设施将保护约47.45亿加仑的含水层水。²⁸ 一座正在建设中的大型中水冷却塔将把来自附近中水厂的冷却回收水输送到Colossus。²⁹
Colossus 2采用混合冷却方式。约一半的冷却来自xAI的中水设施,另一半使用空气冷却。³⁰ 到2025年8月,119台风冷式冷水机提供约200兆瓦的冷却能力,足以支持约11万块GB200 NVL72 GPU。³¹
在初期建设阶段,xAI租用发电机和约四分之一的美国移动冷却能力,以快速启动运营。³² 临时基础设施的激进采购使压缩的时间线得以实现,同时永久系统也在完成中。
Spectrum-X以太网网络
与大多数使用InfiniBand的AI训练集群不同,xAI的Colossus使用NVIDIA的Spectrum-X以太网平台作为其RDMA网络。³³ 这一选择表明,当配置得当时,以太网可以支持最大的AI训练集群。
Colossus使用51.2 Tbps的Spectrum SN5600,在2U外形中提供64个800 Gbps以太网端口。³⁴ 单个节点使用NVIDIA的BlueField-3 SuperNIC,每个GPU有一个400 Gbps连接。³⁵
该网络在整个三层架构中实现了零应用延迟降级或由于流冲突导致的丢包。³⁶ 系统通过Spectrum-X拥塞控制保持了95%的数据吞吐率。³⁷ 标准以太网在这种规模下通常只能提供60%的吞吐率,因为存在数千次流冲突。³⁸
传统以太网网络在数千个GPU同时通信时会遇到incast问题。³⁹ InfiniBand传统上通过内置的优先级流控制和硬件级拥塞管理来解决这个问题。⁴⁰ Spectrum-X使用带有增强拥塞控制机制的RoCE v2实现了类似的结果。⁴¹
与InfiniBand相比,以太网方法在保持性能的同时提供了成本效益和灵活性。Spectrum-X的功能包括带有Direct Data Placement技术的自适应路由、拥塞控制和增强的AI架构可见性,使以太网基础设施上实现类似InfiniBand的性能。⁴²
规模对比
Colossus拥有20万GPU,大幅超越其他主要超级计算机。⁴³ Oracle的zettascale AI超级计算机包含131,072块NVIDIA GPU。⁴⁴ 劳伦斯利弗莫尔国家实验室的El Capitan有44,544块GPU。⁴⁵ 橡树岭国家实验室的Frontier有37,632块GPU。⁴⁶
根据xAI的规格,Colossus实现了每秒194 PB的总内存带宽,存储容量超过1 EB。⁴⁷ 内存带宽支持AI训练在数十万GPU上所需的集合操作。
该集群训练xAI的Grok聊天机器人,并为X和其他Musk企业(包括SpaceX)提供计算支持。⁴⁸ 多用途利用证明了跨多条业务线的基础设施投资是合理的。
Colossus 2扩展
xAI于2025年3月7日启动了Colossus 2项目,在孟菲斯收购了一个100万平方英尺的仓库以及两个相邻站点,共计100英亩。⁴⁹ Tulane Road站点将承载扩展的GPU机群。
扩展目标是35万GPU,配备世界上最大规模部署的Tesla Megapack电池,用于高电网负荷期间的备用电源。⁵⁰ 该站点将配备60至70个Megapack以及GPU基础设施。⁵¹
孟菲斯商会声称xAI打算总共扩展至100万GPU。⁵² 实现该规模需要在当前容量之外持续发展电力基础设施。Solaris计划于2027年提供的1.1吉瓦将在当前密度水平下支持约50万块高功率GPU。
基础设施经验
Colossus项目展示了几种加速AI基础设施部署的方法。
设施再利用可以大幅压缩时间线。找到一个已有电力基础设施的现有工业设施,消除了新建所需的建设时间。拥有退役工业设施的组织可能会发现快速AI基础设施部署的机会。
临时基础设施实现并行路径。租用发电机、移动冷却设备和运水使得在永久基础设施完成的同时就能开始运营。当投入运营的时间决定竞争地位时,临时解决方案的成本溢价可能是值得的。
以太网可以支持最大的集群。Spectrum-X的部署证明了大规模AI训练不需要InfiniBand。拥有以太网专业知识和基础设施的组织可能不需要为即使是最大的部署采用InfiniBand。
电力仍然是主要制约因素。尽管有包括电池存储、燃气轮机和加速变电站建设在内的创新解决方案,电力可用性仍限制了部署的速度和规模。规划大型AI集群的组织应首先确保电力容量。
权衡包括监管挑战、社区关系问题以及压缩时间线带来的技术风险。xAI的燃气轮机许可证于2027年到期,产生了过渡需求。⁵³ 当地官员对xAI运营的有限可见性表示担忧。⁵⁴ 带来竞争优势的速度可能会产生较慢部署所能避免的技术债务。
快速参考:Colossus规格
| 规格 | 数值 |
|---|---|
| 总GPU数 | 200,000+(15万H100、5万H200、3万GB200) |
| 建设时间 | 122天(第一阶段),92天(第二阶段) |
| 电力消耗 | 当前250 MW |
| 电力基础设施 | 35台燃气轮机(420 MW),208个Tesla Megapack |
| 网络 | NVIDIA Spectrum-X 800G以太网 |
| 存储 | >1 EB |
| 内存带宽 | 194 PB/s |
| 机架配置 | 每机架64块GPU,1,500个机架 |
| 冷却 | 液冷 + 中水回收 |
| 扩展目标 | 100万GPU |
关键要点
对于基础设施负责人: - 传统数据中心报价:18-24个月;xAI通过设施再利用在122天内交付 - 临时基础设施(租用发电机、移动冷却、运水)实现并行路径 - 电力仍然是主要制约因素——在GPU采购之前确保容量 - Spectrum-X以太网在20万GPU规模下证明可行,挑战了InfiniBand的必要性
对于设施团队: - 退役工业设施提供快速部署机会 - 250 MW需要多种电源——燃气轮机、电池、公用事业变电站 - 中水回收大规模解决用水问题——8000万美元设施保护47亿加仑含水层水 - 119台风冷式冷水机提供约200 MW冷却能力
对于战略规划: - 速度与可持续性的权衡:燃气轮机许可证于2027年到期 - 压缩的时间线产生稳健部署所能避免的技术债务 - 多用途利用(Grok、X、SpaceX)证明基础设施投资合理 - 100万GPU目标需要
[内容因翻译需要而截断]