高密度机架:面向AI数据中心基础设施的100kW+设计方案
更新于2025年12月11日
2025年12月更新: 2025年AI机架平均成本390万美元,而传统服务器机架仅50万美元——增长7倍。GB200NVL72机架功率密度达132kW;Blackwell Ultra和Rubin预计在2026-2027年实现250-900kW,每机架576个GPU。NVIDIA在OCP 2025大会上发布1MW机架设计。Eaton重型SmartRack支持5,000磅静态负载,专为AI设计。建设100kW基础设施成本为每机架20-30万美元。
2025年,AI机架的平均成本将达到390万美元,而传统服务器机架仅为50万美元。¹ 这一七倍的成本增长反映了机架需求的根本性转变——随着GPU功耗突破1,000瓦大关,机架功率密度正从100kW向1MW迈进。² NVIDIA的Blackwell Ultra和Rubin AI服务器将在2026-2027年需要250至900kW的功率,每机架最多容纳576个GPU。³ 承载这些系统的机架基础设施必须相应演进,包括结构加固、液冷集成以及传统机柜从未考虑过的配电能力。
随着AI工作负载重塑物理基础设施需求,数据中心机架市场预计到2033年将增长至94.1亿美元。⁴ 与处理10-15kW每机架的传统数据中心不同,AI设施需要40-250kW每机架来支持机器学习的计算需求。⁵ 规划AI基础设施的组织必须根据当前和预期的GPU需求来评估机架规格,而非依赖对功率密度和承重能力的传统假设。
功率密度演进催生全新机架设计
每机架100kW+的飙升既是数据中心基础设施的演进,也是一场革命。⁶ 为5-10kW负载设计的传统机架无法在不进行根本性架构改造的情况下安全支持现代GPU服务器的功率需求。
当前功率密度范围涵盖多种部署场景。高密度AI训练集群需要40-60kW机架。大型语言模型工作负载至少需要70kW。用于国家安全和AI研究的超级计算应用则需要100kW或更高。⁷ 这一增长轨迹仍在持续加速。
NVIDIA系统需求定义了基础设施基准。2024年推出的GB200NVL72机架设计峰值功率密度达132kW。⁸ 未来的Blackwell Ultra和Rubin系统每机架需要高达900kW功率,容纳576个GPU。⁹ NVIDIA在OCP 2025大会开幕主题演讲中发布了需要高达1MW功率的下一代AI机架。¹⁰
配电架构适应功率密度的增长。集中式整流将交流电在更靠近源头的位置转换为直流电,然后将高压直流电直接分配到机架,减少损耗并改善PUE。¹¹ 包括Meta、Google和Microsoft在内的超大规模企业正在部署高达13.8kV的中压配电以及400VDC和800VDC的更高直流电压架构。¹²
成本影响相当显著。新建100kW级基础设施每机架成本为20-30万美元,但为未来增长提供了余量。¹³ 将现有设施改造为40kW功率密度每机架成本为5-10万美元。¹⁴ 投资规模要求审慎的容量规划。
高密度部署的结构要求
随着GPU服务器重量超过传统服务器,承重能力变得至关重要。AI服务器集成了更密集的组件、更大的散热器和液冷硬件,这些都是传统机架无法安全承载的。
静态承重能力必须适应满载配置。Eaton于2024年10月推出专为AI设计的重型SmartRack机柜,静态承重能力高达5,000磅。¹⁵ 54英寸的加深设计可容纳GPU部署中常见的更大型AI服务器。¹⁶ 为2,000-3,000磅负载设计的标准机架在部署AI服务器前需要重新评估。
地板承重需要设施评估。CDU满水时重量可达3吨,需要800kg/m²的地板承载能力。¹⁷ 加上服务器重量和液冷基础设施,总地板负载可能超出传统数据中心规格。
机架深度超出标准尺寸。NVIDIA HGX服务器和类似平台需要比42英寸标准深度机架更深的机柜。¹⁸ 加深设计规划会影响通道间距、设施布局和线缆走线。
热管理集成影响结构设计。高功率机架产生的热气流需要畅通无阻的气流路径。¹⁹ NVIDIA建议将两台服务器放置在底部,留出3-6U的空隙,然后在上方再放置两台服务器,以优化风冷配置。²⁰ 机架布局直接影响散热效果。
液冷集成要求
服务于AI工作负载的机架必须容纳传统风冷机柜从未考虑过的液冷基础设施。这种集成增加了机架选择和设施规划的复杂性。
冷板支持需要歧管集成。直接芯片冷却将冷却液输送到CPU和GPU热源,每机架可带走30-40kW热量。²¹ 机架必须为机柜内的流体分配提供安装点、走线通道和泄漏防护。
后门热交换器安装支持混合冷却。RDHx系统安装在机架背面,最新配置每机架可散热高达120kW。²² 机架结构规格必须支持RDHx的重量和管道连接。
浸没式冷却兼容性实现最高功率密度。浸没式冷却将系统浸入介电流体中,可处理50-100kW热量同时消除风扇。²³ 一些部署使用机架级浸没式冷却槽而非传统机柜,需要不同的设施规划。
混合架构结合多种冷却方式。2025年的常见设计涉及70%液冷和30%风冷,机架作为集成点。²⁴ 机架必须同时适应两种冷却模式。
流量规格决定冷却能力。行业标准为45°C入口温度下1.2 LPM/kW,这意味着85kW机架需要CDU和热交换器支持102 LPM流量并冷却至45°C。²⁵ 机架管道不得限制所需流量。
OCP Open Rack规范
Open Compute Project定义了优化超大规模效率的机架标准。AI工作负载需求推动规范持续演进。
Open Rack V3 (ORV3) 奠定了基础。Meta于2022年定义并发布了基础规范,Google和Rittal参与贡献。²⁶ 21英寸的宽度超过EIA 19英寸标准,显著增加了气流量。²⁷ 电源架、整流器和备用电池规范实现了集成配电。
Open Rack Wide (ORW) 面向下一代AI。Meta在OCP 2025大会上推出ORW规范,这是一个开源的双宽机架标准,针对下一代AI系统的功率、冷却和可维护性需求进行了优化。²⁸ 该规范代表着向标准化、可互操作和可扩展数据中心设计的根本性转变。²⁹
Mt Diablo (Diablo 400) 规范描述了用于AI集群的电源机架侧柜。该规范由Google、Meta和Microsoft联合编写,定义了将配电推向超越传统48V配置的分解式电源机架。³⁰ Delta Electronics推出了与NVIDIA合作开发的800VDC"AI Power Cube"生态系统,为1.1MW级AI机架供电。³¹
Clemente规范描述了将NVIDIA GB300主机处理器模块集成到满足Meta AI/ML训练和推理用例的外形规格中的计算托盘。³² 该规范代表了首个使用OCP ORv3 HPR配合侧柜电源机架的部署。
行业实施证明了规范的价值。AMD宣布基于ORW开放标准构建的"Helios"机架级参考系统。³³ Rittal的Open Rack V3为直接液冷做好了准备,可应对高性能计算和AI技术的散热需求。³⁴
AI机架部署的供应商解决方案
主要基础设施供应商在2024-2025年期间推出了专门针对AI的机架产品。
Schneider Electric于2025年6月推出高密度NetShelter机架,随后推出支持NVIDIA MGX架构的新型OCP风格机架系统。³⁵ 这些产品与Schneider的配电和冷却产品组合集成。
Eaton重型SmartRack机柜面向AI部署,提供5,000磅静态承重能力和54英寸加深设计。³⁶ 这些规格解决了GPU基础设施中常见的更大更重服务器的需求。
Supermicro提供机架级液冷解决方案,每机架功率和冷却能力高达100kW,在系统、机架和集群级别完成全面验证,交付周期缩短。³⁷ 这些解决方案与Supermicro的GPU服务器产品组合集成。
Rittal提供符合OCP ORV3标准的机架,具备液冷准备功能,可满足AI技术散热需求。³⁸ 这些产品支持直接液冷集成。
Legrand在2025年上半年凭借专注AI的数据中心基础设施产品组合实现了24%的收入增长,完成七项收购,新增5亿欧元年化收入。³⁹ 该公司预计2025年数据中心收入将超过20亿欧元。⁴⁰
网络基础设施考量
AI集群所需的光纤基础设施密度是传统数据中心的五倍。⁴¹ 机架选择必须能够容纳AI网络所需的线缆密度。
InfiniBand和高速以太网布线需要走线容量。AI集群依赖超高带宽、低延迟网络(400Gbps+以太网或InfiniBand XDR)来同步跨服务器的GPU。⁴² 网络结构类似于超级计算机设计,每机架的光纤互连数量是传统的4-5倍。⁴³
线缆管理集成影响机架选择。为每机架10-20根线缆设计的标准线缆管理配件无法容纳AI网络所需的数百条高速连接。采购前需评估机架的线缆管理容量。
架空走线与地板下走线的选择影响机架定位。AI线缆密度可能超出传统高架地板容量,推动架空线缆管理的采用。机架高度必须在满足架空走线的同时保持可维护性。
规划功率密度增长
部署AI基础设施的组织应根据预期增长而非当前需求来确定机架投资规模。
GPU路线图意识为容量规划提供信息。NVIDIA从H100(700W)到Blackwell(1000W+)再到Rubin(更高功率)的演进持续推动功率密度升级。为当前GPU部署的机架应能容纳下一代功率需求。
模块化配电支持渐进式容量增加。每机架PDU与母线槽配电的选择影响容量如何扩展。在机架选择的同时规划配电架构。
冷却余量防止计算资源闲置。即使初始部署采用风冷,具备液冷能力的机架也能在功率密度增加时实现过渡。增量成本与机架更换相比微乎其微。
地面空间效率随规模增长而放大。更高密度的机架减少了等效计算能力所需的机架总数。更少的机架意味着更小的占地面积、更短的线缆走线,以及可能更小的设施。
Introl的全球工程团队在257个地点部署AI装置的高密度机架基础设施,从初始GPU服务器部署到100,000加速器设施。机架选择直接影响设施效率和未来GPU世代的容量。
基础设施根基
机架代表着AI基础设施投资的物理根基。承载价值390万美元GPU服务器和网络设备的机柜必须安全支撑这些投资,同时为这些系统所需的配电和冷却基础设施提供支持。
[内容因翻译需要而截断]