冷却分配单元:AI数据中心的液冷基础设施
更新于2025年12月11日
2025年12月更新: 液冷市场在2025年达到55亿美元,预计到2030年将达到158亿美元(年复合增长率23%)。700W TDP的H200 GPU在规模化部署时需要液冷。NVIDIA Kyber机架(2027年)将需要每机架600kW至1MW的功率。Supermicro发布了250kW的CDU,容量翻倍。CDU通过三重冗余架构和100毫秒故障切换实现99.999%的可用性。
2025年标志着液冷从前沿技术转变为基准配置的转折点。液冷不再局限于实验性部署,现已成为AI基础设施的关键推动力。¹ 部署NVIDIA H200 GPU的数据中心运营商面临每台设备700W的热负载,空气冷却无法在规模化时经济有效地散热。² 随着NVIDIA计划于2027年推出的Kyber机架,这一趋势将进一步加剧——初始功率需求为600kW,可扩展至每机架1MW,这要求液冷基础设施能够处理前所未有的热负载。³
数据中心液冷市场在2025年达到55.2亿美元,预计到2030年将达到157.5亿美元,年复合增长率为23.31%。⁴ 其他分析预测市场将从2025年的28.4亿美元增长到2032年的211.5亿美元,年复合增长率为33.2%。⁵ 冷却分配单元(CDU)构成了支撑这一转型的核心基础设施,管理设施水系统与IT设备之间的冷却液循环,同时维持AI硬件所需的精确温度。
CDU如何实现规模化液冷
冷却分配单元作为设施冷却基础设施与机架级液冷系统之间的接口。CDU管理从服务IT设备的二次回路到连接设施冷水机或冷却塔的一次回路的热量传递。
换热架构 采用316不锈钢板式换热器,兼容各种冷却液。⁶ 换热器将IT冷却回路与设施用水隔离,在实现高效热量传递的同时防止污染。最大流量可达每分钟3,600升,实现快速吸热和传热。⁷
温度控制 维持精确的运行条件。CDU可根据应用需求实现-20°C至+70°C的温度范围。⁸ 严格的温度控制可防止GPU热降频,保持稳定的计算性能。
压力管理 为安装提供灵活性。大于50 psi的扬程压力允许CDU与服务器机架之间更长的管路距离。⁹ 双变频驱动(VSD)泵可动态响应冷却需求,同时提高能效。¹⁰
可靠性功能 确保系统可用性。现代CDU采用三重冗余架构,关键组件配备1:1热备份。¹¹ 当主模块发生故障时,备份系统可在100毫秒内无缝切换,实现99.999%的系统可用性。¹²
能源效率 带来运营节省。与空气冷却单元相比,CDU在相同冷却能力下可减少20-30%的电力消耗。¹³ 在冷却占总功耗很大比例的大型AI部署中,效率提升会产生复合效应。
针对AI工作负载的CDU容量
AI服务器的功率密度决定了CDU的容量需求。单个NVIDIA GB200 GPU的TDP为1.2kW。典型的GB200 NVL72服务器配备8个GPU和2个CPU,总TDP达到10kW。¹⁴ CDU容量必须扩展以匹配这些系统的整个机架配置。
入门级配置 适用于中等密度场景。Boyd的10U液-气CDU可根据热负载和接近温度要求提供高达15kW的容量。¹⁵ 此类设备适用于边缘部署或较低密度的托管环境。
中端系统 支持高密度机架。Chilldyne的CF-CDU300可冷却高达300kW的服务器。¹⁶ 在标准42U机架内,实现50kW服务器集群冷却的系统可支持大量AI工作负载整合。¹⁷
高容量平台 服务于超大规模部署。Motivair的CDU提供六种标准型号和定制OEM配置,可扩展至2.3MW的IT负载。¹⁸ Supermicro于2025年6月发布了配备250kW CDU的NVIDIA Blackwell机架级解决方案,容量翻倍。¹⁹
企业级系统 满足数据中心范围的需求。Trane的下一代CDU可为超大规模和托管环境中的直接芯片液冷提供高达10MW的冷却能力。²⁰
安装规划 需要注意物理限制。CDU与机架之间的理想距离不应超过20米。²¹ 楼板承载能力必须达到800kg/m²,因为满载的CDU可重达3吨。²² 维护空间要求包括前后各1.2米,顶部0.6米用于管道连接。²³
后门热交换器用于改造升级
后门热交换器(RDHx)安装在服务器机架背面,在热空气进入数据中心环境之前将其热量移除。²⁴ 该技术无需更换现有空冷服务器即可实现液冷优势。
冷却效率 大幅超越纯空气冷却方案。传统空气冷却的效率比RDHx配置低30-60%。²⁵ 在空气冷却难以维持温度的高密度环境中,这种改进会产生复合效应。
容量演进 适应不断增加的机架密度。Motivair的ChilledDoor可为每个机架提供高达72kW的冷却能力。²⁶ OptiCool Technologies于2025年9月推出了业界最高容量的120kW RDHx,专为下一代AI和HPC工作负载设计。²⁷
专有冷却方法 突破性能极限。OptiCool的两相制冷剂设计利用相变热力学,从机架中移除热量并将空气以室温环境温度返回。²⁸ 该方法比单相液体系统实现更高的热传递效率。
主动与被动设计 提供不同的权衡。被动式RDHx仅依赖服务器风扇气流,具有节能和简单的优势。²⁹ 主动式RDHx配备内置风扇以应对更高的热密度,虽然功耗更高,但为高性能计算环境提供更大的灵活性。³⁰
传统基础设施兼容性 使RDHx对改造部署具有吸引力。改造现有空冷服务器机架的成本更低,干扰也比过渡到液冷服务器更小。³¹ 在空冷硬件上运行的AI推理工作负载可以从RDHx中获益,无需进行全设施基础设施改造。³²
行业标准化 通过Open Compute Project加速推进。门式热交换器子项目专注于ORV3(开放机架版本3)框架内的RDHx开发、集成和标准化。³³ Schneider Electric于2025年2月收购了Motivair的控股权,以加强其在液冷市场的地位。³⁴
浸没式冷却实现最高密度
浸没式冷却将服务器浸入密封槽中的导热介电液体中。³⁵ 该方法在大幅降低冷却能耗的同时实现最高密度部署。
单相浸没 使液体始终保持液态。冷却液通过热交换器循环以移除吸收的热量。³⁶ 与传统空气冷却相比,该方法可将电力需求减少近一半,二氧化碳排放减少高达30%,用水量减少99%。³⁷
两相浸没 使液体在热源处沸腾成蒸汽。冷凝器盘管将蒸汽转回液态。³⁸ 两相系统在抽取大量热量方面效率更高,更适合HPC和AI基础设施。³⁹
密度提升 改变数据中心经济模型。浸没式冷却使运营商能够在相同占地面积内部署10-15倍的计算能力,直接缩短AI服务的收益实现时间。⁴⁰ 这种整合减少了房地产需求,同时提高了每平方英尺的容量。
能源效率 达到显著水平。根据Submer的数据,浸没式冷却可将冷却系统能耗降低高达95%。⁴¹ 这些节省在部署生命周期内可抵消更高的资本成本。
行业验证 增强市场信心。Intel和Shell与Supermicro和Submer的硬件一起验证了完整的浸没解决方案,建立了"Intel数据中心浸没冷却认证"作为冷却效率的行业标准。⁴² Submer推出了用于浸没槽维护的自主机器人,简化了服务器处理。⁴³
成本考量 需要仔细分析。全面的浸没部署需要专用槽体、承重支撑、泄漏检测系统和冷却液处理设备,使每机架安装成本超过50,000美元,大约是同等空气系统的三倍。⁴⁴ 在保持正常运行的同时改造运行中的站点会增加复杂性,因为地板下空间、电缆槽和电力路径需要重新布线。⁴⁵
技术成熟度 持续提升。浸没式冷却相对不成熟,长期性能和可靠性的历史数据有限。⁴⁶ 然而,超大规模企业和AI基础设施提供商加速采用正在快速积累运营经验。
液冷技术栈
不同的冷却技术适用于不同的部署场景。最佳方案取决于热密度、现有基础设施和运营需求。
冷板冷却(直接芯片冷却或D2C)是增长最快的细分市场。⁴⁷ 冷板直接连接到发热组件上,通过循环液体移除热负载。与浸没式方案相比,该方法更容易与现有机架基础设施集成。
混合架构 结合多种方法。CDU为最高发热组件提供冷板系统服务,而RDHx处理空冷组件的剩余热负载。这种组合在无需全面更换基础设施的情况下最大化冷却效率。
OCP合规性 确保互操作性。Nidec开发了符合Google Open Compute Project规范的Project Deschutes CDU原型,在SC25上展出。⁴⁸ 标准化接口实现了跨供应商的组件互操作性。
机架密度演进 持续推动需求增长。根据Omdia的数据,2024年10kW以下的机架占已安装容量的47%,到2025年下降至38%。⁴⁹ 与此同时,10-20kW的机架从27%上升至30%,20-30kW的机架从24%攀升至28%。⁵⁰ 密度转变加速了液冷的采用。
主要CDU供应商和最新动态
竞争格局涵盖成熟的热管理公司和针对AI基础设施的新进入者。
Vertiv 提供全面的CDU解决方案,并提供解释液冷基础知识的教育资源。该公司的AI Hub计划将CDU技术定位为下一代基础设施的核心。⁵¹
Schneider Electric 通过2025年2月收购Motivair加强了其液冷地位。⁵² 合并后的产品组合涵盖RDHx、CDU和集成液冷解决方案。
Supermicro 于2025年6月发布了配备250kW CDU的NVIDIA Blackwell机架级解决方案。⁵³ 这些系统展示了用于最高密度部署的集成计算和冷却设计。
Trane 提供面向超大规模环境、容量达10MW的企业级CDU。⁵⁴ 该公司强调能源效率和与设施级热基础设施的集成。
Motivair 开发了可达每机架72kW的ChilledDoor RDHx以及可扩展至2.3MW的CDU平台。⁵⁵ Schneider的收购为该技术的全球扩展部署奠定了基础。
Submer 专注于浸没式冷却,包括自主维护机器人等创新。⁵⁶ Intel的合作
[内容已截断用于翻译]