冷却分配单元：AI数据中心的液冷基础设施

Blake Crosley

Jan 21, 2026 1 min read Disclaimer

冷却分配单元：AI数据中心的液冷基础设施

更新于2025年12月11日

2025年12月更新： 液冷市场在2025年达到55亿美元，预计到2030年将达到158亿美元（年复合增长率23%）。700W TDP的H200 GPU在规模化部署时需要液冷。NVIDIA Kyber机架（2027年）将需要每机架600kW至1MW的功率。Supermicro发布了250kW的CDU，容量翻倍。CDU通过三重冗余架构和100毫秒故障切换实现99.999%的可用性。

2025年标志着液冷从前沿技术转变为基准配置的转折点。液冷不再局限于实验性部署，现已成为AI基础设施的关键推动力。¹ 部署NVIDIA H200 GPU的数据中心运营商面临每台设备700W的热负载，空气冷却无法在规模化时经济有效地散热。² 随着NVIDIA计划于2027年推出的Kyber机架，这一趋势将进一步加剧——初始功率需求为600kW，可扩展至每机架1MW，这要求液冷基础设施能够处理前所未有的热负载。³

数据中心液冷市场在2025年达到55.2亿美元，预计到2030年将达到157.5亿美元，年复合增长率为23.31%。⁴ 其他分析预测市场将从2025年的28.4亿美元增长到2032年的211.5亿美元，年复合增长率为33.2%。⁵ 冷却分配单元（CDU）构成了支撑这一转型的核心基础设施，管理设施水系统与IT设备之间的冷却液循环，同时维持AI硬件所需的精确温度。

CDU如何实现规模化液冷

冷却分配单元作为设施冷却基础设施与机架级液冷系统之间的接口。CDU管理从服务IT设备的二次回路到连接设施冷水机或冷却塔的一次回路的热量传递。

换热架构 采用316不锈钢板式换热器，兼容各种冷却液。⁶ 换热器将IT冷却回路与设施用水隔离，在实现高效热量传递的同时防止污染。最大流量可达每分钟3,600升，实现快速吸热和传热。⁷

温度控制 维持精确的运行条件。CDU可根据应用需求实现-20°C至+70°C的温度范围。⁸ 严格的温度控制可防止GPU热降频，保持稳定的计算性能。

压力管理 为安装提供灵活性。大于50 psi的扬程压力允许CDU与服务器机架之间更长的管路距离。⁹ 双变频驱动（VSD）泵可动态响应冷却需求，同时提高能效。¹⁰

可靠性功能 确保系统可用性。现代CDU采用三重冗余架构，关键组件配备1:1热备份。¹¹ 当主模块发生故障时，备份系统可在100毫秒内无缝切换，实现99.999%的系统可用性。¹²

能源效率 带来运营节省。与空气冷却单元相比，CDU在相同冷却能力下可减少20-30%的电力消耗。¹³ 在冷却占总功耗很大比例的大型AI部署中，效率提升会产生复合效应。

针对AI工作负载的CDU容量

AI服务器的功率密度决定了CDU的容量需求。单个NVIDIA GB200 GPU的TDP为1.2kW。典型的GB200 NVL72服务器配备8个GPU和2个CPU，总TDP达到10kW。¹⁴ CDU容量必须扩展以匹配这些系统的整个机架配置。

入门级配置 适用于中等密度场景。Boyd的10U液-气CDU可根据热负载和接近温度要求提供高达15kW的容量。¹⁵ 此类设备适用于边缘部署或较低密度的托管环境。

中端系统 支持高密度机架。Chilldyne的CF-CDU300可冷却高达300kW的服务器。¹⁶ 在标准42U机架内，实现50kW服务器集群冷却的系统可支持大量AI工作负载整合。¹⁷

高容量平台 服务于超大规模部署。Motivair的CDU提供六种标准型号和定制OEM配置，可扩展至2.3MW的IT负载。¹⁸ Supermicro于2025年6月发布了配备250kW CDU的NVIDIA Blackwell机架级解决方案，容量翻倍。¹⁹

企业级系统 满足数据中心范围的需求。Trane的下一代CDU可为超大规模和托管环境中的直接芯片液冷提供高达10MW的冷却能力。²⁰

安装规划 需要注意物理限制。CDU与机架之间的理想距离不应超过20米。²¹ 楼板承载能力必须达到800kg/m²，因为满载的CDU可重达3吨。²² 维护空间要求包括前后各1.2米，顶部0.6米用于管道连接。²³

后门热交换器用于改造升级

后门热交换器（RDHx）安装在服务器机架背面，在热空气进入数据中心环境之前将其热量移除。²⁴ 该技术无需更换现有空冷服务器即可实现液冷优势。

冷却效率 大幅超越纯空气冷却方案。传统空气冷却的效率比RDHx配置低30-60%。²⁵ 在空气冷却难以维持温度的高密度环境中，这种改进会产生复合效应。

容量演进 适应不断增加的机架密度。Motivair的ChilledDoor可为每个机架提供高达72kW的冷却能力。²⁶ OptiCool Technologies于2025年9月推出了业界最高容量的120kW RDHx，专为下一代AI和HPC工作负载设计。²⁷

专有冷却方法 突破性能极限。OptiCool的两相制冷剂设计利用相变热力学，从机架中移除热量并将空气以室温环境温度返回。²⁸ 该方法比单相液体系统实现更高的热传递效率。

主动与被动设计 提供不同的权衡。被动式RDHx仅依赖服务器风扇气流，具有节能和简单的优势。²⁹ 主动式RDHx配备内置风扇以应对更高的热密度，虽然功耗更高，但为高性能计算环境提供更大的灵活性。³⁰

传统基础设施兼容性 使RDHx对改造部署具有吸引力。改造现有空冷服务器机架的成本更低，干扰也比过渡到液冷服务器更小。³¹ 在空冷硬件上运行的AI推理工作负载可以从RDHx中获益，无需进行全设施基础设施改造。³²

行业标准化 通过Open Compute Project加速推进。门式热交换器子项目专注于ORV3（开放机架版本3）框架内的RDHx开发、集成和标准化。³³ Schneider Electric于2025年2月收购了Motivair的控股权，以加强其在液冷市场的地位。³⁴

浸没式冷却实现最高密度

浸没式冷却将服务器浸入密封槽中的导热介电液体中。³⁵ 该方法在大幅降低冷却能耗的同时实现最高密度部署。

单相浸没 使液体始终保持液态。冷却液通过热交换器循环以移除吸收的热量。³⁶ 与传统空气冷却相比，该方法可将电力需求减少近一半，二氧化碳排放减少高达30%，用水量减少99%。³⁷

两相浸没 使液体在热源处沸腾成蒸汽。冷凝器盘管将蒸汽转回液态。³⁸ 两相系统在抽取大量热量方面效率更高，更适合HPC和AI基础设施。³⁹

密度提升 改变数据中心经济模型。浸没式冷却使运营商能够在相同占地面积内部署10-15倍的计算能力，直接缩短AI服务的收益实现时间。⁴⁰ 这种整合减少了房地产需求，同时提高了每平方英尺的容量。

能源效率 达到显著水平。根据Submer的数据，浸没式冷却可将冷却系统能耗降低高达95%。⁴¹ 这些节省在部署生命周期内可抵消更高的资本成本。

行业验证 增强市场信心。Intel和Shell与Supermicro和Submer的硬件一起验证了完整的浸没解决方案，建立了"Intel数据中心浸没冷却认证"作为冷却效率的行业标准。⁴² Submer推出了用于浸没槽维护的自主机器人，简化了服务器处理。⁴³

成本考量 需要仔细分析。全面的浸没部署需要专用槽体、承重支撑、泄漏检测系统和冷却液处理设备，使每机架安装成本超过50,000美元，大约是同等空气系统的三倍。⁴⁴ 在保持正常运行的同时改造运行中的站点会增加复杂性，因为地板下空间、电缆槽和电力路径需要重新布线。⁴⁵

技术成熟度 持续提升。浸没式冷却相对不成熟，长期性能和可靠性的历史数据有限。⁴⁶ 然而，超大规模企业和AI基础设施提供商加速采用正在快速积累运营经验。

液冷技术栈

不同的冷却技术适用于不同的部署场景。最佳方案取决于热密度、现有基础设施和运营需求。

冷板冷却（直接芯片冷却或D2C）是增长最快的细分市场。⁴⁷ 冷板直接连接到发热组件上，通过循环液体移除热负载。与浸没式方案相比，该方法更容易与现有机架基础设施集成。

混合架构 结合多种方法。CDU为最高发热组件提供冷板系统服务，而RDHx处理空冷组件的剩余热负载。这种组合在无需全面更换基础设施的情况下最大化冷却效率。

OCP合规性 确保互操作性。Nidec开发了符合Google Open Compute Project规范的Project Deschutes CDU原型，在SC25上展出。⁴⁸ 标准化接口实现了跨供应商的组件互操作性。

机架密度演进 持续推动需求增长。根据Omdia的数据，2024年10kW以下的机架占已安装容量的47%，到2025年下降至38%。⁴⁹ 与此同时，10-20kW的机架从27%上升至30%，20-30kW的机架从24%攀升至28%。⁵⁰ 密度转变加速了液冷的采用。

主要CDU供应商和最新动态

竞争格局涵盖成熟的热管理公司和针对AI基础设施的新进入者。

Vertiv 提供全面的CDU解决方案，并提供解释液冷基础知识的教育资源。该公司的AI Hub计划将CDU技术定位为下一代基础设施的核心。⁵¹

Schneider Electric 通过2025年2月收购Motivair加强了其液冷地位。⁵² 合并后的产品组合涵盖RDHx、CDU和集成液冷解决方案。

Supermicro 于2025年6月发布了配备250kW CDU的NVIDIA Blackwell机架级解决方案。⁵³ 这些系统展示了用于最高密度部署的集成计算和冷却设计。

Trane 提供面向超大规模环境、容量达10MW的企业级CDU。⁵⁴ 该公司强调能源效率和与设施级热基础设施的集成。

Motivair 开发了可达每机架72kW的ChilledDoor RDHx以及可扩展至2.3MW的CDU平台。⁵⁵ Schneider的收购为该技术的全球扩展部署奠定了基础。

Submer 专注于浸没式冷却，包括自主维护机器人等创新。⁵⁶ Intel的合作

[内容已截断用于翻译]

冷却分配单元：AI数据中心的液冷基础设施

CDU如何实现规模化液冷

针对AI工作负载的CDU容量

后门热交换器用于改造升级

浸没式冷却实现最高密度

液冷技术栈

主要CDU供应商和最新动态

You Might Also Like

浸没式冷却投资回报计算器：AI工作负载2-4年回本分析

英国AI走廊：伦敦新兴计算中心

水资源使用效率：无危机的AI数据中心冷却方案

申请报价_

请求已收到_