AI液冷技术:从边缘应用到核心基础设施

液冷市场正从2025年的28亿美元飙升至2032年的210亿美元以上(年复合增长率超30%)。当前NVIDIA机架功率达132kW,下一代将需要240kW。GB200 NVL72可实现25倍成本节约(50MW设施年省超400万美元)...

AI液冷技术:从边缘应用到核心基础设施

AI液冷技术:从边缘应用到核心基础设施

更新于2025年12月11日

2025年12月更新: 液冷市场正从2025年的28亿美元飙升至2032年的210亿美元以上(年复合增长率超30%)。当前NVIDIA机架功率达132kW,下一代将需要240kW。GB200 NVL72可实现25倍成本节约(50MW设施年省超400万美元)。直接芯片冷却现可处理单组件高达1,600W的热量。Accelsius NeuCool技术使用40°C温水冷却单GPU插槽4,500W功率。

全球液冷市场将从2025年的28亿美元飙升至2032年的210亿美元以上,年复合增长率超过30%。¹ 到2025年年中,从风冷到液冷的转变已从实验阶段进入实际运营阶段。² 满载运行时,最新的NVIDIA GPU服务器每机架需要132千瓦。预计一年内推出的下一代产品将需要240千瓦。³ 传统风冷无法在如此高密度下有效散热。液冷已从超大规模数据中心的奢侈选项,转变为任何部署当代AI基础设施的组织的必需品。

经济效益进一步推动了这一转变。据估计,数据中心每年在冷却方面的支出为每兆瓦190万至280万美元。⁴ 部署液冷GB200 NVL72系统可使超大规模数据中心实现高达25倍的成本节约,这意味着一个50兆瓦设施每年可节省超过400万美元。⁵ 抗拒这一转型的组织将发现自己无法部署定义AI能力的下一代GPU。

推动转型的物理原理

AI优化服务器和GPU密集型集群的功率密度已超过每机架50千瓦,达到传统风冷无法确保稳定高效散热的水平。⁶ 根据Uptime Institute的数据,数据中心平均机架功率密度从2022年到2024年增长了38%,其中AI和超大规模部署增长最为显著。⁷ 曾经最高15千瓦的功率密度,在AI集群中现已达到80至120千瓦。⁸

液冷的根本优势在于热力学原理。液体的密度几乎是空气的1,000倍,凭借优越的热容量和热导率,在带走热量方面表现出色。⁹ 通过高效地从高性能GPU传导热量,液冷减少了对高能耗冷却风扇的依赖。其结果是:服务器能耗平均降低11%,同时消除了80%的传统冷却基础设施空间需求。¹⁰

风冷系统难以处理每机架超过10至15千瓦的功率密度。¹¹ 许多AI工作负载需要运行在30至60千瓦甚至更高的机架上。¹² 风冷所能提供的能力与AI基础设施所需之间的差距随着每一代GPU的更新而不断扩大。

直接芯片冷却主导生产环境

直接芯片冷却迅速成为生产环境中最常见的液冷形式。¹³ 冷板直接安装在CPU、GPU、内存模块和电压调节器上。闭环系统通过这些冷板循环冷却液,从源头移除热量。¹⁴

NVIDIA的GB200 NVL72和GB300 NVL72系统采用直接芯片液冷作为标准配置。¹⁵ 与蒸发式或浸没式冷却不同,NVL72的液冷作为闭环系统运行,冷却液不会蒸发或需要更换,从而节约水资源。¹⁶ 该架构带来40倍的收入潜力提升、30倍的吞吐量提升、25倍的能效提升和300倍的水效提升,相比传统风冷系统。¹⁷

直接芯片解决方案现可处理单组件高达1,600瓦的热量,与风冷相比实现58%更高的服务器密度,同时将基础设施能耗降低40%。¹⁸ Supermicro的DLC-2支持的NVIDIA HGX B200系统通过对CPU、GPU、内存条、PCIe交换机、电压调节器和电源进行液冷,可捕获高达98%的系统热量,使数据中心以低至50分贝的噪音水平安静运行。¹⁹

Accelsius凭借其NeuCool技术实现了两项热管理里程碑:成功冷却单GPU插槽4,500瓦功率,以及使用40°C温水在满载250千瓦AI机架中维持安全的GPU温度。²⁰ 使用温水而非冷冻水的能力降低了冷却基础设施要求和运营成本。

浸没式冷却为极端密度扩展

浸没式冷却将服务器浸入介电液中,可实现每机架超过100千瓦,某些设计可扩展至250千瓦。²¹ GRC的ICEraQ等系统可实现每系统高达368千瓦的冷却能力,同时将电能使用效率保持在1.03以下。²² 这种方法完全消除了风扇,使运营商能够在相同空间内部署10至15倍的计算能力。²³

数据中心浸没式冷却市场在2025年达到48.7亿美元,预计到2030年将增长至111亿美元,年复合增长率为17.91%。²⁴ 单相系统因安装熟悉度高而保持最大市场份额,但双相设计在极端密度和无泵架构至关重要的试点项目中胜出。²⁵

与传统风冷相比,单相浸没式冷却可将电力需求降低近一半,有助于减少高达30%的二氧化碳排放,并支持减少高达99%的用水量。²⁶ 效率提升直接转化为AI服务更快的收入实现。从每平方英尺获得更高利用率的能力仍然是推动超大规模采用的最强经济杠杆。²⁷

2025年5月,Intel与Shell Global Solutions合作推出了首个针对第四代和第五代Xeon处理器的Intel认证浸没式冷却解决方案,实现了生产规模的高性能热管理。²⁸ 这一合作表明浸没式冷却已达到企业部署所需的认证和支持水平。

超大规模部署树立标准

Microsoft的Azure AI集群、Google的TPU部署和Meta的LLaMA模型训练节点都已转向液冷。²⁹ Microsoft于2025年发布的先进AI超级计算机采用全液冷机架,支持GPT-Next训练工作负载。³⁰ 超大规模厂商的投入验证了液冷作为生产就绪基础设施而非实验性技术的地位。

HPE于2025年2月交付了其首个NVIDIA Blackwell系列解决方案GB200 NVL72。³¹ HPE建造了全球十大最快超级计算机中的七台,在直接液冷方面积累了深厚专业知识。³² 该公司的参考架构为企业部署提供了蓝图。

Vertiv针对NVIDIA GB200 NVL72服务器的参考架构可将年能耗降低25%,机架空间需求减少75%,电力占用减少30%。³³ Schneider Electric的液冷基础设施支持GB200 NVL72 AI数据中心每机架高达132千瓦。³⁴ 供应商生态系统现已提供交钥匙解决方案,无需定制工程。

Meta与Microsoft合作开发了空气辅助液冷作为混合式、可改造解决方案。³⁵ 这种方法使Meta能够在不彻底改造其整个风冷基础设施的情况下开始集成液冷,为拥有现有设施的组织展示了务实的过渡路径。

改造挑战持续存在

改造运行中的数据中心以适应更强大的处理器面临重大技术和后勤挑战。³⁶ 一些运营商得出结论,建设新设施比升级现有设施更容易。³⁷ 决策取决于设施年限、剩余使用寿命和计划中的AI部署规模。

液冷需要专业基础设施,包括液体分配单元、冷板、浸没罐和冷却液泵。³⁸ 改造涉及修改服务器机架、添加防泄漏系统并确保合规性。³⁹ 既有设施面临新建项目可避免的架构和基础设施限制。

在既有设施中,浸没式冷却等基础设施密集型解决方案的采用率较低,仅为20.4%,反映了实际约束。⁴⁰ 这些约束包括容纳浸没罐所需的大规模改造、有限的地面空间,以及与现有电力和冷却基础设施集成的挑战。⁴¹ 既有设施更倾向于采用液气冷却等增量解决方案,以避免完全的基础设施改造。⁴²

Schneider Electric与NVIDIA合作推出了三种改造参考设计,供寻求性能提升而无需从头重新设计设施的数据中心运营商使用。⁴³ 这些设计承认大多数组织无法建设全新的AI数据中心,必须在现有约束条件下工作。

运营复杂性增加

由于液冷系统仅冷却芯片,补充风冷仍需处理总热负荷的20%至30%。⁴⁴ 混合冷却架构需要许多组织内部缺乏的专业知识。⁴⁵ 运营转变与机械升级本身同样重要。

液冷引入了新的运营要求:泄漏检测、液压冗余、冷却液质量控制和技术人员技能提升。⁴⁶ 传统数据中心运营团队可能缺乏AI基础设施所需规模的管道、泵和热交换器方面的经验。技能差距影响部署时间表和持续运营。

ZutaCore开发了支持GB200超级芯片的直接芯片液冷系统,该超级芯片结合了NVIDIA Grace ARM处理器和Blackwell GPU。⁴⁷ 第三方解决方案扩大了选择范围,但也使供应商管理和支持安排更加复杂。

供应链问题可能使混合冷却计划复杂化,贸易政策变化可能使情况恶化。⁴⁸ 计算能力的快速提升意味着今天处于前沿的数据中心可能很快落后。⁴⁹ 在目标持续移动的情况下,设计具有未来功率密度容量的设施具有挑战性。

区域采用模式

北美通过超大规模云提供商的生产规模部署引领市场采用。⁵⁰ 美国市场将从2024年的10.9亿美元增长到2034年的63.9亿美元。⁵¹ AWS、Google和Microsoft的超大规模投资推动采用,企业随之跟进。

亚太地区增长最为迅速,日本、中国和韩国积极推进液冷AI集群。⁵² 在炎热潮湿的气候中,传统风冷在成本上不可行。⁵³ 浸没式冷却提供了特别适合区域条件的可持续、高空间效率解决方案。亚太地区在整个预测期内领导全球浸没式冷却市场。⁵⁴

地理分布既反映了气候因素,也反映了AI基础设施投资的集中程度。具有积极AI发展计划的地区出于必要推动冷却创新。

战略规划考量

规划AI基础设施的组织必须将液冷纳入设施和预算决策。直接芯片冷却和浸没式冷却之间的选择取决于部署规模、改造约束和运营能力。

对于新部署,液冷应成为任何超过30千瓦机架的默认规格。规划100千瓦以上的密度可满足到2027年的GPU路线图。今天设计时没有液冷基础设施的设施将在数年内面临昂贵的改造或更换。

对于现有设施,诚实评估改造可行性。Schneider Electric的参考设计提供了起点,但仍需要大量工程工作。在风冷基础设施上叠加液冷的混合方法提供了渐进式前进路径。

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中