液冷技术进入主流:2025年成为AI基础设施的转折点

随着GPU功率密度使风冷变得力不从心,液冷技术正从前沿实验转向基础标配。

液冷技术进入主流:2025年成为AI基础设施的转折点

液冷技术进入主流:2025年成为AI基础设施的转折点

2025年12月10日 作者:Blake Crosley

2025年是液冷技术从前沿实验转向基础标配的转折之年。液冷不再局限于小众部署或实验性设计,而是成为AI基础设施的关键支撑。1 数据中心浸没式冷却市场在2025年达到48.7亿美元,预计到2030年将达到111亿美元,年复合增长率为17.91%。2 这一转变反映了GPU功率密度的根本性变化——风冷已无法满足AI工作负载的需求。

到2025年中期,液冷转型已在运营、战略、资本配置等层面全面落地,并深度嵌入行业最具雄心的企业基础设施路线图。3 由于AI工作负载和高性能计算带来的功率密度提升,Google、Meta、AWS和Microsoft等超大规模企业正在其最新设施中全面部署液冷环境。4

功率密度驱动因素

对于高密度AI部署而言,GPU功耗已超出风冷的承载能力。

当前机架密度

从2022年到2024年,数据中心平均机架功率密度增长了38%,AI集群的功率密度现已达到80 kW至120 kW。5 NVIDIA Blackwell机架设计的峰值密度达到132 kW,未来的Blackwell Ultra和Rubin服务器每机架需要250至900 kW。6

在这些功率密度下,风冷无法有效散热。对流传热的物理特性限制了风冷的效果,无论风扇转速或空气处理机组容量如何提升都无济于事。液冷提供了根本性优越的传热系数,使高密度运行成为可能。

GPU热管理需求

现代GPU需要精确的温度控制才能实现最佳性能和可靠性。当温度超过规格时,热节流会降低性能。稳定的冷却能在繁重工作负载下保持持续性能。

液冷比风冷提供更稳定的温度。直接芯片液冷从热源处带走热量,而非依赖复杂服务器几何结构中的空气循环。这种稳定性为高要求的AI工作负载提供了可预测的性能支持。

技术格局

多种液冷技术针对不同的需求和部署场景。

直接芯片冷却

直接芯片液冷通过直接连接到GPU和其他发热组件的冷板循环冷却液。该方法为最高功率组件提供针对性冷却,同时保留低功率元件的风冷。

Supermicro发布了配备250 kW冷却液分配单元的NVIDIA Blackwell机架级解决方案,容量是之前的两倍。7 CDU容量的提升反映了GPU功率需求的不断攀升。直接芯片解决方案随GPU迭代而扩展。

浸没式冷却

单相浸没将服务器浸入介电流体中,通过直接接触吸收热量。该方法消除了风扇和气流管理的需求,同时提供均匀冷却。Submer的SmartPod每机架可达140 kW,PUE在1.03至1.1之间,而传统风冷设施的全球平均值为1.6至1.9。8

两相浸没使介电流体在高温表面沸腾,蒸汽冷凝后回流到液池。相变提供了卓越的传热效果。Microsoft测试了用于AI训练集群的两相浸没技术,报告显示能效提升30%,硬件可靠性也有所提高。9

后门式换热器

后门式换热器在机架排风口捕获废热,为拥有风冷基础设施的设施提供过渡选项。该方法无需服务器级别的改动即可减少设施冷却负荷。这项技术在设施过渡期间充当风冷到液冷的桥梁。

部署势头

2025年的主要部署展示了液冷技术的主流化进程。

供应商合作

2025年2月,Asperitas与Cisco建立合作伙伴关系,成为Cisco Engineering Alliance的一部分,将浸没式冷却技术与Cisco的统一计算系统相结合。10 这一合作验证了浸没式冷却在超大规模以外的企业部署中的可行性。

2025年2月,Submer进军数据中心设计、建设和服务领域,以推动AI基础设施发展。11 从冷却供应商扩展到基础设施提供商,反映了液冷在AI数据中心中的核心地位。

2025年3月,LiquidStack在德克萨斯州卡罗尔顿启用新总部,产能提升至原来的三倍。12 产能扩张是对需求超出原有生产能力的回应。

区域采用情况

北美通过超大规模云提供商的规模化部署巩固了其领先地位。弗吉尼亚州、德克萨斯州和俄勒冈州等成熟的数据中心市场中,液冷正成为新建AI设施的标准配置。

亚太地区呈现最快增长,日本、中国和韩国率先部署液冷AI集群。预计该地区从2025年到2030年的年复合增长率将达到最高的23.2%。13 政府AI计划推动了液冷基础设施的快速部署。

规划启示

规划AI基础设施的组织应评估当前和未来部署的液冷需求。

新设施设计

新建AI设施应从设计阶段就纳入液冷基础设施。改造比初始设计时纳入要昂贵得多,且更具破坏性。设施设计应同时兼容直接芯片和浸没式两种选项。

冷却分配单元的布置、管道路线以及液冷机架的地板承载力都需要在早期做出设计决策。设施机械系统必须支持液冷散热,与传统冷水机组并行或取而代之。

现有设施改造

现有设施在液冷采用方面面临更艰难的决策。改造成本和运营中断需要与保持风冷但受限于密度之间进行权衡。某些设施可能在经济上不支持液冷改造。

混合方案——为新AI基础设施部署液冷,同时为遗留工作负载保持风冷——提供了过渡路径。混合方案限制了改造范围,同时支持AI工作负载。

运营能力

液冷引入了超出传统数据中心管理的运营要求。冷却液质量监测、泄漏检测和专业维护程序需要培训和工具。运营团队需要具备液冷专业知识。

Introl的550名现场工程师网络支持组织实施AI部署的液冷基础设施。14 该公司以三年9,594%的增长率在2025年Inc. 5000榜单中排名第14位。15

覆盖全球257个地点的专业部署确保了液冷最佳实践不受地域限制。16 实施专业知识降低了技术转型期间的风险。

决策框架:按工作负载选择冷却技术

机架密度 推荐冷却方案 投资水平
<20 kW 风冷足够 标准HVAC
20-50 kW 后门式换热器 适度改造
50-100 kW 直接芯片液冷 重大基础设施投入
>100 kW 浸没式冷却 专用设施

可行步骤: 1. 审计当前密度:测量实际与潜在机架功耗 2. 预测GPU路线图:规划3年内密度提升2-3倍 3. 评估设施限制:评估改造可行性与新建方案 4. 建立运营专业知识:在部署前培训团队掌握液冷运营

技术对比

技术 PUE kW/机架 改造难度 最适合场景
传统风冷 1.6-1.9 <20 不适用 遗留工作负载
后门式换热器 1.3-1.5 20-40 过渡阶段
直接芯片 1.1-1.3 50-250 中等 GPU集群
单相浸没 1.03-1.1 100-140 最高能效
两相浸没 <1.1 100-200+ 最高密度

关键要点

设施规划者须知: - 液冷市场:48.7亿美元(2025年)→ 111亿美元(2030年),年复合增长率17.91% - 风冷在50 kW/机架以上物理上已不足够 - 新建AI设施应从设计阶段就纳入液冷

基础设施团队须知: - 直接芯片:随GPU迭代扩展,针对最热组件 - 浸没式:PUE 1.03-1.1 vs 风冷1.6-1.9(节能30%以上) - 亚太地区增长最快(年复合增长率23.2%),受政府AI计划驱动

采购须知: - Supermicro:250 kW CDU用于Blackwell机架级解决方案 - Submer SmartPod:140 kW/机架,PUE 1.03-1.1 - LiquidStack:产能提升三倍以满足需求

展望

液冷已从新兴技术转变为AI部署的基础设施标配。规划AI基础设施时未考虑液冷能力的组织,随着GPU功率持续增加,将面临部署限制的风险。

液冷的经济和运营优势随着每一代GPU的更新而增强。早期采用者获得了运营经验,避免了在风冷达到硬性极限时的仓促转型。2025年标志着液冷从"可选项"变为AI基础设施"必选项"的一年。

参考文献


分类: 基础设施与冷却 紧迫性: 高——技术转型带来即时规划影响 字数: 约1,800字



  1. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. https://www.datacenterfrontier.com/cooling/article/55292167/liquid-cooling-comes-to-a-boil-tracking-data-center-investment-innovation-and-infrastructure-at-the-2025-midpoint 

  2. SkyQuest. "Data Center Liquid Immersion Cooling Market Size & Share." 2025. https://www.skyquestt.com/report/data-center-liquid-immersion-cooling-market 

  3. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. 

  4. DataCenters.com. "Why Liquid Cooling Is the Future of Hyperscale Data Centers in 2025." 2025. https://www.datacenters.com/news/why-liquid-cooling-is-becoming-the-new-standard-in-hyperscale-facilities 

  5. IEEE Spectrum. "Data Center Liquid Cooling: The AI Heat Solution." 2025. https://spectrum.ieee.org/data-center-liquid-cooling 

  6. TrendForce. "Data Center Power Doubling? Next-Gen Efficiency & Sustainability Guide." 2025. https://www.trendforce.com/insights/data-center-power 

  7. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. 

  8. Grand View Research. "Data Center Liquid Immersion Cooling Market Report." 2025. https://www.grandviewresearch.com/industry-analysis/data-center-liquid-immersion-cooling-market-report 

  9. IEEE Spectrum. "Data Center Liquid Cooling: The AI Heat Solution." 2025. 

  10. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. 

  11. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. 

  12. Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. 

  13. Grand View Research. "Data Center Liquid Immersion Cooling Market Report." 2025. 

  14. Introl. "Company Overview." Introl. 2025. https://introl.com 

  15. Inc. "Inc. 5000 2025." Inc. Magazine. 2025. 

  16. Introl. "Coverage Area." Introl. 2025. https://introl.com/coverage-area 

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中