液冷技术进入主流:2025年成为AI基础设施的转折点
2025年12月10日 作者:Blake Crosley
2025年是液冷技术从前沿实验转向基础标配的转折之年。液冷不再局限于小众部署或实验性设计,而是成为AI基础设施的关键支撑。1 数据中心浸没式冷却市场在2025年达到48.7亿美元,预计到2030年将达到111亿美元,年复合增长率为17.91%。2 这一转变反映了GPU功率密度的根本性变化——风冷已无法满足AI工作负载的需求。
到2025年中期,液冷转型已在运营、战略、资本配置等层面全面落地,并深度嵌入行业最具雄心的企业基础设施路线图。3 由于AI工作负载和高性能计算带来的功率密度提升,Google、Meta、AWS和Microsoft等超大规模企业正在其最新设施中全面部署液冷环境。4
功率密度驱动因素
对于高密度AI部署而言,GPU功耗已超出风冷的承载能力。
当前机架密度
从2022年到2024年,数据中心平均机架功率密度增长了38%,AI集群的功率密度现已达到80 kW至120 kW。5 NVIDIA Blackwell机架设计的峰值密度达到132 kW,未来的Blackwell Ultra和Rubin服务器每机架需要250至900 kW。6
在这些功率密度下,风冷无法有效散热。对流传热的物理特性限制了风冷的效果,无论风扇转速或空气处理机组容量如何提升都无济于事。液冷提供了根本性优越的传热系数,使高密度运行成为可能。
GPU热管理需求
现代GPU需要精确的温度控制才能实现最佳性能和可靠性。当温度超过规格时,热节流会降低性能。稳定的冷却能在繁重工作负载下保持持续性能。
液冷比风冷提供更稳定的温度。直接芯片液冷从热源处带走热量,而非依赖复杂服务器几何结构中的空气循环。这种稳定性为高要求的AI工作负载提供了可预测的性能支持。
技术格局
多种液冷技术针对不同的需求和部署场景。
直接芯片冷却
直接芯片液冷通过直接连接到GPU和其他发热组件的冷板循环冷却液。该方法为最高功率组件提供针对性冷却,同时保留低功率元件的风冷。
Supermicro发布了配备250 kW冷却液分配单元的NVIDIA Blackwell机架级解决方案,容量是之前的两倍。7 CDU容量的提升反映了GPU功率需求的不断攀升。直接芯片解决方案随GPU迭代而扩展。
浸没式冷却
单相浸没将服务器浸入介电流体中,通过直接接触吸收热量。该方法消除了风扇和气流管理的需求,同时提供均匀冷却。Submer的SmartPod每机架可达140 kW,PUE在1.03至1.1之间,而传统风冷设施的全球平均值为1.6至1.9。8
两相浸没使介电流体在高温表面沸腾,蒸汽冷凝后回流到液池。相变提供了卓越的传热效果。Microsoft测试了用于AI训练集群的两相浸没技术,报告显示能效提升30%,硬件可靠性也有所提高。9
后门式换热器
后门式换热器在机架排风口捕获废热,为拥有风冷基础设施的设施提供过渡选项。该方法无需服务器级别的改动即可减少设施冷却负荷。这项技术在设施过渡期间充当风冷到液冷的桥梁。
部署势头
2025年的主要部署展示了液冷技术的主流化进程。
供应商合作
2025年2月,Asperitas与Cisco建立合作伙伴关系,成为Cisco Engineering Alliance的一部分,将浸没式冷却技术与Cisco的统一计算系统相结合。10 这一合作验证了浸没式冷却在超大规模以外的企业部署中的可行性。
2025年2月,Submer进军数据中心设计、建设和服务领域,以推动AI基础设施发展。11 从冷却供应商扩展到基础设施提供商,反映了液冷在AI数据中心中的核心地位。
2025年3月,LiquidStack在德克萨斯州卡罗尔顿启用新总部,产能提升至原来的三倍。12 产能扩张是对需求超出原有生产能力的回应。
区域采用情况
北美通过超大规模云提供商的规模化部署巩固了其领先地位。弗吉尼亚州、德克萨斯州和俄勒冈州等成熟的数据中心市场中,液冷正成为新建AI设施的标准配置。
亚太地区呈现最快增长,日本、中国和韩国率先部署液冷AI集群。预计该地区从2025年到2030年的年复合增长率将达到最高的23.2%。13 政府AI计划推动了液冷基础设施的快速部署。
规划启示
规划AI基础设施的组织应评估当前和未来部署的液冷需求。
新设施设计
新建AI设施应从设计阶段就纳入液冷基础设施。改造比初始设计时纳入要昂贵得多,且更具破坏性。设施设计应同时兼容直接芯片和浸没式两种选项。
冷却分配单元的布置、管道路线以及液冷机架的地板承载力都需要在早期做出设计决策。设施机械系统必须支持液冷散热,与传统冷水机组并行或取而代之。
现有设施改造
现有设施在液冷采用方面面临更艰难的决策。改造成本和运营中断需要与保持风冷但受限于密度之间进行权衡。某些设施可能在经济上不支持液冷改造。
混合方案——为新AI基础设施部署液冷,同时为遗留工作负载保持风冷——提供了过渡路径。混合方案限制了改造范围,同时支持AI工作负载。
运营能力
液冷引入了超出传统数据中心管理的运营要求。冷却液质量监测、泄漏检测和专业维护程序需要培训和工具。运营团队需要具备液冷专业知识。
Introl的550名现场工程师网络支持组织实施AI部署的液冷基础设施。14 该公司以三年9,594%的增长率在2025年Inc. 5000榜单中排名第14位。15
覆盖全球257个地点的专业部署确保了液冷最佳实践不受地域限制。16 实施专业知识降低了技术转型期间的风险。
决策框架:按工作负载选择冷却技术
| 机架密度 | 推荐冷却方案 | 投资水平 |
|---|---|---|
| <20 kW | 风冷足够 | 标准HVAC |
| 20-50 kW | 后门式换热器 | 适度改造 |
| 50-100 kW | 直接芯片液冷 | 重大基础设施投入 |
| >100 kW | 浸没式冷却 | 专用设施 |
可行步骤: 1. 审计当前密度:测量实际与潜在机架功耗 2. 预测GPU路线图:规划3年内密度提升2-3倍 3. 评估设施限制:评估改造可行性与新建方案 4. 建立运营专业知识:在部署前培训团队掌握液冷运营
技术对比
| 技术 | PUE | kW/机架 | 改造难度 | 最适合场景 |
|---|---|---|---|---|
| 传统风冷 | 1.6-1.9 | <20 | 不适用 | 遗留工作负载 |
| 后门式换热器 | 1.3-1.5 | 20-40 | 低 | 过渡阶段 |
| 直接芯片 | 1.1-1.3 | 50-250 | 中等 | GPU集群 |
| 单相浸没 | 1.03-1.1 | 100-140 | 高 | 最高能效 |
| 两相浸没 | <1.1 | 100-200+ | 高 | 最高密度 |
关键要点
设施规划者须知: - 液冷市场:48.7亿美元(2025年)→ 111亿美元(2030年),年复合增长率17.91% - 风冷在50 kW/机架以上物理上已不足够 - 新建AI设施应从设计阶段就纳入液冷
基础设施团队须知: - 直接芯片:随GPU迭代扩展,针对最热组件 - 浸没式:PUE 1.03-1.1 vs 风冷1.6-1.9(节能30%以上) - 亚太地区增长最快(年复合增长率23.2%),受政府AI计划驱动
采购须知: - Supermicro:250 kW CDU用于Blackwell机架级解决方案 - Submer SmartPod:140 kW/机架,PUE 1.03-1.1 - LiquidStack:产能提升三倍以满足需求
展望
液冷已从新兴技术转变为AI部署的基础设施标配。规划AI基础设施时未考虑液冷能力的组织,随着GPU功率持续增加,将面临部署限制的风险。
液冷的经济和运营优势随着每一代GPU的更新而增强。早期采用者获得了运营经验,避免了在风冷达到硬性极限时的仓促转型。2025年标志着液冷从"可选项"变为AI基础设施"必选项"的一年。
参考文献
分类: 基础设施与冷却 紧迫性: 高——技术转型带来即时规划影响 字数: 约1,800字
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. https://www.datacenterfrontier.com/cooling/article/55292167/liquid-cooling-comes-to-a-boil-tracking-data-center-investment-innovation-and-infrastructure-at-the-2025-midpoint ↩
-
SkyQuest. "Data Center Liquid Immersion Cooling Market Size & Share." 2025. https://www.skyquestt.com/report/data-center-liquid-immersion-cooling-market ↩
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. ↩
-
DataCenters.com. "Why Liquid Cooling Is the Future of Hyperscale Data Centers in 2025." 2025. https://www.datacenters.com/news/why-liquid-cooling-is-becoming-the-new-standard-in-hyperscale-facilities ↩
-
IEEE Spectrum. "Data Center Liquid Cooling: The AI Heat Solution." 2025. https://spectrum.ieee.org/data-center-liquid-cooling ↩
-
TrendForce. "Data Center Power Doubling? Next-Gen Efficiency & Sustainability Guide." 2025. https://www.trendforce.com/insights/data-center-power ↩
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. ↩
-
Grand View Research. "Data Center Liquid Immersion Cooling Market Report." 2025. https://www.grandviewresearch.com/industry-analysis/data-center-liquid-immersion-cooling-market-report ↩
-
IEEE Spectrum. "Data Center Liquid Cooling: The AI Heat Solution." 2025. ↩
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. ↩
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. ↩
-
Data Center Frontier. "Liquid Cooling Comes to a Boil." 2025. ↩
-
Grand View Research. "Data Center Liquid Immersion Cooling Market Report." 2025. ↩
-
Introl. "Company Overview." Introl. 2025. https://introl.com ↩
-
Inc. "Inc. 5000 2025." Inc. Magazine. 2025. ↩
-
Introl. "Coverage Area." Introl. 2025. https://introl.com/coverage-area ↩