水资源使用效率:无危机的AI数据中心冷却方案

微软正在部署闭环零水蒸发冷却系统——消除蒸发用水,每座设施每年可减少1.25亿升以上的用水量。AI数据中心的冷却用水量是传统服务器农场的10-50倍……

水资源使用效率:无危机的AI数据中心冷却方案

水资源使用效率:无危机的AI数据中心冷却方案

更新于2025年12月11日

2025年12月更新: 微软正在部署闭环零水蒸发冷却系统——完全消除蒸发用水,每座设施每年可减少1.25亿升以上的用水量。AI数据中心的冷却用水量是传统服务器农场的10-50倍。Google设施平均每天用水55万加仑。GPT-3的训练蒸发了70万升淡水。零用水设计正在成为行业发展方向。

微软即将建设的数据中心将采用闭环零水蒸发冷却系统,完全消除对蒸发用水的需求。¹ 该系统在建设时一次性注满冷却液后持续循环,每座设施每年可减少超过1.25亿升的用水量。这一设计代表了AI基础设施应对水资源消耗方式的根本性转变——从接受高用水量转向通过工程手段彻底消除用水。

AI数据中心的冷却用水量是传统服务器农场的10-50倍。² 这一规模引发了切实的可持续性担忧:Google的数据中心平均每座设施每天用水55万加仑,仅GPT-3的训练就蒸发了70万升淡水。³ 建设AI基础设施的组织面临着来自监管机构、社区以及自身可持续发展承诺的多重压力,必须解决水资源消耗问题。了解水资源使用效率(WUE)以及推动零用水冷却的技术,有助于在这一不断演变的领域中把握方向。

理解WUE

绿色网格组织于2011年推出了水资源使用效率(Water Usage Effectiveness)作为数据中心用水量的标准化指标。⁴ 与衡量能源的电源使用效率(PUE)类似,WUE为比较各设施的用水效率提供了基准。

WUE计算方法

WUE衡量的是每千瓦时IT设备能耗对应的用水升数:

WUE = 年度场地用水量(升)/ 年度IT设备能耗(千瓦时)

该公式涵盖所有用水——冷却塔补水、加湿以及其他任何运营用水——与实际提供的计算能力相关联。

计算示例:

设施用水量:5000万升/年
IT能耗:1亿千瓦时/年
WUE = 50,000,000 / 100,000,000 = 0.5 升/千瓦时

WUE基准值

理想WUE:0.0 升/千瓦时 不使用蒸发冷却的风冷设施可以实现零用水。代价是:能耗更高,PUE更差。

行业平均值:1.8-1.9 升/千瓦时 大多数数据中心处于这一范围,使用蒸发冷却以用水换取能源效率。⁵

行业领先水平:0.3-0.7 升/千瓦时 美国国家可再生能源实验室(NREL)的数据中心实现了0.7升/千瓦时的WUE,同时PUE仅为1.06,证明了低WUE无需牺牲能源效率。⁶

地区差异: 微软的WUE因地点而异显著——亚利桑那州为1.52升/千瓦时,而新加坡仅为0.02升/千瓦时。⁷ 气候、水资源可用性和冷却技术都会影响可实现的WUE。

WUE与PUE的权衡

WUE和PUE通常呈反向关系:

风冷: 零用水(WUE = 0)但能耗更高(PUE 1.4-1.8)

蒸发冷却: 高用水量(WUE 1.5-2.5)但能源效率更好(PUE 1.1-1.3)

液冷: 闭环设计用水量极低(WUE接近0),能源效率优异(PUE 1.05-1.2)

液冷打破了传统的权衡关系,能够同时实现低WUE和低PUE——这解释了为何它在AI基础设施中被快速采用。

AI的水资源消耗挑战

AI工作负载因更高的功率密度和持续运行的特点,产生了前所未有的用水需求。

消耗规模

随着AI扩张,超大规模云服务商的用水量急剧增长:

Google: 2023年消耗24,227兆升水——是微软用水量的三倍,且以每年17%的速度增长。⁸

微软: 2023年消耗7,844兆升,其中41%来自水资源紧张地区。全球运营用水近640万立方米,同比增长34%。⁹

行业预测: 预计到2028年用水量将达到每年10,680亿升——是当前水平的11倍。¹⁰

AI特有因素

AI工作负载通过多种机制推动更高的用水量:

功率密度: GPU机架运行功率为50-135千瓦,而传统服务器为10-20千瓦。更高的发热量需要更强的冷却能力。

持续运行: 持续数周或数月的训练任务产生持续的热负荷,没有典型企业工作负载的间歇性空闲期。

推理增长: 生产环境中的AI部署持续运行推理,产生全天候的冷却需求,累积用水量。

单次查询影响: 加州大学河滨分校的研究人员估计,每100词的AI提示大约消耗519毫升水——大约相当于每次交互一瓶水。¹¹

地理集中

在AI基础设施投资密集的地区,水资源压力更加突出:

亚利桑那州: 大型超大规模云服务商集中在沙漠气候和水资源有限的地区。微软亚利桑那设施的WUE为1.52升/千瓦时——在其全球设施中属于最高水平。

俄勒冈州: 数据中心的激增给社区的水资源带来压力,而这些社区的农业和居民用水依赖同一水源。

全球扩张: 超大规模云服务商因在干旱易发地区建设高耗水设施而受到批评,同时又在追求水资源正效益承诺。¹²

冷却技术与用水效率

传统蒸发冷却

蒸发冷却仍是现有数据中心的主流技术:

工作原理: 水在蒸发时吸收热量,将热能从设施转移到大气中。冷却塔持续蒸发水来排出数据中心的热量。

用水量: 蒸发系统根据气候和效率不同,消耗1.5-3.0升/千瓦时。

能源优势: 蒸发冷却减少了压缩机功耗,在适宜气候下可将PUE改善15-30%(相比机械冷却)。

局限性: 高用水量、补水处理需求以及冷却塔的军团菌风险。

风冷替代方案

风冷设施消除了用水但牺牲了能源效率:

机械冷却: 基于压缩机的系统无需水蒸发即可排热。能耗更高(PUE 1.4+)但零用水。

自然冷却: 当室外温度允许时直接使用环境空气。在凉爽气候下有效,但对高密度配置的AI基础设施适用性有限。

最适用于: 水资源紧张地区,水资源保护优先于能源效率考量。

芯片直接液冷

液冷是实现用水和能源双重效率的突破性技术:

工作原理: 冷板直接安装在CPU、GPU、内存模块和电压调节器上。闭环系统使冷却液流经这些冷板,在热量散发到空气之前就在源头将其带走。¹³

用水量: 闭环设计在正常运行中不使用水。系统在建设时一次性注满,然后持续循环。

能源效率: 液冷可实现PUE低于1.2,同时完全消除用水。¹⁴

NVIDIA实现: GB200 NVL72机架级液冷系统的水效率比传统风冷架构高300倍。¹⁵

两相冷却

先进的液冷利用相变实现最高效率:

工作原理: 特制的介电流体(来自霍尼韦尔和科慕等供应商)在低至18°C时沸腾。相变吸收大量热能,提供比单相液冷系统更高效的冷却。¹⁶

无水运行: ZutaCore的HyperCool技术直接在源头带走热量,消除用水并将能耗降低高达82%。¹⁷

安全优势: 介电流体即使泄漏也不会损坏电子设备,不像水基冷却液那样有风险。

浸没式冷却

全浸没式冷却提供极限热密度解决方案:

单相浸没: 服务器浸入通过对流吸收热量的介电流体中。无需用水。

两相浸没: 服务器浸入低沸点流体中,该流体在发热元件附近主动沸腾,提供极高效率的冷却。

采用情况: 微软、Google和Meta都已为最高密度的AI训练基础设施实施了浸没式冷却。

超大规模云服务商的用水策略

微软的水资源正效益之路

微软承诺到2030年实现水资源正效益——在全球运营中补充的水量超过消耗量:¹⁸

零用水冷却部署: 闭环芯片级液冷完全消除蒸发用水。目前正在亚利桑那州凤凰城和威斯康星州芒特普莱森特进行测试,预计2026年投入运营。到2027年底,零水蒸发将成为新数据中心的标准配置。

设施影响: 与蒸发式设计相比,每座零用水设施每年可减少超过1.25亿升的用水量。

补水项目: 在水资源紧张社区的水资源恢复项目抵消现有设施的用水消耗。

2023年表现: 消耗7,844兆升,但其中41%来自水资源紧张地区,凸显了现有基础设施的挑战。

Google的补水承诺

Google承诺到2030年补充其用水量的120%:¹⁹

运营效率: 提高现有设施的冷却效率,降低基准用水量。

流域合作: 与社区和组织合作补充用水并改善流域健康。

技术投资: 通过超越直接运营的技术和创新支持水资源安全。

2023年用水量: 24,227兆升——主要超大规模云服务商中最高,反映了Google数据中心的规模。

Meta的效率聚焦

Meta承诺到2030年实现水资源正效益,重点在运营效率:²⁰

建设实践: 在建设中使用回收水,并实施最佳实践以减少建设用水需求。

设施循环利用: 在设施内多次循环使用水后再排放。

运营效率: 数据中心占Meta大部分用水量,使运营改进成为主要杠杆。

较低基准: 2023年为2,938兆升——显著低于Google或微软,反映了不同的基础设施规模。

AWS的后来者承诺

AWS在2024年re:Invent大会上承诺到2030年实现水资源正效益:²¹

芯片直接液冷采用: AWS直接在芯片上部署冷板并进行闭环循环,消除新AI基础设施带来的用水量增加。

工程流体: 使用特制冷却流体而非水,完全避免蒸发损失。

社区补水: 向社区返还超过直接运营消耗的水量。

运营最佳实践

测量与监控

有效的水资源管理需要全面的测量:

计量基础设施: 为冷却塔、加湿系统和任何其他耗水设备安装分表。月度或年度汇总比每日快照提供更具代表性的WUE。²²

实时监控: 将用水量与温度、湿度和IT负载一起跟踪,以识别优化机会。

基准建立: 在实施改进之前记录当前WUE,以准确衡量影响。

温度和湿度优化

调整环境参数可减少用水量:

提高温度设定值: 每提高

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中