改造传统数据中心以支持AI:液冷集成指南
更新于2025年12月8日
2025年12月更新: 改造的紧迫性进一步加剧。现代AI机架现在需要100-200kW的功率(Vera Rubin计划到2026年达到600kW),这使得传统的5-15kW设施更加捉襟见肘。然而,液冷市场在2025年达到55.2亿美元的规模,推动了成本下降和解决方案的标准化。直接芯片冷却占据47%的市场份额,加上混合架构的普及,使改造比以往任何时候都更加可行。目前已有22%的数据中心实施了液冷方案,传统环境的集成模式已有成熟案例可循。
一个设计用于5kW机架的15年老旧数据中心,现在面临着40kW GPU集群的需求,这造成了基础设施危机,迫使组织在5000万美元的新建设施和500万美元的战略性改造之间做出选择。¹ Uptime Institute发现,68%建于2015年之前的企业数据中心缺乏支持现代AI工作负载所需的功率密度和冷却能力,但这些设施中有82%的租约还有10年以上的期限。² 改造的必要性显而易见:组织必须改造现有基础设施,否则就只能放弃宝贵的房地产投资,而竞争对手却在AI部署的赛道上一路领先。
451 Research的研究表明,用液冷方案改造传统设施可以以20%的成本达到新建设施70%的性能。³ 一家制药公司最近将其2008年建成的数据中心改造为支持800块NVIDIA H100 GPU,花费420万美元,而新建同等规模设施则需要3500万美元。改造工程在4个月内完成,而新建则需要18个月。智能改造策略既能保护现有投资,又能实现尖端AI能力,但成功需要仔细评估、分阶段实施,并接受某些局限性。
传统基础设施的限制决定了改造边界
2015年之前建造的数据中心通常支持每机架3-7kW,采用架空地板通过穿孔地砖分配冷空气。⁴ 这种设计假设使用额定功率30-50kW的CRAC机组实现1:1的冷却冗余。配电系统通过30A电路提供208V电压,考虑到开销,将机架容量限制在5kW。这些规格对于每台功耗400W的Dell PowerEdge服务器来说完全够用,但对于每卡需要700W、服务器总功耗达10kW的H100 GPU来说则完全无法满足需求。
结构性限制比冷却或电力限制更难克服。架空地板支撑能力为每平方英尺150磅,但液冷机架超过3000磅。⁵ 地板加固成本为每平方英尺200美元,且需要设施停机。低于12英尺的天花板高度限制了热通道密封选项。为600mm x 1000mm机架优化的柱间距无法实现800mm x 1200mm GPU系统的高效布局。有些设施无论投资多少都根本无法改造。
对于大多数改造项目来说,电力基础设施是最关键的约束条件。一个总容量为2MW、IT负载为1.5MW的设施缺乏GPU部署的余量。在主要市场,公用设施升级需要12-24个月,成本超过每兆瓦200万美元。⁶ 为480V配电设计的变压器需要更换以实现高效的415V运行。额定2000A的开关设备无法满足高密度GPU部署的3000A需求。组织必须在现有电力范围内工作,否则就要面临漫长的升级周期。
评估方法决定改造可行性
从全面的基础设施文档开始评估:
电力系统审计:绘制从公用设施入口到机架PDU的完整电力路径。记录变压器容量,注明使用年限和维护历史。验证开关设备额定值,包括故障电流能力。计算每个配电级别的可用容量,而不仅仅是设施总功率。识别低效配电造成的闲置容量,改造可以重新利用这些容量。
冷却系统分析:测量实际冷却能力与铭牌数据的差异,因为15年的老设备通常只能以70%的效率运行。⁷ 使用计算流体动力学绘制气流模式图,识别回流区域。记录冷冻水温度、流量和泵送能力。评估冷却塔在夏季高峰条件下的性能。计算无需基础设施升级可用的最大热量排放能力。
结构评估:聘请结构工程师评估整个设施的楼板承载能力。识别无法为液冷管道进行改造的承重墙。验证天花板高度和密封系统的净空间。记录限制设备放置的柱子位置。分析重型液冷机架的抗震加固要求。
网络基础设施审查:验证指定用于GPU部署区域之间的光纤连接。记录可用于InfiniBand网络的暗光纤。评估额外高带宽连接的线缆桥架容量。识别有足够空间用于GPU集群交换的会面室。规划保持400G连接适当弯曲半径的线缆路由。
Introl的评估团队已在我们的全球覆盖区域评估了500多个传统设施,开发了预测改造成功概率的标准化评分系统。⁸ 在我们的100分制评分系统中得分超过70分的设施,90%能够成功完成改造。低于50分的设施应考虑新建。2.5万至5万美元的评估投资可以避免数百万美元的改造失败损失。
现有设施的液冷集成策略
三种主要方法可在传统设施中实现液冷:
后门热交换器(RDX):最小侵入性的选择是在机架门上安装冷却盘管,在热量进入房间之前将其捕获。安装无需地板改造,管道工程量极少。每扇门使用设施冷冻水可处理15-30kW的热量排放。包括安装在内,每机架成本为8,000-15,000美元。⁹ 这种方法适用于冷冻水容量充足但缺乏新冷却设备安装空间的设施。
列间冷却机组:模块化机组占用现有机架排中的机架位置,为40-100kW负载提供定向冷却。机组通过柔性软管连接到设施冷冻水系统,软管可架空或穿过架空地板铺设。每台机组成本为20,000-35,000美元,需要牺牲一个机架位置。¹⁰ 该解决方案适合有可用机架空间但房间级冷却不足的设施。
直接芯片冷却:最有效但也最复杂的方法是通过冷板将液体直接送到处理器。实施需要安装CDU、部署分配歧管和大量管道。每机架成本达50,000-80,000美元,但可实现60kW以上的密度。¹¹ 设施需要有足够的机械空间安装CDU,以及可供冷却液分配的可通行路径。
分阶段改造实施最大限度减少中断
第一阶段:基础设施准备(第1-3个月) 在机械空间安装冷却分配单元,连接到现有冷冻水系统。通过可通行路径铺设主冷却液回路,避开生产区域。在可能的情况下升级配电系统而不中断运营。部署监控系统以建立当前性能基线。为每个生产工作负载制定详细的迁移计划。
预算:10机架部署约500,000-1,500,000美元 停机时间:如果规划得当,零停机
第二阶段:试点部署(第4-5个月) 选择2-3个机架进行初始液冷转换,最好包含开发工作负载。严格按照供应商规格安装所选冷却技术。仔细调试系统,测试故障场景和冗余。持续监控温度、压力和流量。记录经验教训以用于更大规模部署。
预算:150,000-300,000美元 停机时间:切换期间每机架4-8小时
第三阶段:生产迁移(第6-12个月) 分批转换生产机架,每批5-10个,以保持运营稳定性。在维护窗口期间安排迁移,以最大限度减少业务影响。逐排实施液冷以简化管道铺设。为无法迁移的传统设备保留空气冷却。根据实际负载优化冷却液温度和流量。
预算:每机架100,000-150,000美元 停机时间:规划得当时每机架2-4小时
第四阶段:优化(第13-18个月) 提高冷冻水温度以提高冷水机效率并实现自然冷却。根据实际气流模式调整密封策略。实施变流量控制以使冷却与IT负载匹配。退役不必要的CRAC机组以减少寄生损失。使用机器学习微调控制算法。
预算:200,000-400,000美元 停机时间:无需
财务分析证明改造投资的合理性
全面的TCO分析揭示了令人信服的改造经济效益:
改造投资明细(20机架GPU集群): - 基础设施评估:40,000美元 - 液冷设备:1,200,000美元 - 安装和调试:400,000美元 - 配电升级:600,000美元 - 结构改造:300,000美元 - 项目管理:200,000美元 - 应急预算(20%):548,000美元 - 总投资:3,288,000美元
替代方案新建成本: - 土地购置:2,000,000美元 - 建筑施工:8,000,000美元 - 电力基础设施:3,000,000美元 - 冷却系统:2,000,000美元 - 网络连接:500,000美元 - 调试:500,000美元 - 新建总成本:16,000,000美元
改造带来的运营节省: - PUE从1.8改善到1.3:每年节省420,000美元 - 避免新空间租赁成本:每年节省800,000美元 - 新设备减少维护费用:每年节省150,000美元 - 效率改进的公用事业激励:一次性200,000美元 - 年度总节省:1,370,000美元 - 简单投资回收期:2.4年
真实改造成功案例
金融服务公司(纽约) 挑战:2010年建成的3MW设施需要支持AI交易系统 解决方案:在30个机架上部署后门热交换器,升级至415V供电 投资:280万美元 成果:每机架密度从7kW提升至25kW,PUE从1.75改善至1.35 时间线:从评估到全面投产6个月
医疗系统(波士顿) 挑战:2005年数据中心需要GPU容量支持医学影像AI 解决方案:为15个GPU机架实施列间冷却,传统系统保留空气冷却 投资:190万美元 成果:部署480块A100 GPU无需新建设施,节省1200万美元 时间线:4个月实施,零停机
制造企业(底特律) 挑战:传统设施无法支持需要H100 GPU的数字孪生仿真 解决方案:8个高密度机架采用直接芯片冷却,进行结构加固 投资:120万美元 成果:实现每机架45kW密度,设施寿命延长10年 时间线:包括结构工程在内8个月
风险缓解策略防止改造失败
防止供应商锁定:选择使用OCP规范等开放标准的冷却技术。避免造成依赖性的专有冷却液配方。设计可接受多家制造商设备的系统。维护详细文档以便供应商过渡。为设施生命周期内潜在的技术变更预留预算。
容量规划缓冲:预留20%的冷却和电力容量用于未来增长。设计可实现增量扩展的模块化系统。为预期增长预装管道等基础设施。监控利用率趋势以触发扩展规划。与公用事业提供商保持关系以获得容量增加。
**运营连续性
[内容因翻译而截断]