每机架40-250kW:极高密度数据中心解决方案

现代AI需要每机架40-250kW的功耗,而传统冷却方案在15kW时就会失效。了解极高密度基础设施部署的工程解决方案。

每机架40-250kW:极高密度数据中心解决方案

五年前建造的数据中心很难为每机架10kW的负载进行冷却。如今的AI工作负载至少需要40kW,而下一代部署的目标是250kW。现有基础设施与现代需求之间的差距造成了一个价值1000亿美元的问题,而巧妙的工程设计可以解决这个问题。

NVIDIA的GB200 NVL72系统在单机架配置中消耗140kW功率。¹ Microsoft最新的Azure部署经常达到每机架50kW。² Google在其TPU集群中推行60kW的密度。³ 为昨日云计算提供动力的基础设施无法处理明日的AI需求,组织面临一个严峻的选择:从头重建或设计创造性的解决方案来弥合差距。

极高密度冷却的物理学原理

传统的架空地板空气冷却在超过每机架15kW时会彻底失效。热空气回流可能造成热失控状况,温度会螺旋式失控。单个40kW机架产生的热量相当于14台住宅用电暖器持续运行。将八个这样的机架排成一行,你就需要管理相当于一栋小型办公楼的热输出,而这些热量被压缩在200平方英尺的空间内。

工程师通过三种基本方法解决极高密度挑战。直接液体冷却将冷却剂直接输送到热源,通过后门热交换器或冷板每机架移除30-40kW的热量。浸没式冷却将整个系统浸泡在绝缘液体中,处理50-100kW的密度,同时消除了风扇的需求。混合方法结合多种技术,对GPU使用液体冷却,同时为低密度组件保持空气冷却。

数学原理明显支持液体冷却。水的传热系数超过空气3,500倍。⁴ 一加仑水可以移除与3,000立方英尺空气相同的热量。液冷系统实现1.02-1.10的电力使用效率(PUE)评级,而传统空气冷却为1.4-1.8。⁵ 在10MW设施中,PUE每改善0.1就能年节约约100万美元。⁶

大规模电力分配挑战成倍增长

向单个机架提供250kW电力需要对电力基础设施进行根本性重新设计。传统208V电路需要1,200安培的连接——比人的手臂还粗的电缆线路。现代设施部署415V或480V配电以降低电流需求,但即使这些系统也需要大量铜材投资。单个250kW机架需要的电力基础设施相当于50个典型家庭的需求。

Introl的现场工程师经常遇到试图将5kW设计改造为40kW负载的设施。断路器经常跳闸。变压器过热。配电单元在从未设计承受的负载下故障。组织往往发现其建筑物的总电力容量无法支持多个高密度机架,迫使进行昂贵的公用设施升级,需要18-24个月才能完成。

巧妙的电力设计从尽可能使用DC配电开始。直流电消除了在传统AC系统中浪费10-15%电力的转换损耗。⁷ Facebook的开放计算项目证明,DC配电减少20%的总功耗,同时提高可靠性。⁸ 现代GPU系统越来越支持直接DC输入,消除了产生热量并降低效率的多个转换阶段。

机械基础设施需要完全重新构想

标准数据中心地板支持每平方英尺150-250磅。满载的250kW机架重量超过8,000磅,集中在仅10平方英尺的空间内。⁹ 地板加固变得强制性,每机架增加50,000-100,000美元的结构升级成本。地震区面临额外挑战,需要专门的隔震系统来防止地震期间设备损坏。

液体冷却带来新的机械复杂性。冷却剂分配需要传统设施缺乏的泵、热交换器和过滤系统。1MW液冷部署需要每分钟400-500加仑的冷却剂流量。¹⁰ 泄漏检测变得至关重要——单次冷却剂泄漏可在几秒钟内摧毁价值数百万美元的设备。Introl部署三重冗余泄漏检测,配备在检测到湿度后100毫秒内激活的自动关断阀。

仅管道基础设施就代表了巨额投资。铜管安装成本为每英尺30-50美元。¹¹ 单排液冷机架需要500-1,000英尺的供应和回流管道。歧管、阀门和连接点每机架增加20,000-30,000美元。机械基础设施的成本往往超过其支持的计算设备。

网络架构适应密度要求

极高密度计算需要前所未有的网络带宽。每个NVIDIA H100 GPU需要400Gbps的网络连接才能达到最佳性能。¹² 一个8-GPU服务器需要3.2Tbps的聚合带宽——超过五年前许多整个数据中心的消耗。传统的机架顶部交换架构难以满足这些要求。

高密度部署推动了分解式网络架构的采用。脊叶拓扑无论流量模式如何都提供一致的延迟和带宽。硅光子学实现了铜缆无法达到的800 Gbps和1.6 Tbps连接。¹³ Introl的部署越来越多地使用直连铜缆(DAC)进行3米以下的连接,使用有源光缆(AOC)进行较长距离连接,优化成本和功耗。

在极高密度下,电缆管理变得出人意料地复杂。40-GPU机架需要超过200根电缆用于电力、网络和管理。每根电缆通过电阻产生热量。糟糕的电缆管理限制气流,产生触发热节流的热点。Introl的工程师将20-30%的安装时间专门用于电缆管理,使用专门的布线系统,在最大化冷却效率的同时保持适当的弯曲半径。

地理约束塑造部署策略

新加坡在全球密度采用方面领先,新设施从第一天开始就设计为每机架50-100kW。¹⁴ 土地稀缺推动垂直扩展和每平方英尺最大计算能力。政府激励措施通过减税和加快许可来支持液体冷却的采用。Introl的亚太地区业务使我们处于这一转型的中心,拥有了解区域要求和法规的本地工程师。

北欧市场利用寒冷气候获得免费冷却优势。斯德哥尔摩的数据中心利用寒冷的波罗的海水进行散热,全年PUE低于1.10。¹⁵ 挪威设施结合水力发电和自然冷却创造了世界上最高效的AI基础设施。Introl管理利用这些地理优势的部署,同时保持全球连接标准。

水资源可用性越来越决定部署位置。液体冷却系统每千瓦冷却能力消耗0.1-0.2加仑/分钟。¹⁶ 10MW设施需要1,000-2,000加仑/分钟——足以每五小时填满一个奥运会游泳池。沙漠地区面临空气冷却效率低下和水资源稀缺之间的不可能选择。有远见的组织现在在选择数据中心位置时将水权与电力可用性一并评估。

经济模型驱动采用决策

极高密度基础设施的商业案例取决于工作负载特征。连续运行数周的AI训练工作负载证明任何提高效率的投资都是合理的。在为期一个月的训练运行中,1%的性能改进节省7.2小时的计算时间。按H100实例每GPU小时40美元计算,看似微小的优化产生巨大回报。¹⁷

资本支出(CapEx)比较有利于传统基础设施,但运营支出(OpEx)讲述了不同的故事。液体冷却比空气冷却减少30-40%的功耗。¹⁸ 1MW部署仅在电费方面每年就节省400,000-500,000美元。¹⁹ 减少机械磨损将设备寿命延长20-30%,延迟更换成本。²⁰ 更高密度在现有设施中实现更多计算,避免平均每兆瓦1000-1500万美元的新建设成本。²¹

总拥有成本(TCO)模型必须考虑机会成本。无法部署高密度基础设施的组织相对于那些能够部署的组织失去竞争优势。如果没有优化的基础设施,OpenAI的GPT训练运行将需要10倍的时间。²² 每机架40kW和100kW之间的差异决定了模型是在几周还是几个月内训练完成。市场领导地位越来越取决于传统指标无法捕捉的基础设施能力。

运营复杂性需要新的专业知识

管理极高密度基础设施需要传统数据中心团队缺乏的技能。液体冷却系统需要IT部门很少具备的管道专业知识。技术人员必须了解流体力学、压差和冷却剂化学。单个参数配置错误可能导致灾难性故障——压力过大可能爆裂连接,而压力过小可能导致泵汽蚀。

Introl通过为我们550名现场工程师提供专门的培训计划来解决专业知识差距。团队学习诊断冷却剂流量问题、对冷却分配单元进行预防性维护并响应泄漏事件。认证计划涵盖不同冷却技术的制造商特定要求。区域团队通过我们的全球知识库分享最佳实践,确保所有257个地点的服务质量一致。

监控系统产生比传统基础设施多10到100倍的数据。每个机架产生数千个遥测点,涵盖温度、压力、流量、功耗和组件健康状况。机器学习算法识别预测故障发生前的模式。Introl的运营团队使用预测分析在计划停机窗口期间安排维护,为关键AI工作负载实现99.999%的可用性。

未来技术进一步推动边界

下一代GPU将需要更加极端的基础设施。NVIDIA的路线图显示到2027年每GPU功耗为1,500-2,000W。²³ AMD的MI400系列目标类似的功耗。²⁴ Cerebras晶圆级引擎已经在单个单元中消耗23kW。²⁵ 明天的基础设施必须处理今天看似不可能的密度。

两相浸没式冷却成为极高密度的终极解决方案。绝缘液体在精确控制的温度下沸腾,提供等温冷却,将组件保持在最佳工作点。从液体到蒸汽的相变吸收巨大的热量——每机架高达250kW。²⁶ 美国能源部资助两相冷却在百万兆级计算系统中的研究。²⁷

小型模块化反应堆(SMR)可以消除电网功率约束。超大规模云服务商探索将核电与数据中心共址,以可预测的成本提供无碳电力。单个300MW SMR可以为3,000个100kW机架供电——足以支持24,000个GPU。²⁸ 监管批准仍然具有挑战性,但在足够大的规模下经济学变得令人信服。

前进之路需要立即行动

今天构建AI基础设施的组织面临决定未来十年竞争地位的关键决策。将现有设施改造为40kW密度每机架成本50,000-100,000美元。²⁹ 建设新的100kW能力基础设施每机架成本200,000-300,000美元,但为未来增长提供跑道。³⁰ 错误的选择会在AI工作负载爆发时将组织锁定在过时的基础设施中。

成功的转型从综合评估开始。Introl的工程团队评估现有电力容量、冷却基础设施、结构支撑和网络架构,以确保最佳性能。我们识别限制密度增加的瓶颈,并制定最小化干扰的分阶段升级计划。我们的全球业务使我们能够在客户需要极高密度解决方案的任何地方快速部署专业设备和专业知识。

AI基础设施的赢家将是那些拥抱而非对抗极高密度的组织。每个月的延迟都意味着竞争对手训练模型更快、部署功能更早、首先占领市场。问题不是是否采用高密度基础设施,而是组织能够多快地转型其设施以支持在AI时代定义竞争优势的计算要求。

参考文献

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中