构建100kW+GPU机架:配电与冷却架构
更新于2025年12月8日
2025年12月更新: 100kW机架如今已成为标准配置,而非远大目标。NVIDIA GB200 NVL72系统的运行功率达到每机架120kW,而Vera Rubin NVL144预计到2026年将达到每机架600kW。机架密度已从40kW攀升至130kW,预计到2030年可能达到250kW。当前规划100kW部署的组织必须为2-5倍的密度增长做好前瞻性准备。
单个100kW机架的耗电量相当于80户美国家庭,散热量等同于30台家用暖炉,重量超过三辆丰田凯美瑞。¹ 然而,全球各组织仍争相构建这些庞然大物,因为现代AI训练需要前所未有的计算密度。这些工程挑战打破了过去三十年数据中心设计的所有既定假设。
微软最新的Azure设施将100kW机架作为标准配置部署,而非实验性方案。² CoreWeave围绕120kW机架规格构建整个数据中心。³ Oracle Cloud Infrastructure在其下一代区域中正朝着150kW密度迈进。⁴ 当各组织发现有竞争力的AI能力需要极高密度或极大占地面积时,传统的5-10kW机架设计显得相形见绌。
AI基础设施的数学原理使100kW+机架成为必然。一台NVIDIA DGX H100系统的八块GPU功耗为10.2kW。⁵ 即将推出的DGX B200每节点功耗将达14.3kW。⁶ 堆叠八个节点构成有意义的训练集群,功耗在考虑网络设备之前就已超过100kW。无法构建这些机架的组织将无法在大语言模型开发、药物研发或自动驾驶车辆训练领域参与竞争。
配电架构突破传统极限
传统数据中心通过30安培电路分配208V三相电力,降容后每机架约可提供10kW。一个100kW机架需要十条独立电路,会造成违反所有整洁设计原则的铜线混乱局面。仅电流量就带来了难以克服的挑战:在208V下传输100kW需要480安培,这要求使用比棒球棍还粗的电缆。
现代100kW部署必须采用415V或480V配电以降低电流需求。在480V三相电下,100kW仅需每电路120安培,使用4/0 AWG导体即可管理。⁷ 欧洲设施因标准415V配电而占据优势,这解释了为何许多超大规模企业优先在北欧部署高密度基础设施。北美设施需要升级变压器和开关设备,每兆瓦改造成本增加50万至100万美元。⁸
对于100kW机架,电力分配单元(PDU)已演变为复杂的电力管理系统。Raritan的PX4系列可智能管理60个插座,提供高达130kW的功率,具备单插座监控和远程切换功能。⁹ Server Technology的HDOT PDU提供415V输入,并在双馈电之间自动转换切换,确保在电网事件期间持续运行。¹⁰ 每个PDU成本为15,000-25,000美元,大多数100kW机架需要两个以实现冗余。
母线槽系统成为优于传统电缆配电的替代方案。Starline Track Busway通过架空导体在415V下传输1,600安培,支持从单一馈电为多个100kW机架供电。¹¹ 安装成本达每线性英尺1,000美元,但无需重新布线即可重新配置电力接入点的灵活性,在设施生命周期内可节省数百万美元。西门子的Sentron母线槽系统包含集成监控功能,可跟踪电能质量并通过谐波分析预测维护需求。¹²
直流配电消除了多个转换阶段,这些阶段会浪费10-15%的输送电力。劳伦斯伯克利国家实验室证明,380V直流配电可将数据中心总能耗降低7%,同时提高可靠性。¹³ Open Compute Project规范详述了直接向服务器主板提供48V直流配电的方案,消除了产生热量和占用宝贵机架空间的电源。¹⁴ Facebook的Prineville设施完全采用直流配电运行,尽管计算密度极高,仍实现了1.07的PUE。¹⁵
冷却架构要求芯片级液冷
风冷在每机架50kW以上时在物理上变得不可能。热力学规律不可违背:移除100kW热量需要在20°F温升条件下移动35,000立方英尺/分钟(CFM)的空气。¹⁶ 这样的气流会在冷通道中产生飓风级别的风速,字面意义上会把技术人员吹倒。即使能移动这么多空气,仅风扇功耗就会消耗15-20kW,违背了效率目标。
后门热交换器(RDHx)为50-75kW密度提供过渡性冷却解决方案。Motivair的ChilledDoor设备通过门装散热器中的冷冻水循环,每机架可移除高达75kW的热量。¹⁷ CoolIT Systems的CHx750通过可根据热负载自适应的变速风扇实现类似容量。¹⁸ 该技术有效,但100kW+密度会压垮即使是最先进的RDHx设计。所需的温差会产生威胁设备可靠性的冷凝风险。
对于真正的100kW+部署,直接液冷到冷板成为必需。Asetek的InRackCDU以25°C的温度将冷却液直接输送到CPU和GPU冷板,每机架可移除高达120kW的热量。¹⁹ 该系统即使在最大负载下也能将芯片温度维持在70°C以下,而风冷时温度为85-90°C。较低的工作温度降低了漏电流,在冷却节省之外额外提高3-5%的能效。²⁰
浸没式冷却代表了极高密度的终极解决方案。Submer的SmartPodX将整台服务器浸入介电液中,在仅2.4平方米的占地面积内处理100kW。²¹ GRC的ICEraQ Series 10每槽支持高达368kW,尽管实际部署很少超过200kW。²² 无风扇设计消除了10-15%的服务器功耗,同时通过消除机械组件将故障率降低70%。²³
两相浸没式冷却进一步突破极限。3M的Fluorinert液体在精确控制的温度下沸腾,相变过程吸收巨大热量。²⁴ 蒸汽上升到冷凝器后回到液态,形成无需泵的被动循环系统。微软的Project Natick项目证明,两相冷却在250kW/m²的热通量下仍能保持35°C的稳定芯片温度。²⁵ 该技术仍处于实验阶段,但物理原理表明它可以处理500kW+每机架。
结构工程面对巨大负载
一个满载的100kW机架重达6,000-8,000磅,集中在仅10平方英尺的面积上。²⁶ 额定承载250磅/平方英尺的标准架空地板会在这种负载下坍塌。重量不仅来自服务器:仅铜缆就增加500-800磅,冷却液增加200-300磅,机架结构本身重500-1,000磅。地震带还面临额外挑战,因为8,000磅的摇晃质量在地震期间可能摧毁相邻设备。
无架空地板部署消除了架空地板的限制,但带来了新的挑战。混凝土必须加固以在最小变形下承受1,000+ PSF的负载。²⁷ 采用环氧涂层钢筋的后张法混凝土可防止可能损害结构完整性的开裂。板厚增加到12-18英寸,而传统数据中心为6-8英寸。仅基础工程就使建设成本每平方英尺增加50-75美元。²⁸
结构钢框架将负载分散到更大的区域。Introl设计定制钢平台,将100kW机架负载分散到40平方英尺,将点载荷降低到可管理的水平。框架包括集成电缆桥架、冷却液歧管和维护平台。模块化设计使安装无需设施停机,这对改造项目至关重要。每个框架成本为25,000-35,000美元,但可防止造成数百万美元损失的灾难性地板故障。
顶部支撑系统完全消除地板负载。Facebook的数据中心将服务器悬挂在天花板安装的轨道上,电力和冷却从上方输送。²⁹ 这种方法需要18-20英尺的天花板高度,但能为维护提供无限制的地板访问。Chatsworth Products的Evolution Cable Management系统可从顶部结构支撑每线性英尺500磅,足以承受最重的电力和冷却液分配。³⁰
在地震带,抗震隔离变得至关重要。WorkSafe Technologies的ISO-Base平台使用滚珠轴承隔离在地震事件期间保护设备。³¹ 该平台允许12英寸的水平移动同时保持垂直稳定性。每个平台支撑10,000磅,成本为15,000-20,000美元,但保险公司越来越多地要求在加利福尼亚、日本和其他活跃地震带为高价值计算设备提供抗震保护。
线缆管理呈指数级复杂化
一个承载64块GPU的100kW机架需要超过500根线缆:128条InfiniBand连接、64条管理网络线缆、96条电源线缆,以及数十条传感器和控制连接。每根InfiniBand线缆根据长度和数据速率成本为500-1,500美元。³² 每机架的线缆总成本接近100,000美元,而管理不善会破坏气流和可维护性。
高速信号需要精确的线缆布线以保持信号完整性。运行在200Gbps的InfiniBand HDR容忍的差分对长度失配不超过3英寸。³³ 弯曲半径必须超过线缆直径的10倍,以防止导致误码的阻抗变化。Introl使用激光测量系统验证线缆长度在1mm公差范围内,记录每个连接以便将来故障排查。
线缆重量带来意想不到的挑战。五百根线缆每根重2-3磅,为机架基础设施增加1,000-1,500磅。重量导致机架门下垂,使其难以打开。垂直线缆管理器必须加固以防止坍塌。Panduit的Net-Verse机柜包括额定承载2,000磅的集成线缆管理,每1U有可调节指片以保持正确布线。³⁴
光纤线缆减轻重量但引入脆弱性问题。单个400G光模块成本为2,000-4,000美元,连接它们的光纤线缆容易损坏。³⁵ 单模光纤的最小弯曲半径增加到线缆直径的20倍。技术人员需要专业培训才能在不造成降低信号质量的微弯的情况下处理光纤。清洁连接变得至关重要,因为单个灰尘颗粒可导致50%的信号损失。
线缆生命周期管理防止昂贵的停机。每根线缆都需要文档记录,包括安装日期、测试结果和维护历史。Introl在每根线缆上部署RFID标签,使用手持扫描仪即可即时识别。我们的线缆管理数据库跟踪全球部署中的5000万个独立连接。预测分析基于弯曲半径违规、温度暴露和使用年限识别接近故障的线缆。
冗余架构确保持续运行
在100kW规模下,单点故障变得灾难性。PDU故障会导致价值500万美元的GPU崩溃。冷却泵故障会在60秒内导致热关机。当故障影响乘以10倍时,传统的N+1冗余被证明不足。现代100kW部署需要电力和冷却的2N冗余,接受50%的闲置容量作为防止停机的保险。
电力冗余从公用设施入口开始,采用来自独立变电站的双馈电。自动转换开关(ATS)在两者之间无缝切换
[内容因翻译而截断]