AI 的 UPS 与配电系统:设计弹性 2N+1 基础设施
更新于 2025 年 12 月 8 日
2025 年 12 月更新: AI 机架功率密度现已达到 100-130kW 标准配置(配合 GB200 NVL72)。PDU 需求已超过每机架 100kW,采用 415V 配电。UPS 效率至关重要,因为电力成本在 TCO 中占主导地位。锂离子 UPS 采用率加速提升(占地面积减少 40%)。母线槽正在取代电缆用于大电流配电。针对 GPU 功耗特性,功率因数校正已成为强制要求。
Meta 数据中心一次仅 47 秒的电力中断造成了 6500 万美元的损失——10,000 个正在进行分布式训练的 GPU 失去同步,导致三周的模型进度损坏。现代 AI 基础设施要求电力可靠性超过 99.9999% 的正常运行时间——即每年中断时间不超过 31 秒。每个 H100 GPU 消耗 700W,完整集群功耗超过 10MW,配电架构决定了组织能否实现突破性的 AI 能力,还是遭受灾难性故障。本综合指南探讨如何设计 UPS 和配电系统,以保护大规模 GPU 投资,同时优化效率和成本。
电力架构基础
2N+1 冗余架构为关键 AI 基础设施提供了黄金标准,将完全冗余与额外的维护容量相结合。"2N"组件提供两条完整、独立的电力路径,从市电入口到 GPU,确保任一路径完全故障时系统仍能继续运行。"+1"增加了并行维护容量,使维修期间不会降低冗余度。该架构实现 99.9999% 的可用性,对于停机成本超过每分钟 10 万美元的工作负载至关重要。Google 的 TPU 集群实施 2N+1 架构,在 100MW 的基础设施中,每年与电力相关的停机时间仅为 8 秒。
AI 基础设施的功率密度挑战远超传统数据中心的要求。现代 GPU 机架消耗 40-100kW,而传统 IT 设备仅为 5-10kW。NVIDIA 的 DGX H100 系统每个节点需要 10.2kW,每机架八个节点需要 82kW,加上网络开销。配电必须同时处理稳态负载和 GPU 加速周期期间的瞬态峰值。Microsoft 的 Azure AI 基础设施部署专用 PDU(配电单元),额定 415/240V 三相电源,每机架提供 96kW,并为功率波动预留足够裕量。
等级分类定义了可靠性级别及相应的基础设施要求。Tier III 设施提供 N+1 冗余,实现 99.982% 的可用性。Tier IV 设施实施 2N 冗余,达到 99.995% 的可用性。然而,AI 工作负载通常需要超越传统定义的"Tier IV+"标准。这些增强标准包括更快的切换时间、更严格的电压调节和更优越的谐波滤波。OpenAI 的训练基础设施实施 Tier IV+ 标准,并针对 GPU 特定要求进行了定制修改。
负载计算必须考虑 GPU 特定特性,而非仅依赖铭牌额定值。功率因数校正变得至关重要,因为 GPU 负载呈现 0.95-0.98 的功率因数。冷启动时的涌入电流可达运行电流的 150%,持续 100-200 毫秒。动态频率调节导致功率在几秒内变化 20%。多样性因子接近 1.0,因为所有 GPU 通常在训练期间同时运行。准确的负载建模通过适当的容量规划,在 Anthropic 避免了 23 次电力基础设施故障。
配电拓扑影响可靠性和效率。放射式系统提供简单、经济的配电,但会产生单点故障。一次选择系统允许在电源之间手动切换。二次选择系统自动化切换但增加了复杂性。网络系统通过多路径提供最高可靠性。Meta 的基础设施使用带自动切换的二次选择系统,在市电故障期间实现亚周期切换。
UPS 系统设计与选型
电池技术选择从根本上影响 UPS 性能和生命周期成本。VRLA(阀控式铅酸)电池在 25°C 下提供经过验证的可靠性,寿命 3-5 年。锂离子电池提供 10 年寿命、70% 更小的占地面积和更快的充电速度,但初始成本高 3 倍。镍锌电池在性能和成本之间取得平衡,寿命 7 年。飞轮为短时备用提供 20 年寿命且维护最少。Amazon 的数据中心越来越多地部署锂离子电池,通过降低更换频率和提高效率实现与 VRLA 的 TCO 平衡。
运行时间计算根据关键负载支持要求确定电池容量。AI 基础设施通常需要 10-15 分钟的运行时间,以便发电机启动和同步。电池容量必须考虑老化因素,80% 的寿命末期容量是标准配置。温度降额在 40°C 时比 25°C 额定容量减少 50%。20% 的负载增长储备适应扩展。这些因素通常使初始电池需求翻倍。LinkedIn 的 UPS 系统在 100% 负载时提供 12 分钟,75% 负载时提供 18 分钟,确保足够的发电机切换时间。
模块化 UPS 架构实现可扩展性和维护灵活性。热插拔电源模块允许在不停机的情况下增加容量。每个 UPS 内的 N+1 模块冗余在模块故障期间保持可用性。通过模块化实现正确容量配置,提高部分负载效率。分布式模块系统将较小的 UPS 单元放置在更靠近负载的位置。Schneider Electric 的 Galaxy VX 通过模块化架构实现 97% 的效率,减少 40% 的冷却需求。
双变换在线式拓扑为敏感的 GPU 负载提供卓越的电能质量调节。输入整流器将交流电转换为直流电,为电池充电并供给逆变器。逆变器生成与市电干扰隔离的纯净交流输出。静态旁路可在不中断的情况下进行维护。需要时,输出变压器提供电气隔离。该拓扑滤除谐波、校正功率因数,并将电压调节在 ±1% 以内。NVIDIA 认证的 UPS 系统将 THD 保持在 3% 以下,这对 GPU 稳定性至关重要。
效率优化显著降低运营成本和冷却需求。ECO 模式以旁路方式运行,仅在事件期间切换到双变换,实现 99% 的效率。然而,切换时间和降低的滤波能力使 ECO 模式不适合 GPU 负载。可变模块管理系统停用不需要的模块,提高部分负载效率。优化的电池浮充减少损耗。高效 UPS 系统每 MW 每年可节省 5 万美元的电费。Google 的定制 UPS 设计在典型负载下实现 97.5% 的效率。
PDU 配置与管理
智能 PDU 在机架级别提供精细的电力监控和控制。分支电路监控跟踪单个电路负载,防止过载。插座级开关可远程重启特定设备的电源。环境监控集成温度和湿度传感器。网络连接实现集中管理和告警。这些功能通过早期检测电力异常,在 CoreWeave 防止了 47 起热事件。
三相配电在最大化容量的同时最小化铜材需求。415/240V 星形配置使用标准组件可为每机架提供 100kW 以上。三角形配置提供更高的线电压但使接地复杂化。相位平衡变得至关重要,因为不平衡负载会降低容量并产生中性线电流。自动相位选择 PDU 动态平衡负载。适当的相位管理使现有 Facebook 设施的供电容量提高了 15%。
电路保护协调确保选择性跳闸,在不引起级联故障的情况下隔离故障。上游断路器必须允许下游设备首先清除故障。时间-电流协调研究验证整个配电层级的选择性。电弧闪光缓解通过限流降低事故能量。接地故障保护防止设备损坏和人员危险。全面的协调在 Microsoft 89% 的电气故障期间防止了级联故障。
计量精度实现精确的容量规划和成本分摊。营收级仪表实现 0.5% 的计费精度。电能质量分析仪捕获谐波、瞬变和电压骤降。波形捕获为电力事件提供故障分析。与 DCIM 系统集成实现全面的能源管理。精确的计量通过更好的利用率在 Uber 识别出了 300 万美元的闲置电力容量。
冗余 PDU 配置消除机架级别的单点故障。双电源设备连接到来自不同电源的独立 PDU 馈线。自动转换开关为单电源设备提供冗余。PDU 之间的负载平衡防止故障期间过载。同步切换防止切换期间的相位冲突。这种冗余使 Scale AI 在两年内实现了零电力相关 GPU 故障。
发电机集成与同步
发电机容量必须适应 GPU 基础设施的阶跃负载特性。阶跃负载承受能力通常达到发电机额定容量的 50-70%。N+1 配置的多台发电机提供冗余和负载分担。并联的 2MW 发电机可扩展以满足 10MW 以上的需求。25% 的超额配置适应未来增长和性能衰退。负载组测试在调试前验证性能。Tesla 的 Dojo 设施运营十二台 2.5MW 发电机,以 N+2 冗余提供 25MW。
同步系统确保市电和发电机电源之间的无缝切换。闭合转换切换防止瞬间中断,保持 GPU 运行。同步检查继电器在并联前验证相位、频率和电压匹配。负载分担控制平衡多台发电机,防止过载。软加载逐渐转移负载,防止瞬变。先进的同步技术使 Oracle GPU 集群的切换中断减少了 95%。
燃料系统需要精心设计,以确保灾难期间的长时间运行。大容量存储在满载情况下提供 48-72 小时的运行时间。发电机附近的日用油箱满足即时需求。冗余燃油泵和过滤系统防止单点故障。自动化燃料管理监控消耗并安排交付。云服务提供商维护燃料合同,保证紧急情况下的优先交付。Amazon 的燃料系统支持 96 小时运行时间,每 24 小时有合同加油保障。
并联开关设备协调多个电源之间的复杂交互。可编程逻辑控制器管理切换序列和保护。负载优先级方案卸载非关键负载以保护 GPU 运行。自动同步实现无缝电源切换。故障隔离防止单一故障影响整个系统。这种复杂性需要复杂的调试和维护。正确配置的并联设备去年在 Meta 防止了 31 次潜在停机。
排放合规越来越多地限制城市地区的发电机部署。Tier 4 Final 发动机减少 90% 的 NOx 排放,但成本增加 40%。选择性催化还原系统需要尿素存储和喷射。柴油颗粒过滤器需要定期再生循环。在未达标地区可能需要连续排放监测。天然气等替代燃料减少排放但影响响应时间。加州数据中心越来越多地使用燃料电池,完全避免排放限制。
谐波缓解与电能质量
GPU 负载产生
[内容因翻译而截断]