GB200 NVL72 部署:管理液冷配置中的 72 块 GPU

GB200 NVL72 系统于 2024 年 12 月开始向主要云服务商发货,量产在 2025 年第二至第三季度全面铺开。分析师将 2025 年出货量预测修正为 25,000-35,000 个机柜...

GB200 NVL72 部署:管理液冷配置中的 72 块 GPU

GB200 NVL72 部署:管理液冷配置中的 72 块 GPU

更新于 2025 年 12 月 8 日

七十二块 GPU 作为单一计算单元运行,如今已成为生产现实。GB200 NVL72 功耗 120 千瓦,在单个机架中提供 1.4 exaflops 的 AI 算力。¹ 这一架构彻底打破了节点间的传统边界,创造出一个连贯的计算网络,能够处理万亿参数模型,而不会受到困扰传统集群的分布式计算性能损失。部署这些系统的组织面临的工程挑战,正在重新定义基础设施团队对"可能"的认知。

2025 年 12 月更新: GB200 NVL72 系统于 2024 年 12 月开始向主要云服务商发货,量产在 2025 年第二至第三季度全面铺开。由于供应链优化需求,分析师将 2025 年出货量预测从最初的 50,000-80,000 个机柜下调至 25,000-35,000 个。NVIDIA 已在 GTC 2025 上发布了后继产品 GB300 NVL72,采用 Blackwell Ultra GPU,配备 288GB HBM3e 内存,单 GPU 功耗 1.4kW,性能提升 50%(FP4 推理达 1,100 PFLOPS)。GB300 系统于 2025 年第三季度投产,Quanta 从 9 月开始发货。计划新部署的组织应权衡 GB300 的供货情况与即时的 GB200 需求。

单是这些数字就足以让经验丰富的数据中心架构师感到震惊:13.5 TB 的 HBM3e 内存,访问带宽达 576 TB/秒,通过第五代 NVLink 连接,提供 130 TB/秒的 GPU 间互联带宽。² 每个机架重达 3,000 公斤,需要通过强制液冷系统提供 2.4 兆瓦的冷却能力。³ 当单套系统售价 300 万美元,却能将 GPT-4 级别模型的训练时间从数月缩短到数周时,传统的部署手册已经毫无意义。

CoreWeave 为 2025 年交付订购了价值 23 亿美元的 GB200 NVL72 系统,将其整个基础设施战略押注在该平台主导大语言模型训练和推理市场的能力上。⁴ Lambda Labs 预购了 200 套,尽管他们不得不彻底重建设施以支持电力和冷却需求。⁵ 对这些系统的抢购热潮揭示了一个根本事实:无法部署 GB200 NVL72 基础设施的组织,在基础模型开发领域将面临被边缘化的风险。

架构重新定义计算边界

GB200 NVL72 通过双层 NVLink 交换系统连接 36 个 Grace-Blackwell 超级芯片,创造出前所未有的计算一致性。每个超级芯片将一个基于 Arm 的 Grace CPU 与两块 Blackwell GPU 相结合,通过 NVLink-C2C 以 900GB/s 双向带宽连接。⁶ 72 块 GPU 共享内存并像单个大型处理器一样通信,消除了限制传统分布式训练的同步开销。

NVLink Switch Tray 构成了系统的骨干,九个托盘各支持四个 NVLink Switch 芯片。这些交换机以每 GPU 1.8TB/s 的速度提供全对全连接,使任何 GPU 都能在 300 纳秒内访问系统中的任何内存位置。⁷ 延迟的一致性意味着开发人员可以将整个系统视为拥有 72 倍资源的单个 GPU,大大简化了软件开发。

内存架构打破了计算历史上的所有先例。该系统提供 13.5TB 的 HBM3e 内存,聚合带宽达 576TB/s,Grace CPU 还可访问额外的 2.25TB LPDDR5X 内存。⁸ 内存一致性延伸到所有处理器,允许 CPU 和 GPU 共享数据结构而无需显式复制。以前需要跨多个节点进行复杂模型并行的大语言模型,现在可以完全容纳在单个 NVL72 的内存空间内。

冷却成为架构的核心组成部分,而非事后考虑。NVIDIA 强制要求液冷,并有严格规格:入口温度 20-25°C,流量每分钟 80 升,压降不超过 1.5 bar。⁹ 冷却系统在持续产生 120kW 热量的情况下,将结温维持在 75°C 以下。偏离规格会触发自动降频,可能使性能下降 60%,这使得冷却与计算资源同等关键。

电力供应需要彻底重新设计基础设施。系统通过四个 30kW 电源架持续消耗 120kW,每个电源架需要 480V 三相输入。¹⁰ 电力转换分两个阶段进行:电源架中从交流电转换为 54V 直流电,然后在计算板上从 54V 转换为负载点电压。该架构实现了 97% 的转换效率,但仅电力转换就产生 3.6kW 的废热。

物理部署挑战倍增

安装 GB200 NVL72 需要军事级的精确度和专业设备。系统分四个独立组件到货:重 1,500 公斤的计算机架、800 公斤的 NVLink Switch 机架、400 公斤的 CDU,以及 300 公斤的配电单元。¹¹ 标准数据中心门无法容纳其宽度,需要拆除门框,有时甚至需要拆墙。Introl 的部署团队使用额定载重 2,000 公斤的专用液压升降机来定位组件,避免损坏地面。

地板承重带来直接的结构性问题。计算机架将 1,500 公斤集中在仅 0.8 平方米的面积上,产生 1,875 kg/m² 的点荷载。¹² 额定承重 1,000 kg/m² 的标准架空地板需要钢板来分散重量。许多设施选择在地面直接安装,为 NVL72 部署专门浇筑加固混凝土垫。地震带需要额外的锚固以防止地震时移动。

线缆管理成为一个三维难题,超过 5,000 个独立连接。系统使用 144 根铜质 NVLink 线缆用于 GPU 互连,288 根光缆用于网络连接,72 根液冷管,以及数百根电源线。¹³ NVIDIA 提供精确的线缆长度和布线图,因为在 1.8TB/s 速度下,偏差会导致信号完整性问题。安装团队仅在线缆管理上就花费 60-80 小时,使用增强现实头显来验证每个连接是否符合规格。

液冷基础设施要求达到制药级的洁净度。冷却回路包含 200 升特制冷却液,必须保持特定的电导率、pH 值和颗粒物水平。¹⁴ 单个污染物颗粒就可能堵塞冷却单个芯片的微通道冷板。安装团队在注入冷却液之前,用去离子水冲洗整个系统三次。这个过程需要 12-16 小时,并需要专业的泵送设备。

网络集成需要前所未有的带宽配置。每个 NVL72 需要八个 400GbE 连接用于外部连通性,每套系统总计 3.2Tb/s。¹⁵ 这一带宽需求超过了许多设施的整体外部连接能力。组织通常从 NVL72 系统到核心路由器部署专用光纤线路,绕过传统的架顶交换机架构。网络设计必须考虑东西向流量模式,因为 NVL72 系统在分布式训练期间交换检查点和梯度。

极端规模下的软件编排

将 72 块 GPU 作为一个连贯系统管理,需要对软件架构进行根本性变革。NVIDIA 的 NVLink Switch System 软件在所有 GPU 之间创建单一内存空间,但应用程序必须专门设计以利用这一能力。Horovod 和 PyTorch Distributed 等传统分布式训练框架变成了不必要的开销。开发人员使用 NVIDIA 的 Transformer Engine 库,可自动将模型分区到 72 块 GPU 上,无需手动干预。¹⁶

容器编排平台难以适应 NVL72 的资源模型。Kubernetes 默认将系统视为 72 个独立的 GPU,导致调度冲突和资源碎片化。NVIDIA 提供自定义设备插件,将 NVL72 呈现为单个可调度单元,但这会破坏与标准 ML 平台的兼容性。¹⁷ 组织通常将整个 NVL72 系统专用于单一工作负载,而不是尝试多租户。

尽管有统一的内存空间,内存管理仍需仔细考虑 NUMA 效应。每个 Grace CPU 拥有本地 LPDDR5X 内存,对本地 GPU 带宽为 500GB/s,但对远程 GPU 仅为 100GB/s。¹⁸ 最佳性能需要数据放置算法来最小化跨插槽内存访问。NVIDIA 的 Magnum IO 库可自动处理部分优化,但自定义应用程序需要显式的 NUMA 感知。

当 72 块 GPU 作为一个整体运行时,故障处理变得复杂。传统上单个 GPU 故障意味着损失节点计算能力的 1/8。在 NVL72 中,由于 NVLink 拓扑依赖性,一块 GPU 故障可能导致整个系统不稳定。NVIDIA 实现了硬件级故障隔离,可动态重新配置 NVLink 路由以绕过故障组件,但每块故障 GPU 会导致性能下降 15-20%。¹⁹ 大多数部署维护备用 NVL72 系统,而不是尝试在生产单元上进行维修。

性能监控产生海量遥测数据。每块 GPU 每秒产生超过 10,000 个指标,涵盖温度、功耗、内存带宽和计算利用率。²⁰ 乘以 72 块 GPU 加上 CPU 和交换机,单个 NVL72 每秒产生 100 万个指标。传统监控系统无法处理这种数据量。组织部署专用时序数据库,并使用 AI 驱动的分析来识别遥测流中的异常。

经济模型挑战传统思维

GB200 NVL72 300 万美元的价格标签看似天文数字,但与替代方案相比就不那么惊人了。使用独立的 DGX H100 系统构建同等计算能力需要九个节点,成本 270 万美元,但功耗高 5 倍,机架空间多 10 倍。²¹ NVL72 的一致性架构消除了节点间通信开销,为大模型训练提供高出 30% 的实际吞吐量。通过缩短训练时间和降低运营成本,溢价自然收回。

尽管 NVL72 功耗达 120kW,电力经济性仍然有利。实现类似计算能力的传统分布式系统,包括网络开销在内会消耗 400-500kW。²² 按工业电价每千瓦时 0.10 美元计算,电力节省每年相当于 30 万美元。减少的冷却负荷每年再节省 10 万美元。在典型的三年折旧期内,能源节省抵消了近一半的初始溢价。

训练时间的缩短直接转化为竞争优势。OpenAI 估计,在 NVL72 系统上训练 GPT-4 需要 45 天,而在之前的基础设施上需要 90 天。²³ 对于每天在计算资源上花费 100 万美元的组织来说,时间节省证明了任何合理的硬件溢价都是值得的。在 AI 市场,先发优势的价值超越了纯粹的财务计算。

统一架构大幅提高了利用率。传统集群由于通信和同步开销,GPU 利用率仅达到 50-60%。²⁴ NVL72 系统通过消除节点间瓶颈,保持 85-90% 的利用率。提高的利用率意味着每个 NVL72 提供相当于 120-130 块传统 GPU 的有效计算能力,改变了大规模 AI 基础设施的经济模型。

运营成本让许多财务分析师感到意外。系统的复杂性需要年薪 20 万美元以上的专职工程团队。仅冷却液每年就要花费 1 万美元,每季度检测费用 2,000 美元。单个 NVL72 的备件库存占用 50 万美元资金。然而,与缺乏足够计算能力进行模型开发的机会成本相比,这些成本微不足道。

实际部署揭示运营现实

Anthropic 的 Claude 3 训练基础设施

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中