NVLink与纵向扩展网络:当800G以太网不够用时
更新于2025年12月11日
2025年12月更新: NVLink 5为每个GPU提供1.8TB/s带宽(18条链路 × 100GB/s)——是PCIe Gen5带宽的14倍。GB200 NVL72连接72个GPU,聚合带宽达130TB/s。NVSwitch支持576个GPU组成无阻塞计算架构,总带宽超过1PB/s。第五代NVLink实现了第一代(2014年)12倍的带宽。纵向扩展网络创造了横向扩展网络无法比拟的能力。
单个NVIDIA Blackwell GPU支持多达18条NVLink连接,每条速率100GB/s,总带宽达1.8TB/s——是PCIe Gen5带宽的14倍。¹ GB200 NVL72系统在单个NVLink域内连接72个GPU,聚合带宽达130TB/s。² NVIDIA的NVLink Switch支持576个GPU组成无阻塞计算架构,总带宽超过1PB/s。³ 纵向扩展网络创造了横向扩展以太网和InfiniBand网络无法比拟的基础设施能力。
纵向扩展与横向扩展网络的区别定义了现代AI基础设施架构。NVLink和NVSwitch处理节点内和机架内的通信,提供大型模型张量并行所需的带宽和延迟。InfiniBand和以太网处理机架间的通信,提供数千GPU数据并行所需的覆盖范围。理解每种技术的适用场景决定了基础设施投资能否实现预期性能。
第五代NVLink规格
第五代NVLink的带宽是上一代的两倍。⁴ 每条链路以100GB/s双向速率运行,Blackwell GPU的18条链路提供1.8TB/s的聚合带宽。⁵ 这一改进超过PCIe Gen5带宽14倍以上。⁶
各代产品的演进展示了发展轨迹:
| 代次 | 架构 | 链路数 | 单GPU带宽 |
|---|---|---|---|
| 第1代(2018) | Volta V100 | 6 | 300 GB/s |
| 第2代(2020) | Ampere A100 | 12 | 600 GB/s |
| 第3代(2022) | Hopper H100 | 18 | 900 GB/s |
| 第4代(2024) | Blackwell B200 | 18 | 1.8 TB/s |
第五代NVLink实现了2014年推出的第一代NVLink 12倍的带宽。⁷ 从Hopper到Blackwell的翻倍反映了万亿参数模型日益增长的带宽需求。
单链路带宽从NVLink 4的50GB/s提升到NVLink 5的100GB/s,使相同的18链路配置实现了总吞吐量翻倍。⁸ 该架构在提高信号速率的同时保持了链路数量。
NVSwitch架构演进
NVIDIA在2018年随DGX-2系统推出了NVSwitch,以实现单系统内GPU之间的全互联。⁹ NVSwitch作为NVLink流量的高速无阻塞交叉开关,允许系统中的每个GPU与其他所有GPU以全速通信。¹⁰
DGX-2配备16个V100 GPU,通过第一代NVSwitch连接。¹¹ 每个NVSwitch芯片提供18个NVLink端口,聚合交换容量为900GB/s。¹² 这款100瓦芯片采用台积电12nm工艺制造,包含20亿个晶体管。¹³
第二代NVSwitch随DGX A100在2020年推出,支持NVLink 3.0,每GPU带宽600GB/s。¹⁴ 六个NVSwitch芯片为八个A100 GPU创建了全连接网络拓扑。¹⁵
面向Hopper的第三代NVSwitch将每芯片总双向带宽提升至25.6Tb/s。¹⁶ 每个HGX H100和HGX H200系统中的四个NVSwitch芯片为八个GPU提供3.6TB/s的双向网络带宽。¹⁷ 第三代NVSwitch引入了SHARP功能用于网内计算,可跨多个GPU单元聚合和更新结果,无需往返各个GPU。¹⁸
面向Blackwell的第四代NVSwitch每芯片具有72个NVLink 5.0端口。¹⁹ NVLink 5 Switch提供144个NVLink端口,无阻塞交换容量达14.4TB/s。²⁰ 这一代引入了机架级交换,将NVSwitch从服务器移至专用交换托盘。
GB200 NVL72纵向扩展架构
GB200 NVL72在机架级液冷设计中连接36个Grace CPU和72个Blackwell GPU。²¹ 72 GPU的NVLink域作为单个大型GPU运行,与上一代相比,实时万亿参数大语言模型推理速度提升30倍。²²
物理架构将组件分布在计算托盘和交换托盘中。²³ 每个计算托盘包含两个GB200超级芯片,每个超级芯片由两个B200 GPU和一个Grace CPU组成。²⁴ 系统包含18个计算托盘,共72个GPU。
九个NVLink交换托盘提供全网状连接。²⁵ 每个交换托盘包含两个NVLink Switch芯片,共144个NVLink端口。²⁶ 九个交换机完全连接每个Blackwell GPU上的全部18个NVLink端口。²⁷
单个服务器或计算托盘内不存在GPU之间的直接连接。²⁸ 所有通信都通过外部NVSwitch架构路由。²⁹ 这种架构使所有72个GPU从连接角度来看完全等效——任何GPU都可以以相同的带宽和延迟与其他任何GPU通信。³⁰
130TB/s的聚合NVLink带宽支持跨所有72个GPU的张量并行。³¹ 超过单GPU内存容量的大型模型可以在整个域内分布张量,通信开销最小。该架构消除了纵向扩展工作负载在服务器和机架网络之间的传统边界。
纵向扩展与横向扩展网络对比
纵向扩展网络(NVLink)和横向扩展网络(InfiniBand和以太网)在AI基础设施中服务于根本不同的目的。³²
NVLink擅长单个域内GPU之间的快速通信——远快于InfiniBand,本地连接的带宽达到TB/s级别。³³ 低延迟和高带宽支持张量并行,其中模型权重分布在各GPU上,必须在每一层同步。NVLink每GPU 1.8TB/s的带宽确保这种同步不会成为瓶颈。
一旦通信跨越节点边界,NVLink就无能为力了。³⁴ 无论节点内NVLink能力如何,节点间网络都需要InfiniBand或以太网。这些技术在层次结构的不同层级运行。
InfiniBand提供连接数千服务器节点的行业标准。³⁵ 远程直接内存访问(RDMA)允许服务器直接在内存空间之间交换数据,绕过CPU和操作系统开销。³⁶ 这一特性对于使用数据并行的大规模分布式训练至关重要,其中每个节点处理不同批次并同步梯度。
InfiniBand仍然是大规模AI训练的黄金标准,连接着全球270多台顶级超级计算机。³⁷ 自适应路由、拥塞控制和RDMA功能专为同步高性能计算而设计。
以太网正在超越InfiniBand用于横向扩展部署。³⁸ NVIDIA的Spectrum-X将InfiniBand创新带入以太网,包括遥测驱动的拥塞控制、自适应负载均衡和直接数据放置。³⁹ 使用Spectrum-X的大规模系统实现了95%的数据吞吐量且应用延迟零降级,而标准以太网架构只能达到60%的吞吐量。⁴⁰
分层模型适当地结合了这些技术。NVLink处理机架内的纵向扩展,提供约为横向扩展网络18倍的带宽。⁴¹ InfiniBand或以太网处理机架间的横向扩展,覆盖数千个节点。GB200 NVL72系统中的每个GPU托盘都包含800Gb/s的RDMA网卡用于机架间通信。⁴²
576 GPU域和SuperPOD架构
NVLink Switch支持576个完全连接的GPU组成无阻塞计算架构。⁴³ 八个GB200 NVL72机架组成一个SuperPOD,创建一个由576个GPU组成的超级节点,总带宽超过1PB/s,快速内存达240TB。⁴⁴
DGX SuperPOD建立在可扩展单元(SU)之上,每个单元包含八个DGX GB200系统。⁴⁵ 模块化设计支持任意规模的SuperPOD快速部署。参考架构包括InfiniBand、NVLink网络、以太网架构拓扑、存储系统、机架布局和布线的规格。⁴⁶
576 GPU域在SuperPOD的所有机架中保持全连接的NVLink拓扑。⁴⁷ 任何GPU都可以以1.8TB/s的速度与其他任何GPU通信,无需穿越横向扩展网络。⁴⁸ 域大小与当前正在训练的最大基础模型的需求相匹配。
SuperPOD部署需要本地安装。⁴⁹ 客户在自己的数据中心或托管商业设施中拥有和管理硬件。该架构与NVIDIA内部研发系统相同,这意味着基础设施软件、应用程序和支持都在相同配置上测试。⁵⁰
云服务提供商Microsoft Azure、Oracle Cloud和CoreWeave承诺在2025年可用时支持X800架构。⁵¹ 云部署将SuperPOD能力扩展到无法证明专用本地基础设施合理性的组织。
企业Kubernetes部署
多节点NVLink(MNNVL)系统需要专门的Kubernetes配置。⁵² Kubernetes原生不识别NVIDIA的MNNVL架构,使工作负载管理和调度比标准GPU部署更复杂。⁵³
部署要求包括Kubernetes 1.32或更高版本以及NVIDIA GPU Operator 25.3或更高版本。⁵⁴ GPU Operator版本必须包含动态资源分配(DRA)驱动程序,该驱动程序提供对GB200加速网络资源和ComputeDomain功能的支持。⁵⁵ NVIDIA Network Operator处理网络配置。
IMEX服务支持NVLink多节点部署中跨OS域的GPU内存导出和导入。⁵⁶ 该服务支持跨域的NVLink点对点通信和共享内存操作。
当分布式工作负载以MNNVL节点池为目标时,平台创建ComputeDomain自定义资源定义(CRD)来管理NVLink域分配。⁵⁷ 对ComputeDomain的引用作为资源声明自动附加到工作负载规格,允许调度器将工作负载绑定到特定的NVLink域。⁵⁸
Pod亲和性规则使用MNNVL标签键(nvidia.com/gpu.clique)作为拓扑键。⁵⁹ 该配置确保分布式工作负载中的Pod落在具有NVLink互连的节点上,保持性能所需的拓扑。⁶⁰
基础设施规划考虑
评估NVLink基础设施的组织应首先考虑工作负载特性。跨大型模型的张量并行直接受益于NVLink带宽。跨多个较小模型的数据并行可能不需要NVLink的能力,仅使用横向扩展网络即可达到足够的性能。
GB200 NVL72代表着重大的基础设施承诺。液冷要求、机架级集成和专用网络的复杂性超过了风冷、以服务器为中心的架构。组织应在承诺之前验证工作负载确实需要这些能力。
电力和冷却基础设施必须从初始部署就适应液冷。GB200 NVL72无法使用风冷运行。部署后改造设施以支持液冷既昂贵又具有破坏性。
网络规划应同时解决纵向扩展和横向扩展需求。NVLink架构处理机架内通信,但机架间
[内容因翻译而截断]