InfiniBand交换机:NVIDIA Quantum-X800与驱动AI超级计算机的XDR世代

InfiniBand市场2025年达到257亿美元,预计2030年达1270亿美元(年复合增长率38%)。Quantum-X800提供144个800Gbps XDR端口,具备14.4 TFLOPS网内计算能力(较NDR提升9倍)。端口到端口延迟低于100纳秒...

InfiniBand交换机:NVIDIA Quantum-X800与驱动AI超级计算机的XDR世代

InfiniBand交换机:NVIDIA Quantum-X800与驱动AI超级计算机的XDR世代

更新于2025年12月11日

2025年12月更新: InfiniBand市场2025年达到257.4亿美元,预计2030年将增长至1269.9亿美元,年复合增长率为37.60%。Quantum-X800提供144个800Gbps XDR端口,具备14.4 TFLOPS网内计算能力(较NDR提升9倍)。端口到端口延迟低于100纳秒。Stargate的64,000台GB200系统和Oracle的131,000 GPU泽塔级超级计算集群均运行在InfiniBand上。

2025年第二季度,随着NVIDIA Blackwell Ultra平台推动对800Gbps网络的需求,InfiniBand交换机销量激增。¹ InfiniBand市场2025年估值为257.4亿美元,预计到2030年将增长至1269.9亿美元,年复合增长率为37.60%。² 虽然以太网在AI后端网络的整体市场中保持领先地位,但InfiniBand在最高性能部署中占据主导地位——在这些场景中,以数百纳秒计量的延迟决定着训练效率。

Quantum-X800平台是NVIDIA针对万亿参数模型需求的解决方案。凭借144个800Gbps端口、通过SHARP v4实现的14.4 TFLOPS网内计算能力,以及低于100纳秒的端口到端口延迟,XDR世代在带宽翻倍的同时,网内计算能力较上一代NDR平台提升了9倍。³ 包括Stargate的64,000台GB200系统和Oracle的131,000 GPU泽塔级超级计算集群在内的主要部署都依赖NVIDIA InfiniBand来维持分布式AI训练所需的紧密同步。⁴

从NDR到XDR的演进

InfiniBand世代通过标准化的速度递增方式发展:QDR(40Gbps)、FDR(56Gbps)、EDR(100Gbps)、HDR(200Gbps)、NDR(400Gbps),以及现在的XDR(800Gbps)。⁵ 每一代都将单端口带宽翻倍,同时保持低延迟和硬件级可靠性,这些特性使InfiniBand区别于以太网替代方案。

NDR(Next Data Rate,下一代数据速率)于2021年推出,使用四通道PAM-4编码SerDes以51.6 GHz运行,提供400Gbps端口。⁶ 驱动NDR交换机的Quantum-2 ASIC提供256个SerDes通道,单向带宽25.6Tbps,在64个400Gbps端口上每秒处理665亿个数据包。⁷ NDR为InfiniBand引入了OSFP连接器,支持2x(NDR200)或4x(NDR400)配置的单链路或双链路。⁸

XDR(eXtreme Data Rate,极限数据速率)规范由InfiniBand贸易协会于2023年10月发布,将带宽翻倍以满足AI和HPC数据中心需求。⁹ 每通道200Gbps的SerDes支持使800Gbps端口成为可能,交换机到交换机的连接可达1.6Tbps。¹⁰ XDR引入了第四代SHARP、超低延迟改进、自愈能力和硅光子集成。¹¹

路线图继续向提供每端口1.6Tbps的GDR(Giga Data Rate,吉比特数据速率)技术发展,确保InfiniBand保持其性能领先地位。¹²

NVIDIA Quantum-X800平台架构

Quantum-X800平台提供首个XDR InfiniBand实现,专为万亿参数级AI模型而构建。¹³ Q3400-RA 4U交换机采用每通道200Gbps的SerDes技术,是首款达到此速度等级的交换机芯片。¹⁴

端口密度大幅提升。该交换机提供144个800Gbps端口,分布在72个OSFP端口槽中。¹⁵ 高基数设计支持高效的网络拓扑,两级胖树可以以最小延迟和最优作业局部性连接多达10,368个ConnectX-8网卡。¹⁶

性能规格针对最苛刻的AI工作负载。端口到端口延迟低于100纳秒。¹⁷ 自适应路由动态分配可用路径上的流量。基于遥测的拥塞控制在网络饱和影响GPU利用率之前进行预防。¹⁸

Q3200-RA等型号中的双交换机机箱提供72个800Gbps端口,交换机到交换机聚合带宽达1.6Tbps,支持大型AI集群所需的脊叶拓扑。¹⁹ 可选的路由器功能便于跨多个站点扩展InfiniBand集群,支持跨地理位置的分布式训练环境。²⁰

SHARP网内计算消除瓶颈

NVIDIA的可扩展分层聚合和归约协议(SHARP)代表了InfiniBand相对于以太网替代方案的决定性技术优势。通过将all-reduce和broadcast等集合操作卸载到网络交换机,SHARP显著减少数据传输量,并在分布式训练期间最小化服务器抖动。²¹

四代演进逐步扩展了SHARP能力:

SHARPv1 专注于科学计算的小消息归约操作,展示了被领先MPI库采用的显著性能改进。²²

SHARPv2 随HDR 200Gbps Quantum交换机推出,增加了AI工作负载支持,包括大消息归约操作。基准测试显示BERT训练性能提升17%。²³

SHARPv3 实现了多租户网内计算,允许多个AI工作负载同时利用SHARP能力。Microsoft Azure展示了AllReduce延迟接近一个数量级的性能提升。²⁴

SHARPv4 作为Quantum-X800和Quantum-X Photonics交换机的标准配置,实现网内聚合和归约,最小化GPU到GPU的通信开销。²⁵ 结合FP8精度支持,SHARP v4通过减少带宽和计算需求来加速万亿参数模型的训练,实现更快收敛和更高吞吐量。²⁶

该技术与NVIDIA集合通信库(NCCL)集成,使分布式AI训练框架能够自动利用SHARP。服务提供商报告通过SHARP集成,AI工作负载性能提升10-20%。²⁷ 网络交换机直接执行聚合和归约,绕过CPU和GPU执行这些任务,同时与非SHARP配置相比AllReduce带宽翻倍。²⁸

ConnectX-8 SuperNIC提供800Gbps端点

Quantum-X800平台与ConnectX-8 SuperNIC适配器配对,实现端到端800Gbps吞吐量。²⁹ C8180代表NVIDIA首款支持InfiniBand和以太网的800Gbps双协议SuperNIC,专为AI高性能计算集群、超级计算网络和下一代数据中心架构设计。³⁰

技术规格显著推进了适配器能力。单端口OSFP接口提供800Gbps XDR InfiniBand或两个400Gbps以太网端口。³¹ PCIe Gen6 x16连接提供与网络速度匹配的主机接口带宽。³² 自动协商支持XDR、NDR、NDR200、HDR、HDR100、EDR、FDR和SDR InfiniBand速度的向后兼容性。³³

架构创新不仅限于原始带宽。ConnectX-8集成原生PCIe Gen6支持和板载PCIe交换结构,消除了外部PCIe交换机需求。³⁴ 适配器在x16连接器接口后包含48个PCIe Gen6通道。³⁵ 原生SHARP支持直接在适配器硬件中加速聚合和归约操作。³⁶

Socket Direct技术解决双路服务器架构问题。通过专用PCIe接口从每个CPU直接访问网络,改善了CPU到网络拓扑影响延迟的系统性能。³⁷ GB300 NVL72代表首个PCIe Gen6 SuperNIC能力的部署,以Gen5速度连接到Grace CPU,同时保持到B300 GPU的Gen6链路。³⁸

Unified Fabric Manager大规模编排

UFM平台通过将实时网络遥测与AI驱动的分析相结合,彻底改变了InfiniBand网络管理。³⁹ 这一基于主机的解决方案提供对网络管理、路由、配置和故障排除的完整可视性。

UFM架构跨越多个组件。UFM Server保持完整的网络可视性并管理所有设备的路由。受管交换设备包括UFM控制下的网络交换机、网关和路由器。计算节点上的可选UFM主机代理提供本地主机数据和设备管理功能。⁴⁰

三个平台层级满足不同的运营需求:

UFM Telemetry 收集每个端口超过120个独特计数器,包括误码率、温度、直方图和重传。⁴¹ 这些数据能够在故障影响生产工作负载之前预测边缘电缆问题。

UFM Enterprise 增加网络监控、管理、工作负载优化和定期配置验证。⁴² 与Slurm和Platform LSF的作业调度器集成支持与工作负载调度对齐的自动化网络配置。OpenStack和Azure集成支持云部署模型。⁴³

UFM Cyber-AI 提供预防性维护和网络安全功能,以降低超级计算运营成本。⁴⁴ 专用设备部署支持本地AI驱动的网络分析。

UFM SDK通过REST API访问提供广泛的第三方集成,包括Grafana、FluentD、Zabbix和Slurm插件。⁴⁵ 开源项目支持SLURM集成,用于监控作业计算节点的网络带宽、拥塞、错误和资源利用率。

主要超级计算机部署验证平台

全球最大的AI系统标准化采用NVIDIA InfiniBand网络。当前和计划中的部署展示了Quantum平台的大规模能力。

Stargate AI数据中心 于2025年3月开始安装64,000台GB200系统,通过800Gbps InfiniBand互连,提供多艾克萨级AI服务。⁴⁶ 该部署代表首批大规模XDR实施之一。

xAI Colossus 使用Quantum-2交换机运行100,000个H100 GPU,在三层网络中保持最差情况850纳秒延迟。⁴⁷ 孟菲斯集群训练xAI的Grok系列大语言模型。

Oracle泽塔级超级计算集群 计划131,000个GB200 GPU通过Quantum InfiniBand网络连接,展示了云服务提供商对InfiniBand在最高性能AI基础设施中的承诺。⁴⁸

劳伦斯利弗莫尔国家实验室的El Capitan将使用200Gbps InfiniBand超过2艾克萨级,展示NDR级网络在科学计算中的持续相关性。⁴⁹

欧洲的JUPITER(2.5亿欧元)和Blue Lion(2.5亿欧元)选择了Quantum-2网络,在满足严格能效要求的同时提供科学工作负载所需的性能。⁵⁰

NVIDIA网络收入每年达到100亿美元,几乎全部与驱动商业AI云的InfiniBand网络相关。⁵¹ Microsoft Azure和Oracle Cloud Infrastructure代表超大规模提供商中首批采用Quantum InfiniBand的客户。⁵²

InfiniBand与以太网定位

市场动态反映了每种技术的不同定位。当Dell'Oro Group于2023年底开始AI后端网络覆盖时,InfiniBand占有超过80%的市场份额。⁵³ 此后,以太网通过超大规模采用和成本优势获得了市场份额,在2025年保持整体市场领先地位。⁵⁴

性能特性区分了这两种技术。InfiniBand通过硬件加速RDMA和网内计算提供亚微秒延迟。以太网在正确配置RoCE时可实现有竞争力的吞吐量,但需要仔细的无损网络配置,且缺乏同等的网内计算能力。

成本结构对许多部署有利于以太网。部署256-1,024 GPU集群的二三线公司通常发现,配备RoCE的以太网以大约一半的网络成本提供可接受的性能。⁵⁵ InfiniBand的价值主张在更大规模时更强,此时SHARP网内计算和更严格的延迟边界转化

[内容截断用于翻译]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中