AI以太网交换机:连接GPU集群的51.2Tbps平台

AI以太网交换机:连接GPU集群的51.2Tbps平台

AI以太网交换机:连接GPU集群的51.2Tbps平台

更新于2025年12月11日

2025年12月更新: 根据Dell'Oro Group报告,以太网目前在AI后端部署中处于领先地位。xAI Colossus(100,000个H100)使用Spectrum-X实现95%的吞吐量,而传统以太网仅为60%。Broadcom Tomahawk 5在单个单片芯片中实现51.2Tbps(64x 800GbE)。Ultra Ethernet Consortium发布560页规范,正式确立AI优化标准。NVIDIA Spectrum-X800相比传统以太网提供1.6倍的AI性能。

以太网目前在AI后端网络部署中处于领先地位。Dell'Oro Group报告显示,2025年,相较于InfiniBand,具有竞争力的成本优势、多供应商生态系统和运营熟悉度推动了以太网的采用。¹ 随着xAI的Colossus超级计算机展示了大规模以太网性能,这一趋势正在加速——该系统使用Spectrum-X网络连接100,000个NVIDIA Hopper GPU,通过先进的拥塞控制实现95%的数据吞吐量。² 类似规模的传统以太网会遭遇数千次流冲突,吞吐量仅限于约60%。³

交换机芯片带宽翻倍以满足AI需求。Broadcom的Tomahawk 5在单个单片芯片中实现每秒51.2太比特,为具有64个800GbE端口或128个400GbE端口的交换机提供动力。⁴ NVIDIA的Spectrum-X800平台匹配这一容量,同时通过与BlueField SuperNIC的软件集成添加AI特定优化。2025年6月的Ultra Ethernet Consortium规范正式确立了AI优化以太网标准,建立了涵盖拥塞控制、RDMA传输和多供应商互操作性的560页框架。⁵

Broadcom Tomahawk 5树立带宽基准

StrataXGS Tomahawk 5交换机系列在单个单片设备中提供每秒51.2太比特的以太网交换容量,是上一代芯片带宽的两倍。⁶ 该芯片代表了Broadcom在商用交换机芯片领域的持续主导地位,延续了自2014年Tomahawk 1以来建立的带宽翻倍节奏。

架构决策使Tomahawk 5与竞争对手区分开来。虽然竞争对手的51.2Tbps设计使用芯粒架构,将多个信号SerDes芯粒包裹在单片数据包处理引擎周围,但Tomahawk 5使用5nm工艺技术在单片硅片中实现全带宽。⁷ 共享缓冲区架构为RoCEv2和其他对AI工作负载至关重要的RDMA协议提供最高性能和最低尾部延迟。⁸

端口配置支持多种部署场景:64个800Gbps端口用于需要最大单端口带宽的主干部署,128个400Gbps端口用于平衡的叶交换机,256个200Gbps端口用于需要广泛服务器连接的环境。⁹ 该芯片支持传统Clos拓扑和非Clos架构,包括针对AI集群通信优化的环面、Dragonfly、Dragonfly+和Megafly配置。¹⁰

高级功能直接针对AI/ML工作负载需求。Cognitive Routing提供智能流量分配。动态负载均衡在可用路径之间分散流量。端到端拥塞控制防止降低GPU利用率的网络饱和。¹¹ Broadcom声称,通过这些优化,Jericho3-AI比竞争芯片的作业完成时间缩短超过10%。¹²

功耗效率显著提升。单个Tomahawk 5在等效带宽下可替代48个Tomahawk 1交换机,功耗降低超过95%。¹³ 对于已经在应对每机架功率密度挑战的AI数据中心来说,网络效率改进与计算和冷却优化相得益彰。

多家供应商的商用交换机产品采用Tomahawk 5芯片。FS.com的N9600-64OD提供64x 800GbE端口,延迟低于微秒级。¹⁴ NADDOD的N9500系列提供针对AI数据中心部署优化的400G和800G配置。¹⁵ Arista的7060X6 AI Leaf系列采用Tomahawk 5,在2RU外形规格中实现51.2Tbps容量。¹⁶

NVIDIA Spectrum-X构建AI原生以太网

NVIDIA将Spectrum-X设计为首个专为AI工作负载构建的以太网网络平台。该平台将Spectrum SN5600交换机与BlueField-3 SuperNIC相结合,相比传统以太网实现,生成式AI性能提升1.6倍。¹⁷

Spectrum-X800 SN5600交换机使用OSFP外形规格提供64个800GbE端口,总交换容量为51.2Tbps。¹⁸ 交换机底层的Spectrum-4架构在容量和端口密度方面都超越了上一代产品。与BlueField SuperNIC的集成实现了跨整个网络结构的协调拥塞控制、自适应路由和遥测收集。

实际部署验证了该架构。xAI的Colossus集群使用Spectrum-X以太网在100,000个GPU上训练Grok系列大型语言模型。¹⁹ 该系统通过专门针对分布式AI训练的突发性、同步通信模式优化的拥塞控制技术,实现了95%的数据吞吐量。²⁰

2025年的产品发布显著扩展了Spectrum-X的能力。2025年3月发布的Spectrum-X Photonics交换机大规模融合了电子电路和光通信。²¹ 配置包括128个800Gbps端口(总计100Tbps)和512个800Gbps端口(总计400Tbps),可实现连接数百万GPU的AI工厂,同时降低能耗。²²

2025年8月发布的Spectrum-XGS以太网引入了跨规模技术,将分布式数据中心整合为统一的千兆级AI超级工厂。²³ 该技术代表了传统纵向扩展(NVLink)和横向扩展(标准网络)之外的AI计算第三支柱,使组织能够将分布式基础设施聚合为一致的训练环境。

主要云服务提供商标准化采用Spectrum-X。Meta和Oracle于2025年10月宣布,他们将部署Spectrum-X以太网交换机作为开放的加速网络架构,以提高AI训练效率。²⁴ 多供应商生态系统将Spectrum-X定位为NVIDIA解决方案和行业平台。

Ultra Ethernet Consortium建立AI就绪标准

Ultra Ethernet Consortium于2025年6月11日发布了规范1.0版,为AI和HPC网络建立了全面的560页框架。²⁵ 该联盟于2023年在Linux Foundation下成立,汇集了50多家技术公司,包括AMD、Intel、Broadcom、Cisco、Arista、Meta、Microsoft、Dell、Samsung和Huawei。²⁶

技术创新解决了传统以太网在AI工作负载方面的根本限制。该规范定义了增强的RDMA实现、传输协议和拥塞控制机制,专为分布式训练的同步、突发通信模式设计。²⁷

拥塞控制方法与传统RoCE实现有根本不同。UEC方法不像传统要求那样依赖无损网络,引入了接收方驱动模式,端点可以主动限制发送方传输,而不是保持被动。²⁸ 这一转变使得构建更大规模的网络成为可能,并为AI工作负载提供更好的效率。

性能目标涵盖集群规模部署。该规范旨在实现集群间1到20微秒的往返时间,专门针对运行AI训练、推理和HPC工作负载的数据中心环境进行优化。²⁹

互操作性保证防止供应商锁定。UEC规范1.0在NIC、交换机、光模块和线缆方面提供高性能解决方案,实现无缝的多供应商集成。³⁰ 开放标准允许组织从多个供应商采购组件,同时保持性能一致性。

产品在规范发布后上市。Arista确认支持Etherlink产品组合中的UEC 1.0交换增强功能,从7060X和7800R平台开始。³¹ 来自多家供应商的全栈支持硬件将于2025年底或2026年初发货。³²

Arista和Cisco在模块化AI平台上竞争

传统网络供应商正在调整数据中心平台以满足AI工作负载需求,与NVIDIA的专用方法竞争。

Arista的7800R4系列于2025年10月29日推出,是第四代模块化主干系统,专为AI部署设计。³³ 该平台在4到16个线卡模块的配置中提供460Tbps(920Tbps全双工)系统吞吐量。³⁴ 端口数量可扩展至576x 800GbE或1152x 400GbE,实现大规模集群连接。³⁵

7800R4采用Broadcom Jericho3-AI处理器,具有AI优化的数据包流水线。³⁶ HyperPort技术将四个800Gbps端口组合成3.2Tbps聚合连接,与跨独立端口的传统负载均衡相比,AI带宽流的作业完成时间缩短44%。³⁷ 模块化机箱和7280R4固定外形交换机现已发货,7020R4变体和HyperPort线卡将于2026年第一季度推出。³⁸

Cisco Silicon One将路由和交换功能统一,由G200 ASIC提供高达51.2Tbps的性能。³⁹ 该架构针对AI横向扩展和纵向扩展网络,具有高容量、超低延迟和更短的作业完成时间。⁴⁰

Cisco 8800系列模块化路由器提供机箱基础。可用的4、8、12和18槽配置,所有型号都支持基于Silicon One的第三代36x 800G(P100)线卡。⁴¹ Cisco 8223路由器使用Silicon One P200可编程芯片提供51.2Tbps容量。⁴²

扩展的Cisco-NVIDIA合作伙伴关系将Silicon One芯片集成到Spectrum-X以太网堆栈中,结合低延迟交换、自适应路由和遥测以支持GPU集群。⁴³ Cisco 8000系列交换机上的SONiC(Software for Open Networking in the Cloud)支持使组织能够选择符合运营要求的开放网络操作系统。⁴⁴

RoCE使以太网具备与InfiniBand竞争的能力

在正确配置的情况下,RDMA over Converged Ethernet(RoCE)使以太网能够在AI工作负载方面匹配InfiniBand的性能。Meta发布了其24,000个GPU集群的工程细节,表示他们调优了RoCE和InfiniBand以提供同等性能,最大的模型在其RoCE架构上训练。⁴⁵

RoCE v2依赖于无损以太网网络配置。优先级流量控制消除选定流量类别的丢包。增强传输选择在流量类型之间分配带宽。显式拥塞通知提供早期拥塞信号。动态拥塞控制优化RDMA性能。⁴⁶ 如果没有正确配置这些机制,RoCE性能将显著下降。

主要云平台验证了RoCE在生产AI工作负载中的应用。Google Cloud的A3 Ultra和A4 Compute Engine机器类型利用RoCEv2实现高性能GPU网络。⁴⁷ Oracle的Zettascale10超级集群使用Acceleron RoCE网络架构,配备包含集成四端口交换机的专用以太网NIC以最小化延迟。⁴⁸

Meta的AI集群架构展示了大规模RoCE应用。后端架构以非阻塞拓扑连接所有RDMA NIC,在任意两个GPU之间提供高带宽、低延迟和无损传输。⁴⁹ 两级Clos拓扑将AI机架组织成区域,机架训练交换机作为叶交换机,通过铜缆DAC线缆连接GPU。⁵⁰

成本考虑使以太网在许多部署中更受青睐。对于部署256-1,024个GPU集群的二级和三级公司,除非有具体量化的延迟要求证明InfiniBand 2倍的网络成本是合理的,否则以太网加RoCE是默认推荐方案。⁵¹ 已发布的案例研究

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中