InfiniBand vs 以太网 GPU 集群对比:800G 网络架构决策指南

InfiniBand 性能提升 15%,但成本是以太网的 2.3 倍。了解 Meta、OpenAI 和 Google 如何做出价值 5000 万美元的网络架构决策。

InfiniBand vs 以太网 GPU 集群对比:800G 网络架构决策指南

InfiniBand vs 以太网 GPU 集群对比:800G 网络架构决策指南

更新于 2025 年 12 月 8 日

2025 年 12 月更新: NVIDIA Spectrum-X 800G 以太网现已发货,并通过 Blackwell 部署验证,针对特定工作负载缩小了与 InfiniBand 的差距。NDR 400G InfiniBand 在训练集群中仍占主导地位,XDR 800G 正在推出。Ultra Ethernet Consortium 于 2024 年发布了 UEC 1.0 规范,预计 2025-2026 年推出兼容产品。AI 集群网络日益混合化——训练使用 InfiniBand,推理使用以太网。1.6T 光学模块已出现在 2026-2027 年路线图中。

连接 10,000 个 GPU 的网络决定了它们是作为统一的超级计算机运行,还是成为一堆昂贵的孤立处理器。然而,大多数基础设施团队在做这个价值 5000 万美元的决策时,依据的是供应商的营销材料而非工程分析。¹ Meta 在发现 InfiniBand 15% 的性能优势无法支撑其 60 万 GPU 集群 2.3 倍的总拥有成本后,选择了以太网标准化。² 与此同时,OpenAI 将 GPT-4 训练比最初基于以太网的尝试快 40% 完成归功于 InfiniBand 卓越的拥塞控制能力。³ 这些截然相反的经验揭示了一个基本事实:「正确」的选择完全取决于工作负载特性、规模目标和经济约束。

网络架构决策会在未来数年持续影响 AI 基础设施的方方面面。InfiniBand 的专有生态系统将组织锁定在 NVIDIA 的技术路线图中,但能为分布式训练提供可预测的性能。以太网的开放标准支持供应商灵活性和成本优化,但需要复杂的调优才能匹配 InfiniBand 的开箱即用效率。这个选择不仅影响当前部署,还影响未来的可扩展性,因为后期更换技术意味着需要替换价值数百万美元的交换机、线缆和网卡。

随着每一代硬件的更新,风险也在不断升级。NVIDIA 的 Spectrum-X 承诺在 800Gbps 速度下为以太网带来类似 InfiniBand 的性能,可能会消除 InfiniBand 的优势。⁴ Intel 的 Ultra Ethernet Consortium 推动的开放标准可能会进一步分化市场。⁵ 今天部署基础设施的组织必须预测 2030 年哪种技术将占主导地位——届时当前投资才会完全折旧。错误的预测会导致资产搁浅、能力受限,而这恰恰是 AI 竞争加剧的关键时期。

技术架构揭示根本差异

InfiniBand 源于超级计算需求,在那里微秒级的差异决定成败。该架构假设通过基于信用的流量控制实现无损传输,发送方只在接收方保证缓冲区可用时才进行传输。⁶ 这消除了丢包,但需要端点之间的紧密耦合。每个 InfiniBand 设备都参与子网管理器的集中式路由决策,为特定流量模式创建确定性路径。这种方法提供一致的亚微秒级延迟,但在工作负载偏离预期模式时会遇到困难。

以太网从局域网演化而来,其简单性和互操作性比绝对性能更重要。该架构假设有损传输和尽力而为交付,依赖更高层协议保证可靠性。丢包触发拥塞控制算法,降低传输速率,防止网络崩溃但增加延迟波动。以太网的分布式路由决策支持大规模扩展和灵活性,但在负载下产生不可预测的性能。现代数据中心以太网增加了优先级流量控制(Priority Flow Control)和显式拥塞通知(Explicit Congestion Notification)等功能,以接近 InfiniBand 的无损行为。⁷

RDMA(远程直接内存访问)能力使这两种技术区别于传统网络。InfiniBand 原生包含 RDMA,实现系统间的直接内存传输而无需 CPU 参与。⁸ InfiniBand 上的 RDMA 对小消息可实现 0.5 微秒延迟,比基于内核的网络快 10 倍。以太网通过 RoCE(RDMA over Converged Ethernet)添加了 RDMA 支持,在正确配置时可提供类似性能。然而,RoCE 需要在大规模环境中难以维持的完美网络条件。

两种技术的交换架构存在根本差异。InfiniBand 交换机作为交叉矩阵结构运行,所有端口之间具有无阻塞带宽。⁹ 一个 40 端口的 HDR InfiniBand 交换机提供 16Tb/s 的聚合带宽,无论流量模式如何,延迟都保持一致。以太网交换机使用统计复用的共享内存架构,实现更高的端口密度但在拥塞时性能不稳定。这种架构差异意味着 InfiniBand 保持可预测的性能,而以太网提供更好的经济性。

管理平面反映了不同的设计理念。InfiniBand 的子网管理器提供集中控制,对拓扑和流量具有全局可见性。¹⁰ 管理器计算最优路由、处理故障并维护服务质量,无需人工干预。以太网依赖生成树、OSPF 或 BGP 等分布式协议,需要仔细配置。软件定义网络为以太网带来了集中控制,但增加了复杂性和潜在故障点。管理差异在大规模部署中显著影响运维开销。

超越原始带宽的性能指标

延迟测量揭示了两种技术之间的细微差异。InfiniBand HDR 在所有消息大小下都能一致地实现 0.6 微秒的端口到端口延迟。¹¹ 100Gbps 以太网显示 1.2 微秒的基准延迟,在拥塞时会退化到 50+ 微秒。2 倍的基准差异在负载下变成 100 倍。对于梯度同步发生数百万次的分布式训练,微秒级差异会累积成额外的数小时训练时间。

带宽效率讲述的故事与营销规格不同。由于高效编码和最小协议开销,InfiniBand 在大数据传输时可达到理论带宽的 95%。¹² 200Gbps InfiniBand 可维持 190Gbps 的实际吞吐量。以太网的开销因配置而异:标准以太网达到 85% 效率,而 RoCE v2 在适当调优后可达 92%。在 800Gbps 速度下,两种技术都使用类似的 PAM4 编码,效率差距缩小。

拥塞行为使两种技术产生显著差异。InfiniBand 基于信用的流量控制通过在缓冲区溢出前停止传输来防止拥塞。¹³ 负载增加时性能平缓下降。以太网的丢包触发类似 TCP 的退避算法,产生锯齿状吞吐量模式。多个发送方压垮单个接收方的 Incast 场景会导致调优不当的以太网性能灾难性崩溃。InfiniBand 处理相同场景时几乎不会退化。

可扩展性测试暴露了架构限制。InfiniBand 网络在三层胖树拓扑中支持单个子网扩展到 48,000 个节点。¹⁴ 更大规模的部署需要通过路由器连接多个子网,增加了复杂性。以太网使用分层路由可扩展到数百万节点,但需要仔细设计以保持性能。Facebook 的数据中心使用以太网和自定义流量工程协议连接了 100,000 多台服务器。¹⁵ 这些例子表明两种技术都能扩展,但通过不同的机制。

在受控环境中,可靠性指标略微倾向于 InfiniBand。InfiniBand 的无损传输和自动路径迁移实现 99.999% 的数据包交付。¹⁶ 具有适当冗余的以太网达到 99.995% 的可靠性,对大多数工作负载来说是可接受的。然而,InfiniBand 更紧密的集成意味着单个组件故障可能会使整个网络不稳定。以太网的松耦合更好地隔离故障,防止级联效应。可靠性差异对长时间运行的训练任务最为重要,因为任何中断都会浪费数百万的计算成本。

成本分析颠覆传统认知

硬件成本只是经济账的一部分。InfiniBand HDR 适配器每端口成本 2,000-3,000 美元,而同等以太网卡为 800-1,500 美元。¹⁷ 一台 40 端口 InfiniBand 交换机成本 50,000 美元,而以太网为 25,000 美元。线缆增加了另一项溢价:InfiniBand DAC 线缆成本 500-800 美元,而以太网同类产品为 200-400 美元。对于 1,000 GPU 集群,InfiniBand 硬件成本 1500 万美元,以太网为 700 万美元,800 万美元的溢价看起来令人望而却步。

运营费用显著改变了计算结果。与以太网相比,InfiniBand 的自动化管理将管理开销减少了 60%。¹⁸ 一名网络工程师可以管理 10,000 个 InfiniBand 端口,而需要手动配置的以太网只能管理 4,000 个端口。大规模部署每年可节省 50 万美元的人力成本。InfiniBand 更高的效率还将功耗降低 15%,为兆瓦级设施每年节省 20 万美元。

软件许可产生许多人忽视的隐性费用。InfiniBand 的 OFED(OpenFabrics Enterprise Distribution)协议栈是开源的,可选择购买支持合同。¹⁹ 企业以太网通常需要昂贵的软件许可才能使用高级功能:VMware NSX 每 CPU 成本 5,000 美元,Cisco ACI 每台交换机 50,000 美元。²⁰ 在五年部署周期内,这些许可证费用可能超过硬件成本。像 SONiC 这样的开放网络计划降低了以太网软件成本,但需要工程投入。

总拥有成本模型在很大程度上取决于利用率假设。如果 InfiniBand 15% 的性能优势转化为 15% 更快的训练,那么对于速度决定竞争优势的组织来说,时间节省足以证明溢价的合理性。一个每月在 GPU 计算上花费 100 万美元的组织通过更快完成可节省 15 万美元。三年内,节省的成本超过了 InfiniBand 的溢价。然而,如果工作负载无法从 InfiniBand 的优势中受益,溢价就成了纯粹的浪费。

供应商锁定成本难以量化,但显著影响长期经济性。InfiniBand 将组织锁定在 NVIDIA 的生态系统中,限制了议价能力和技术选择。²¹ 以太网的供应商多样性支持竞争性招标,可降低成本 20-30%。然而,在以太网供应商之间切换需要成本达数百万的重新工程。无论选择哪种技术,真正的供应商独立性仍是幻想。

软件生态系统成熟度差异显著

驱动程序稳定性比硬件规格更影响生产可靠性。InfiniBand 的 Mellanox OFED 驱动程序与 NVIDIA GPU 一起经过广泛测试,确保跨软件栈的兼容性。²² OFED 5.8 版本无缝支持每个 CUDA 版本。以太网驱动程序质量因供应商而异:Intel 的 ice 驱动程序非常稳定,而一些供应商提供的驱动程序在负载下会导致内核崩溃。驱动程序问题导致神秘的故障,浪费数周的调试时间。

框架集成决定开发者生产力。PyTorch 和 TensorFlow 通过原生 UCX 支持针对 InfiniBand 进行优化,无需调优即可实现接近理论值的性能。²³ NCCL(NVIDIA 集合通信库)包含 InfiniBand 特定优化,将 all-reduce 操作加速 30%。²⁴ 以太网支持存在但需要手动配置 RoCE 参数、拥塞控制算法和缓冲区大小。随着框架增加以太网优化,集成差距在缩小,但 InfiniBand 在易用性方面保持优势。

管理工具反映了生态系统成熟度差异。NVIDIA 的 UFM(Unified Fabric Manager)提供全面的 InfiniBand 监控,自动检测...

[内容因翻译需要截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中