GPUクラスター向けInfiniBand vs Ethernet:800Gネットワークアーキテクチャ選定ガイド
2025年12月8日更新
2025年12月アップデート: NVIDIA Spectrum-X 800G Ethernetの出荷が開始され、Blackwell展開向けの検証が完了。これにより特定のワークロードにおけるInfiniBandの優位性は縮小しつつある。トレーニングクラスターではNDR 400G InfiniBandが依然として主流であり、XDR 800Gの展開も進行中。Ultra Ethernet Consortiumは2024年にUEC 1.0仕様をリリースし、準拠製品は2025-2026年に登場予定。AIクラスターネットワーキングはますますハイブリッド化が進み、トレーニングにはInfiniBand、推論にはEthernetという構成が増加している。2026-2027年に向けて1.6T光学製品のロードマップも登場し始めている。
10,000台のGPUを接続するネットワークは、それらが統合されたスーパーコンピューターとして機能するか、高価だが孤立したプロセッサの集合体に終わるかを決定づける。しかし、ほとんどのインフラチームは、この5,000万ドル規模の決定をエンジニアリング分析ではなく、ベンダーのマーケティングに基づいて行っている。¹ Metaは、60万台のGPUフリート全体で、InfiniBandの15%の性能優位性が2.3倍の総所有コスト増を正当化できないと判断し、Ethernetを標準化した。² 一方、OpenAIはInfiniBandの優れた輻輳制御により、GPT-4のトレーニングが初期のEthernetベースの試みより40%高速に完了できたと評価している。³ これらの相反する経験は、根本的な真実を明らかにしている:「正しい」選択は、ワークロードの特性、スケール目標、経済的制約に完全に依存するということだ。
ネットワークアーキテクチャの決定は、AIインフラストラクチャのあらゆる側面に何年にもわたって影響を及ぼす。InfiniBandの独自エコシステムは組織をNVIDIAのロードマップに縛り付けるが、分散トレーニングにおいて予測可能な性能を提供する。Ethernetのオープン標準はベンダーの柔軟性とコスト最適化を可能にするが、InfiniBandの初期設定時の効率に匹敵するには高度なチューニングが必要となる。この選択は現在の展開だけでなく将来のスケーラビリティにも影響する。後から技術を切り替えるということは、数百万ドル相当のスイッチ、ケーブル、ネットワークカードを交換することを意味するからだ。
ハードウェアの各世代が進むにつれ、リスクは高まっている。NVIDIAのSpectrum-Xは、800Gbps速度でEthernetにInfiniBand並みの性能をもたらすことを約束しており、InfiniBandの優位性を陳腐化させる可能性がある。⁴ IntelのUltra Ethernet Consortiumは、市場をさらに断片化させる可能性のあるオープン標準を推進している。⁵ 今日インフラを展開する組織は、現在の投資が完全に減価償却される2030年にどの技術が主流になるかを予測しなければならない。予測を誤れば資産が塩漬けになり、AI競争が激化するまさにその時に能力が制約されることになる。
技術アーキテクチャが明らかにする根本的な違い
InfiniBandは、マイクロ秒単位が成功と失敗を分けるスーパーコンピューティングの要件から生まれた。このアーキテクチャは、クレジットベースのフロー制御によるロスレス転送を前提としており、受信側がバッファの可用性を保証した場合にのみ送信側が送信する。⁶ これによりパケットドロップは排除されるが、エンドポイント間の密結合が必要となる。すべてのInfiniBandデバイスはサブネットマネージャーの集中ルーティング決定に参加し、特定のトラフィックパターン向けに最適化された決定論的パスを作成する。このアプローチは一貫したサブマイクロ秒レイテンシを提供するが、予想されるパターンから逸脱する動的なワークロードには対応が難しい。
Ethernetは、絶対的な性能よりもシンプルさと相互運用性が重視されるローカルエリアネットワークから進化した。このアーキテクチャは、ベストエフォート配信によるロス許容転送を前提とし、信頼性は上位レイヤーのプロトコルに依存する。パケットドロップは輻輳制御アルゴリズムをトリガーして転送レートを低下させ、ネットワークの崩壊を防ぐがレイテンシの変動を増加させる。Ethernetの分散ルーティング決定は大規模スケールと柔軟性を可能にするが、負荷時の性能は予測困難となる。最新のデータセンターEthernetは、Priority Flow ControlやExplicit Congestion Notificationなどの機能を追加し、InfiniBandのロスレス動作に近づけている。⁷
RDMA(Remote Direct Memory Access)機能が、両技術を従来のネットワーキングと区別している。InfiniBandはRDMAをネイティブに搭載しており、CPU介入なしにシステム間で直接メモリ転送が可能だ。⁸ InfiniBand上のRDMAは、小さなメッセージに対して0.5マイクロ秒のレイテンシを達成し、カーネルベースのネットワーキングより10倍優れている。EthernetはRoCE(RDMA over Converged Ethernet)を通じてRDMAを追加し、適切に設定すれば同様の性能を提供する。ただし、RoCEは大規模環境で維持することが困難な完璧なネットワーク条件を必要とする。
スイッチングアーキテクチャは技術間で根本的に異なる。InfiniBandスイッチはクロスバーファブリックとして動作し、すべてのポート間でノンブロッキング帯域幅を提供する。⁹ 40ポートのHDR InfiniBandスイッチは、トラフィックパターンに関係なく一貫したレイテンシで16Tb/sの総帯域幅を提供する。Ethernetスイッチは統計的多重化を用いた共有メモリアーキテクチャを使用し、より高いポート密度を達成するが、輻輳時の性能は変動する。このアーキテクチャの違いは、InfiniBandが予測可能な性能を維持する一方、Ethernetがより良い経済性を提供することを意味する。
管理プレーンは異なる哲学的アプローチを反映している。InfiniBandのSubnet Managerは、トポロジーとトラフィックへのグローバルな可視性を持つ集中制御を提供する。¹⁰ マネージャーは最適なルートを計算し、障害を処理し、手動介入なしにサービス品質を維持する。Ethernetは、スパニングツリー、OSPF、BGPなどの分散プロトコルに依存しており、慎重な設定が必要だ。Software-Defined NetworkingはEthernetに集中制御をもたらすが、複雑さと潜在的な障害点を追加する。管理の違いは大規模環境での運用オーバーヘッドに大きく影響する。
生の帯域幅を超えた性能指標
レイテンシ測定は、技術間の微妙な違いを明らかにする。InfiniBand HDRは、すべてのメッセージサイズにわたって一貫して0.6マイクロ秒のポート間レイテンシを達成する。¹¹ 100GbpsのEthernetは1.2マイクロ秒のベースラインレイテンシを示し、輻輳時には50マイクロ秒以上に悪化する。ベースラインの2倍の差は、負荷下では100倍になる。勾配同期が数百万回発生する分散トレーニングでは、マイクロ秒の差が数時間の追加トレーニング時間に積み重なる。
帯域幅効率は、マーケティング仕様とは異なるストーリーを語る。InfiniBandは、効率的なエンコーディングと最小限のプロトコルオーバーヘッドにより、大容量転送で理論帯域幅の95%を提供する。¹² 200Gbps InfiniBandは190Gbpsの実効スループットを維持する。Ethernetのオーバーヘッドは設定により異なる:標準Ethernetは85%の効率を達成し、RoCE v2は適切なチューニングで92%に達する。両技術が同様のPAM4エンコーディングを使用する800Gbps速度では、効率ギャップは縮小する。
輻輳時の動作は技術を劇的に分ける。InfiniBandのクレジットベースのフロー制御は、バッファがオーバーフローする前に転送を停止することで輻輳を防ぐ。¹³ 負荷が増加しても性能は緩やかに低下する。Ethernetのパケットドロップは、TCPスタイルのバックオフアルゴリズムをトリガーし、のこぎり歯状のスループットパターンを作成する。複数の送信者が単一の受信者を圧倒するインキャストシナリオは、チューニングが不十分なEthernetで壊滅的な性能崩壊を引き起こす。InfiniBandは同じシナリオを最小限の劣化で処理する。
スケーラビリティテストはアーキテクチャの限界を露呈させる。InfiniBandファブリックは、3層ファットツリートポロジーで単一サブネット内48,000ノードまでスケールする。¹⁴ より大規模な展開では、ルーターを介して接続された複数のサブネットが必要となり、複雑さが増す。Ethernetは階層ルーティングを使用して数百万ノードまでスケールするが、性能を維持するには慎重な設計が必要だ。Facebookのデータセンターは、トラフィックエンジニアリング用のカスタムプロトコルを使用したEthernetで10万台以上のサーバーを接続している。¹⁵ これらの例は、両技術がスケールすることを示しているが、そのメカニズムは異なる。
信頼性指標は、制御された環境ではInfiniBandがわずかに有利だ。InfiniBandのロスレス転送と自動パス移行は、99.999%のパケット配信を達成する。¹⁶ 適切な冗長性を備えたEthernetは99.995%の信頼性に達し、ほとんどのワークロードで許容範囲内だ。ただし、InfiniBandの密結合は、単一コンポーネントの障害がファブリック全体を不安定化させる可能性があることを意味する。Ethernetの疎結合は障害をより適切に封じ込め、カスケード効果を防ぐ。信頼性の違いは、いかなる中断も数百万ドルの計算時間を無駄にする長時間実行のトレーニングジョブで最も重要となる。
コスト分析が従来の常識を覆す
ハードウェアコストは経済的ストーリーの一部に過ぎない。InfiniBand HDRアダプターはポートあたり2,000〜3,000ドルかかるのに対し、同等のEthernetカードは800〜1,500ドルだ。¹⁷ 40ポートのInfiniBandスイッチは50,000ドルかかるのに対し、Ethernetは25,000ドル。ケーブルもさらにプレミアムが加わる:InfiniBand DACケーブルは500〜800ドルかかり、Ethernet同等品は200〜400ドルで済む。1,000台のGPUクラスターの場合、InfiniBandハードウェアコストは1,500万ドル対Ethernetの700万ドルとなり、800万ドルのプレミアムは法外に見える。
運用コストは計算を大きく変える。InfiniBandの自動化された管理は、Ethernetと比較して管理オーバーヘッドを60%削減する。¹⁸ 1人のネットワークエンジニアが10,000のInfiniBandポートを管理できるのに対し、手動設定が必要なEthernetポートは4,000だ。大規模展開での人件費削減は年間50万ドルに達する。InfiniBandの高い効率性は消費電力も15%削減し、1メガワット施設で年間20万ドルを節約する。
ソフトウェアライセンスは多くの人が見落とす隠れたコストを生み出す。InfiniBandのOFED(OpenFabrics Enterprise Distribution)スタックはオープンソースで、オプションのサポート契約がある。¹⁹ エンタープライズEthernetは、高度な機能のために高価なソフトウェアライセンスを必要とすることが多い:VMware NSXはCPUあたり5,000ドル、Cisco ACIはスイッチあたり50,000ドルかかる。²⁰ これらのライセンスは、5年間の展開ライフサイクルでハードウェアコストを超える可能性がある。SONiCのようなオープンネットワーキングイニシアチブはEthernetソフトウェアコストを削減するが、エンジニアリング投資が必要だ。
総所有コスト(TCO)モデルは、利用率の仮定に大きく依存する。InfiniBandの15%の性能優位性が15%速いトレーニングに変換される場合、時間の節約は、速度が競争優位を決定する組織にとってプレミアム価格を正当化する。GPU計算に月100万ドルを費やす組織は、より速い完了により15万ドルを節約する。3年間で、節約額はInfiniBandのプレミアムを超える。しかし、ワークロードがInfiniBandの利点から恩恵を受けない場合、プレミアムは純粋な無駄となる。
ベンダーロックインのコストは定量化が困難だが、長期的な経済性に大きく影響する。InfiniBandは組織をNVIDIAのエコシステムに縛り付け、交渉力と技術選択を制限する。²¹ Ethernetのベンダー多様性は、コストを20〜30%削減する競争入札を可能にする。ただし、Ethernetベンダー間の切り替えには数百万ドルかかる再エンジニアリングが必要だ。技術選択に関係なく、真のベンダー独立性は幻想のままだ。
ソフトウェアエコシステムの成熟度は劇的に異なる
ドライバーの安定性は、ハードウェア仕様よりも本番環境の信頼性に影響する。InfiniBandのMellanox OFEDドライバーは、NVIDIA GPUとの広範なテストを受けており、ソフトウェアスタック全体での互換性を確保している。²² バージョン5.8のOFEDはすべてのCUDAバージョンをシームレスにサポートする。Ethernetドライバーの品質はベンダーにより異なる:Intelのiceドライバーは堅牢だが、一部のベンダーは負荷時にカーネルパニックを引き起こすドライバーを出荷している。ドライバーの問題は、デバッグに何週間も費やす謎の障害を引き起こす。
フレームワーク統合が開発者の生産性を決定する。PyTorchとTensorFlowは、ネイティブUCXサポートを通じてInfiniBand向けに最適化されており、チューニングなしでほぼ理論値の性能を達成する。²³ NCCL(NVIDIA Collective Communications Library)には、all-reduce操作を30%高速化するInfiniBand固有の最適化が含まれている。²⁴ Ethernetサポートは存在するが、RoCEパラメータ、輻輳制御アルゴリズム、バッファサイズの手動設定が必要だ。フレームワークがEthernet最適化を追加するにつれて統合ギャップは縮小しているが、InfiniBandは使いやすさの優位性を維持している。
管理ツールはエコシステムの成熟度の違いを反映している。NVIDIAのUFM(Unified Fabric Manager)は包括的なInfiniBand監視を提供し、自動的に検出する
[翻訳のため内容を省略]