AI向けイーサネットスイッチ:GPUクラスターを接続する51.2Tbpsプラットフォーム

AI向けイーサネットスイッチ:GPUクラスターを接続する51.2Tbpsプラットフォーム

AI向けイーサネットスイッチ:GPUクラスターを接続する51.2Tbpsプラットフォーム

2025年12月11日更新

2025年12月アップデート: Dell'Oro Groupによると、イーサネットが現在AIバックエンド展開をリード。xAI Colossus(100,000台のH100)がSpectrum-Xで95%のスループットを達成(従来のイーサネットでは60%)。Broadcom Tomahawk 5が単一モノリシックチップで51.2Tbpsを実現(64x 800GbE)。Ultra Ethernet Consortiumが560ページの仕様書でAI最適化標準を策定。NVIDIA Spectrum-X800が従来のイーサネットに対し1.6倍のAI性能を提供。

イーサネットが現在AIバックエンドネットワーク展開をリードしている。Dell'Oro Groupの報告によると、コスト面での優位性、マルチベンダーエコシステム、運用面での慣れ親しみやすさが、2025年のInfiniBandに対する採用を牽引している。¹ xAIのColosusスーパーコンピュータがイーサネット性能を大規模に実証し、Spectrum-Xネットワーキングを使用して100,000台のNVIDIA Hopper GPUを接続し、高度な輻輳制御により95%のデータスループットを達成したことで、この流れは加速している。² 同等規模の従来型イーサネットでは数千のフロー衝突が発生し、スループットは約60%に制限される。³

スイッチシリコンはAI需要に対応するため帯域幅を倍増させた。Broadcomの Tomahawk 5は単一モノリシックチップで51.2テラビット/秒を実現し、64ポートの800GbEまたは128ポートの400GbEスイッチを駆動する。⁴ NVIDIAのSpectrum-X800プラットフォームはこの容量に匹敵しながら、BlueField SuperNICとのソフトウェア統合によるAI固有の最適化を追加している。2025年6月のUltra Ethernet Consortium仕様は、AI最適化イーサネットの標準を策定し、輻輳制御、RDMAトランスポート、マルチベンダー相互運用性のための560ページのフレームワークを確立した。⁵

Broadcom Tomahawk 5が帯域幅のベンチマークを設定

StrataXGS Tomahawk 5スイッチシリーズは、単一モノリシックデバイスで51.2テラビット/秒のイーサネットスイッチング容量を提供し、前世代シリコンの帯域幅を倍増させた。⁶ このチップは、2014年のTomahawk 1で確立した帯域幅倍増のペースを維持し、マーチャントスイッチシリコンにおけるBroadcomの継続的な優位性を示している。

アーキテクチャの決定がTomahawk 5を競合他社と差別化している。競合する51.2Tbps設計がモノリシックパケット処理エンジンの周囲に複数のシグナリングSerDesチップレットをラップするチップレットアーキテクチャを使用するのに対し、Tomahawk 5は5nmプロセス技術を使用して単一のシリコンで全帯域幅を達成する。⁷ 共有バッファアーキテクチャは、AIワークロードに不可欠なRoCEv2およびその他のRDMAプロトコルに対して最高の性能と最低のテールレイテンシーを提供する。⁸

ポート構成は多様な展開シナリオをサポート:最大ポート帯域幅を必要とするスパイン展開向けの800Gbps×64ポート、バランスの取れたリーフスイッチ向けの400Gbps×128ポート、広範なサーバー接続を必要とする環境向けの200Gbps×256ポート。⁹ このチップは、従来のClosトポロジーと、AIクラスター通信に最適化されたトーラス、Dragonfly、Dragonfly+、Megaflyを含む非Closアーキテクチャの両方をサポートする。¹⁰

高度な機能はAI/MLワークロード要件を直接ターゲットにしている。Cognitive Routingはインテリジェントなトラフィック分散を提供する。動的ロードバランシングは利用可能なパス全体にフローを分散する。エンドツーエンドの輻輳制御は、GPU使用率を低下させるネットワーク飽和を防止する。¹¹ Broadcomは、Jericho3-AIがこれらの最適化により競合チップと比較して10%以上短いジョブ完了時間を提供すると主張している。¹²

電力効率の向上は大幅である。単一のTomahawk 5は同等の帯域幅で48台のTomahawk 1スイッチを置き換え、電力要件を95%以上削減する。¹³ すでにラックあたりの電力密度に苦労しているAIデータセンターにとって、ネットワーキング効率の改善はコンピュートと冷却の最適化と相乗効果を発揮する。

複数のベンダーの商用スイッチ製品がTomahawk 5シリコンを活用している。FS.comのN9600-64ODは、サブマイクロ秒レイテンシーで64x 800GbEポートを提供する。¹⁴ NADDODのN9500シリーズは、AIデータセンター展開に最適化された400Gと800Gの両方の構成を提供する。¹⁵ AristaのAI Leaf 7060X6ファミリーは、2RUフォームファクターで51.2Tbps容量のためにTomahawk 5を採用している。¹⁶

NVIDIA Spectrum-XがAIネイティブイーサネットを構築

NVIDIAはSpectrum-Xを、AIワークロード専用に構築された初のイーサネットネットワーキングプラットフォームとして設計した。このプラットフォームはSpectrum SN5600スイッチとBlueField-3 SuperNICを組み合わせ、従来のイーサネット実装に対してジェネレーティブAI性能を1.6倍向上させる。¹⁷

Spectrum-X800 SN5600スイッチは、OSFPフォームファクターを使用した64ポートの800GbEと51.2Tbpsの総スイッチング容量を提供する。¹⁸ スイッチの基盤となるSpectrum-4アーキテクチャは、容量とポート密度の両方で前世代の機能を超えている。BlueField SuperNICとの統合により、ネットワークファブリック全体にわたる協調的な輻輳制御、アダプティブルーティング、テレメトリ収集が可能になる。

実際の展開がアーキテクチャを検証している。xAIのColossusクラスターは、100,000台のGPU全体でGrokファミリーの大規模言語モデルをトレーニングするためにSpectrum-Xイーサネットを使用している。¹⁹ このシステムは、分散AIトレーニングのバースト的で同期した通信パターンに特化して最適化された輻輳制御技術により、95%のデータスループットを達成している。²⁰

2025年の製品発表はSpectrum-Xの機能を大幅に拡張している。2025年3月に発表されたSpectrum-X Photonicsスイッチは、大規模な電子回路と光通信を融合している。²¹ 構成には800Gbps×128ポート(合計100Tbps)と800Gbps×512ポート(合計400Tbps)が含まれ、エネルギー消費を削減しながら数百万のGPUを接続するAIファクトリーを可能にする。²²

2025年8月に発表されたSpectrum-XGS Ethernetは、分散データセンターを統合されたギガスケールAIスーパーファクトリーに組み合わせるスケールアクロス技術を導入している。²³ この技術は、従来のスケールアップ(NVLink)とスケールアウト(標準ネットワーキング)を超えるAIコンピューティングの第3の柱を表し、組織が分散インフラストラクチャを一貫したトレーニング環境に集約することを可能にする。

主要なクラウドプロバイダーがSpectrum-Xを標準化している。MetaとOracleは2025年10月に、AIトレーニング効率を加速するオープンでアクセラレーテッドなネットワーキングアーキテクチャとしてSpectrum-Xイーサネットスイッチを展開すると発表した。²⁴ マルチベンダーエコシステムは、Spectrum-XをNVIDIAソリューションと業界プラットフォームの両方として位置づけている。

Ultra Ethernet ConsortiumがAI対応標準を確立

Ultra Ethernet Consortiumは2025年6月11日に仕様1.0をリリースし、AIおよびHPCネットワーキングのための包括的な560ページのフレームワークを確立した。²⁵ 2023年にLinux Foundation傘下で発足したこのコンソーシアムは、AMD、Intel、Broadcom、Cisco、Arista、Meta、Microsoft、Dell、Samsung、Huaweiを含む50社以上のテクノロジー企業を結集している。²⁶

技術革新は、AIワークロードにおける従来のイーサネットの根本的な制限に対処している。仕様は、分散トレーニングの同期的でバースト的な通信パターン向けに設計された拡張RDMA実装、トランスポートプロトコル、輻輳制御メカニズムを定義している。²⁷

輻輳制御アプローチは、従来のRoCE実装とは根本的に異なる。UECアプローチは、従来必要とされていたロスレスネットワークに依存せず、エンドポイントが受動的なままでいるのではなく、送信者の送信を積極的に制限できるレシーバー駆動モードを導入している。²⁸ この移行により、AIワークロードに対してより優れた効率でより大規模なネットワークの構築が可能になる。

性能目標はクラスター規模の展開に及ぶ。仕様は、AIトレーニング、推論、HPCワークロードを実行するデータセンター環境に特化して最適化し、クラスター全体で1〜20マイクロ秒のラウンドトリップタイムを目指している。²⁹

相互運用性の保証はベンダーロックインを防止する。UEC仕様1.0は、NIC、スイッチ、光学部品、ケーブル全体で高性能ソリューションを提供し、シームレスなマルチベンダー統合を可能にする。³⁰ オープン標準により、組織は性能の一貫性を維持しながら複数のサプライヤーからコンポーネントを調達できる。

製品の可用性は仕様リリースに続く。Aristaは、7060Xおよび7800Rプラットフォームから始まる、Etherlinkプロダクトポートフォリオ全体でUEC 1.0スイッチング拡張のサポートを確認した。³¹ 複数のベンダーからのフルスタックサポートハードウェアは、2025年後半または2026年初頭に出荷される。³²

AristaとCiscoがモジュラーAIプラットフォームで競争

従来のネットワーキングベンダーは、NVIDIAの専用アプローチと競合しながら、AIワークロード要件にデータセンタープラットフォームを適応させている。

Aristaの7800R4シリーズは、AI展開向けに設計されたモジュラースパインシステムの第4世代として2025年10月29日に発売された。³³ このプラットフォームは、4〜16のラインカードモジュールの構成で460Tbps(920Tbpsフルデュプレックス)のシステムスループットを提供する。³⁴ ポート数は大規模クラスター接続向けに576x 800GbEまたは1152x 400GbEまでスケールする。³⁵

7800R4は、AI最適化パケットパイプラインを備えたBroadcom Jericho3-AIプロセッサを実装している。³⁶ HyperPort技術は4つの800Gbpsポートを3.2Tbpsの集約接続に組み合わせ、個別のポート間での従来のロードバランシングと比較して、AI帯域幅フローのジョブ完了時間を44%短縮する。³⁷ モジュラーシャーシと7280R4固定フォームスイッチは現在出荷中で、7020R4バリアントとHyperPortラインカードは2026年第1四半期に到着予定。³⁸

Cisco Silicon Oneは、G200 ASICによる最大51.2Tbps性能でルーティングとスイッチング機能を統合している。³⁹ アーキテクチャは、高容量、超低レイテンシー、短縮されたジョブ完了時間でAIスケールアウトとスケールアップネットワーキングの両方をターゲットにしている。⁴⁰

Cisco 8800シリーズモジュラールーターはシャーシ基盤を提供する。4、8、12、18スロット構成で利用可能で、すべてのモデルがSilicon Oneベースの第3世代36x 800G(P100)ラインカードをサポートする。⁴¹ Cisco 8223ルーターは、Silicon One P200プログラマブルチップを使用して51.2Tbps容量を提供する。⁴²

拡大されたCisco-NVIDIAパートナーシップは、Silicon OneチップをSpectrum-Xイーサネットスタックに統合し、GPUクラスターサポートのための低レイテンシースイッチング、アダプティブルーティング、テレメトリを組み合わせている。⁴³ Cisco 8000シリーズスイッチでのSONiC(Software for Open Networking in the Cloud)サポートにより、組織は運用要件に合ったオープンネットワークオペレーティングシステムを選択できる。⁴⁴

RoCEがイーサネットをInfiniBandと競争力のあるものに

RDMA over Converged Ethernet(RoCE)は、適切に構成された場合、イーサネットネットワークがAIワークロードでInfiniBandの性能に匹敵することを可能にする。Metaは24,000 GPUクラスターのエンジニアリング詳細を公開し、RoCEとInfiniBandの両方を同等の性能を提供するようにチューニングし、最大のモデルはRoCEファブリックでトレーニングされたと述べた。⁴⁵

RoCE v2はロスレスイーサネットネットワーク構成に依存する。Priority Flow Controlは選択されたトラフィッククラスのパケットロスを排除する。Enhanced Transmission Selectionはトラフィックタイプ間で帯域幅を割り当てる。Explicit Congestion Notificationは早期の輻輳を通知する。Dynamic Congestion ControlはRDMA性能を最適化する。⁴⁶ これらのメカニズムを適切に構成しないと、RoCE性能は大幅に低下する。

主要なクラウドプラットフォームが本番AIワークロード向けにRoCEを検証している。Google CloudのA3 UltraおよびA4 Compute Engineマシンタイプは、高性能GPUネットワーキングにRoCEv2を活用している。⁴⁷ OracleのZettascale10スーパークラスターは、レイテンシーを最小化するために統合4ポートスイッチを含む特殊なイーサネットNICを備えたAcceleron RoCEネットワークファブリックを使用している。⁴⁸

MetaのAIクラスターアーキテクチャは大規模なRoCEを実証している。バックエンドファブリックは、任意の2つのGPU間で高帯域幅、低レイテンシー、ロスレストランスポートを提供するノンブロッキングトポロジーですべてのRDMA NICを接続する。⁴⁹ 2段階Closトポロジーは、AIラックをゾーンに編成し、ラックトレーニングスイッチがリーフスイッチとして機能し、銅製DACケーブル経由でGPUを接続する。⁵⁰

コスト面の考慮は多くの展開でイーサネットを有利にする。256〜1,024 GPUクラスターを展開するティア2およびティア3企業にとって、RoCE付きイーサネットは、特定の定量化されたレイテンシー要件がInfiniBandの2倍のネットワーキングコストを正当化しない限り、デフォルトの推奨となる。⁵¹ 公開されたケーススタディは

[翻訳用にコンテンツを切り捨て]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING