GPUクラスタネットワークトポロジ設計:ファットツリー、ドラゴンフライ、レール最適化アーキテクチャ
2025年12月11日更新
2025年12月アップデート: DGX SuperPODはQuantum-2 InfiniBand(400Gb/s)による3層ファットツリーを規定。Metaの調査では、ネットワーク構成エラーがGPUクラスタにおける重大なジョブ障害の10.7%を引き起こしていることが判明。通信パターンが動的に変化する分散トレーニングでは、フルビセクション帯域幅が不可欠。Google TPUポッドは3Dトーラスを使用し、AWS Trainiumはワークロードに最適化されたトポロジを採用。
NVIDIAのDGX SuperPODリファレンスアーキテクチャは、Quantum-2 InfiniBandスイッチを使用して最大32台のDGXシステムを接続する3層ファットツリーネットワークトポロジを規定しており、ポートあたり400 Gb/sを実現している。[^1] このアーキテクチャはフルビセクション帯域幅を提供し、クラスタの任意の2つの半分の間の総帯域幅が、どちらの半分への総帯域幅とも等しくなる。ファットツリートポロジがGPUクラスタの展開で主流となっているのは、どのGPUペアが通信しても予測可能な性能を提供するためであり、これは通信パターンが動的に変化する分散トレーニングにとって重要な特性である。
ネットワークトポロジの選択は、トレーニング性能、コスト、運用の複雑さに直接影響する。Metaの調査では、GPUクラスタにおける重大なジョブ障害の10.7%がネットワーク構成エラーに起因し、トポロジ依存の輻輳が性能のばらつきに寄与していることが判明した。[^2] GoogleのTPUポッドは隣接するアクセラレータ間の直接接続を可能にする3Dトーラストポロジを使用し、AWS Trainiumクラスタはワークロードパターンに最適化された異なるトポロジを採用している。[^3] トポロジのトレードオフを理解することで、組織は特定のワークロード要件と予算制約に合致したアーキテクチャを選択できる。
ファットツリートポロジの基礎
ファットツリートポロジは、リンク容量がルートに向かって増加すればツリー構造でフルビセクション帯域幅を達成できることを示した、Charles Leisersonの1985年の研究に端を発する。[^4] 現代の実装では全体を通じて等容量のリンクを使用し、より太いリンクではなく複数の並列パスによってフル帯域幅を達成している。
3層ファットツリーアーキテクチャ
3層ファットツリーは、サーバーに接続するリーフスイッチ、リーフトラフィックを集約するスパインスイッチ、およびスパイン間の完全な接続性を提供するコアスイッチで構成される。[^5] 各リーフスイッチはすべてのスパインスイッチに接続し、各スパインはすべてのコアスイッチに接続する。このメッシュ接続により、任意の2台のサーバー間に複数の等コストパスが作成される。
NVIDIAは、予測可能なレイテンシと帯域幅特性のため、DGXクラスタにファットツリーを推奨している。[^6] このトポロジにより、all-reduceのような集団演算がGPUの配置に関係なく一貫した性能を発揮することが保証される。トレーニングジョブはスケジューリング時にネットワークトポロジを考慮する必要がなく、クラスタ管理が簡素化される。
オーバーサブスクリプション比率
フルビセクション帯域幅には上位層で高価なスイッチ容量が必要となる。多くの展開では、下位層からの総アップリンク帯域幅が上位層の利用可能容量を超えるオーバーサブスクリプションを受け入れている。[^7] 2:1のオーバーサブスクリプション比率は、トラフィックの半分のみが同時に上位層を通過できることを意味する。
オーバーサブスクリプションは、通信の大部分がラックやポッド内で発生する局所性のあるワークロードに適している。しかし、all-to-all通信パターンを持つ分散トレーニングはオーバーサブスクリプションされたリンクを飽和させ、輻輳と性能低下を引き起こす。AIトレーニングクラスタは、コストが高くてもノンオーバーサブスクリプション設計が一般的に必要となる。[^8]
ラディクスとスケーリング
スイッチラディクスは各スイッチが提供するポート数を決定し、スケールとコストの両方に影響する。64ポートスイッチで32本のダウンリンクと32本のアップリンクを持つ3層ファットツリーを構築すると、32,768エンドポイントまでスケールする。[^9] より高ラディクスのスイッチは必要なスイッチ数を減らすが、スイッチ単価は増加する。
NVIDIAのQuantum-2スイッチは400 Gb/sで64ポートを提供し、合理的なスイッチ数で大規模ファットツリー展開を可能にする。[^10] 次世代のQuantum-X800はポート速度を800 Gb/sに引き上げ、トポロジ構造を変更することなく総帯域幅を2倍にする。
レール最適化トポロジ
レール最適化トポロジは、GPUサーバーには高速内部インターコネクトを共有する複数のGPUが含まれているという認識から生まれた。各GPUを独立して扱うのではなく、レール最適化設計はサーバー内のGPU配置に合わせてネットワーク接続を調整する。[^11]
GPUレールの理解
DGX H100システムには、NVLinkで接続された8つのGPUが含まれ、各GPUはネットワークインターフェースカード(NIC)にも接続されている。[^12] 8つのNICはクラスタ全体に広がる8つの「レール」に対応する。レール0はすべてのサーバーのGPU 0を接続し、レール1はGPU 1を接続する、というように続く。レール内の通信は、レール間通信よりも少ないスイッチホップで済む。
NVIDIA NVLink SwitchはGPUあたり900 GB/sの総帯域幅でサーバー内およびサーバー間のGPUを接続する。[^13] NVLinkドメインがほとんどのGPU間通信を処理し、InfiniBandネットワークがNVLinkドメイン間の通信を処理する。レール最適化トポロジは、InfiniBandトラフィックを最小化するためにInfiniBandパスをNVLinkドメインに合わせて調整する。
実装上の考慮事項
レール最適化展開では、ラックやポッド間でレール整合性を維持するための慎重な配線が必要となる。[^14] 誤配線された接続はレール局所性を破壊し、トラフィックを追加のスイッチホップを通過させることになる。レール最適化の利点を実現するには、ケーブル管理の規律が不可欠である。
このトポロジは、同等スケールの完全なファットツリーと比較してスイッチ要件を削減する。節約は、レール最適化ワークロードがほとんど使用しないレール間スイッチ容量の排除から生まれる。[^15] 組織は、レール最適化設計にコミットする前に、ワークロードパターンが実際にレール局所性を示すことを確認する必要がある。
ドラゴンフライトポロジ
ドラゴンフライトポロジは、スイッチをグループに編成し、グループ内は密な接続性を持ち、グループ間は疎なリンクを持つ。[^16] この設計は、任意の2つのエンドポイント間の合理的なパス長を維持しながら、ファットツリーと比較してスイッチ数を削減する。
ドラゴンフライ構造
ドラゴンフライはグループで構成され、各グループには複数のスイッチがあり、グループ内で完全に接続されている。グローバルリンクは各スイッチを他のグループのスイッチに接続する。[^17] 任意の2つのエンドポイントは、最大3ホップ(ローカルスイッチからグループスイッチ、リモートグループスイッチを経て宛先)で接続される。
ホップ数の削減により、大規模展開でのレイテンシが低下する。スイッチ数の削減は資本コストと消費電力を減らす。しかし、ドラゴンフライはファットツリーよりも低いビセクション帯域幅を提供するため、特定のトラフィックパターンでは輻輳の影響を受けやすい。[^18]
アダプティブルーティングの要件
ドラゴンフライの性能は、利用可能なパスにトラフィックを分散するアダプティブルーティングに大きく依存する。[^19] スタティックルーティングは特定のリンクにトラフィックを集中させ、他のパスが未使用のまま輻輳を引き起こす。スイッチはリンク使用率を監視し、負荷の少ないパスにトラフィックを動的にシフトする必要がある。
NVIDIA InfiniBandはドラゴンフライ展開に適したアダプティブルーティングをサポートしている。[^20] この機能は、ルーティングアルゴリズムがワークロードトラフィックパターンに適切に応答することを確認するための構成とテストが必要である。誤って構成されたアダプティブルーティングは、スタティックルーティングよりも性能が悪化する可能性がある。
ワークロード感度
ドラゴンフライは、ほとんどのトラフィックをグループ内に留める局所的な通信パターンを持つワークロードに適している。[^21] すべてのエンドポイントにわたって均一なランダムトラフィックを生成するワークロードは、グループ間リンクに容量を超える負荷をかける。このトポロジは、リクエストアフィニティを持つ推論サービングには適しているが、グローバルコレクティブを使用する大規模トレーニングでは問題が生じる可能性がある。
ドラゴンフライを評価する組織は、展開前に予想されるワークロードの通信パターンを特徴付けるべきである。シミュレーションツールは、現実的なトラフィック下での予想性能をモデル化し、トポロジ調整が必要な潜在的な輻輳ポイントを特定できる。[^22]
トーラスとメッシュトポロジ
トーラストポロジは、境界でラップアラウンド接続を持つ規則的なグリッドパターンでノードを接続する。GoogleのTPUポッドは、スイッチングなしで直接隣接接続を提供する3Dトーラストポロジを使用している。[^23]
直接ネットワーク対スイッチドネットワーク
トーラスネットワークは各ノードを隣接ノードに直接接続し、通信パスからスイッチを排除する。[^24] 直接接続は、多くの並列アルゴリズムで一般的な隣接ノード間通信のレイテンシを削減する。しかし、離れたノード間の通信は複数の中間ノードを通過し、各ホップでレイテンシが増加し帯域幅を消費する。
ファットツリーのようなスイッチドネットワークは、物理的な配置に関係なく任意の2つのエンドポイント間で等しいレイテンシを提供する。この均一性はプログラミングと負荷分散を簡素化する。トーラスネットワークは、通信距離を最小化するためにトポロジを意識した配置が必要である。[^25]
次元の選択
より高次元のトーラストポロジは、ノードごとの接続数増加を代償に直径(最大ホップ数)を削減する。[^26] 各次元にNノードを持つ3Dトーラスの直径は3N/2であり、2Dトーラスの直径はNである。Googleの3Dトーラスの選択は、接続数と直径のバランスを取っている。
物理的制約が次元選択に影響する。2Dトーラスはマシンルームの行と列に自然にマッピングされる。3Dトーラスは、積み重ねたラックまたはかなりの距離にわたる接続が必要となる。高次元トーラスでのケーブル長は、スケールによっては問題になる可能性がある。[^27]
トポロジ選択フレームワーク
ネットワークトポロジの選択には、ワークロード特性、スケール要件、予算制約、および運用能力の評価が必要である。
ワークロード分析
異なるワークロードはネットワークに異なる負荷をかける。大規模言語モデルのトレーニングは、高いビセクション帯域幅を必要とするall-to-all通信パターンを生成する。[^28] バッチ処理を伴う推論サービングは、リクエストを処理するGPUグループ内でより局所的な通信を示す。データ前処理は、ランダム通信を伴うシャッフルパターンを生成する可能性がある。
組織は、通信パターンを理解するために予想されるワークロードをプロファイリングすべきである。本番クラスタの監視は、既存のワークロードの実際のトラフィックパターンを明らかにする。新しいワークロードタイプは、アルゴリズム分析またはベンダーガイダンスに基づく推定が必要な場合がある。
スケールの考慮事項
数十GPUの小規模クラスタでは、洗練されたトポロジ最適化は必要ないかもしれない。すべてのGPUを接続する単一の高ラディクススイッチは、多層の複雑さなしに完全な接続性を提供する。[^29] トポロジ選択は、スイッチングコストとケーブル敷設が重要になる数百から数千のGPUにまたがるクラスタで最も重要となる。
将来の成長がトポロジ選択に影響する。ファットツリーは、フルビセクション帯域幅を維持しながらリーフスイッチとサーバーを追加することでスケールする。ドラゴンフライはグループを追加することでスケールするが、グローバルリンクの再バランスが必要になる場合がある。成長を計画することで、運用を中断するトポロジ変更を回避できる。[^30]
経済的要因
スイッチとケーブルのコストはトポロジによって大きく異なる。ファットツリーは同等スケールのドラゴンフライよりも多くのスイッチが必要である。レール最適化設計はInfiniBandスイッチングを削減するが、NVLink Switchシステムが必要となる。[^31] 総コスト分析には、スイッチ、ケーブル、光学部品、電力、冷却、およびラックスペースを含める必要がある。
運用コストも異なる。複雑なトポロジは、より高度な監視とトラブルシューティング能力が必要である。トポロジ固有の考慮事項について運用スタッフをトレーニングすることはコストを増加させる。よりシンプルなトポロジは、運用負担の軽減により、わずかな性能のトレードオフを正当化できる場合がある。
実装と展開
ネットワークトポロジの実装には、物理インフラストラクチャ、スイッチング構成、および検証テストにまたがる慎重な計画が必要である。
物理インフラストラクチャ計画
高速ネットワーク展開には、400 Gb/s以上で数千の接続をサポートする構造化配線が必要である。[^32] ケーブルルーティングは、曲げ半径違反と信号劣化を最小限に抑える必要がある。ホットアイル/コールドアイル配置は、ケーブル経路を妨げることなく収容する必要がある。
[翻訳のためコンテンツは切り詰められています]