分散トレーニングにおける帯域幅最適化:400Gbps以上のネットワークトラフィック管理

GPT-4は25,000台のGPUで毎時400TBのネットワークトラフィックを生成。圧縮、階層削減、NCCLチューニングによる帯域幅最適化の完全ガイド。

分散トレーニングにおける帯域幅最適化:400Gbps以上のネットワークトラフィック管理

分散トレーニングにおける帯域幅最適化:400Gbps以上のネットワークトラフィック管理

2025年12月8日更新

2025年12月更新情報: 最新モデルでは現在、GPU相互接続あたり800Gbps以上が必要となり、GB200 NVL72はラック内で1.8TB/sのNVLink帯域幅を使用します。NCCL 2.20+はBlackwellアーキテクチャ向けに最適化されました。Ring-allreduceは、マルチラックトポロジー向けに最適化された階層アルゴリズムによって置き換えられつつあります。勾配圧縮は、BlackwellでのFP8トレーニングにより100倍の削減を実現しています。Microsoft DeepSpeed-Ulyssesは、最適化されたシーケンス並列通信により10万以上のコンテキストウィンドウトレーニングを可能にしています。

分散GPT-4トレーニングは、25,000台のGPU全体で毎時400テラバイトのネットワークトラフィックを生成し、帯域幅のボトルネックが発生すると、アイドル状態の計算時間で数百万ドルが無駄になる可能性があります。Meta社がLLaMAモデルをトレーニングする際、ネットワークは毎秒1.6テラビットの勾配交換トラフィックを維持し、通信が制限要因にならないよう高度な最適化が必要です。最適化されたネットワーク利用とナイーブな利用の差は、大型モデルトレーニング実行において3倍の時間延長と5,000万ドルのコスト増加を招く可能性があります。本ガイドでは、分散AIトレーニングにおける極端な帯域幅要件を管理するための実証済み技術を検証します。

分散トレーニングにおけるネットワークトラフィックパターン

all-reduce操作が分散トレーニング通信を支配し、大型モデルトレーニング中のネットワーク帯域幅の89%を消費します。各トレーニング反復では、すべてのGPUが計算した勾配を他のすべてのGPUと共有する必要があり、N²/2のネットワークフローを生成するN対N通信パターンを作成します。512台のGPUで70Bパラメータモデルをトレーニングする場合、2秒ごとに同期する必要がある280GBの勾配データに相当し、140GB/sまたは1.12Tbpsの集約帯域幅が必要です。

パラメータサーバーアーキテクチャは、集中化されたボトルネックとは異なるトラフィックパターンを作成します。ワーカーノードは勾配をパラメータサーバーに送信し、パラメータサーバーが集約して更新された重みを再配布します。このハブアンドスポークパターンは、勾配量の2N倍を処理する必要があるパラメータサーバーに帯域幅要件を集中させます。パラメータサーバーを使用するAmazonの推薦モデルでは、トラフィックの90%がわずか10%のノードを通過するため、輻輳を防ぐための慎重なネットワークトポロジー計画が必要です。

パイプライン並列処理は、隣接するパイプラインステージ間でポイントツーポイントトラフィックを生成します。アクティベーションはパイプラインを前方に流れ、勾配は後方に流れ、双方向トラフィックパターンを作成します。各パイプライン境界では、大型モデルのバッチあたり約10GBのアクティベーションデータを転送します。MicrosoftのDeepSpeedパイプライン実装は、計算と通信を重複させる慎重なスケジューリングにより95%の帯域幅効率を実現しています。

データ並列処理トラフィックはモデルサイズに比例してスケールしますが、GPU数に対しては一定です。各GPUは並列処理度に関係なく完全な勾配テンソルを受信する必要があります。175Bパラメータモデルは、100台または1,000台のGPUでトレーニングしても、反復あたり700GBの勾配データを生成します。この特性により帯域幅要件は予測可能ですが、大型モデルでは相当な量になります。

テンソル並列処理は、モデル層内できめ細かい通信を作成します。GPU間で分割された行列乗算では、計算の途中で中間結果の交換が必要です。これにより、厳密な同期要件を持つレイテンシに敏感なトラフィックが生成されます。NVIDIAのMegatron実装では、計算オーバーラップによりテンソル並列通信レイテンシの70%を隠蔽しますが、テンソル並列GPU間では依然として200Gb/sの帯域幅が必要です。

最適化技術と戦略

勾配圧縮は、精度への影響を最小限に抑えながら通信量を10~100倍削減します。スパース化は上位k勾配のみを送信し、通常は大きさで上位1%を対象とします。量子化は勾配精度を32ビットから8ビットまたは1ビット表現に削減します。誤差フィードバック機構は圧縮誤差をローカルで蓄積し、収束特性を保持します。Microsoftの1ビットAdamは、BERTトレーニングで精度損失なく94%の圧縮を実現しています。

Ring-allreduceアルゴリズムは、ナイーブなブロードキャストアプローチと比較して帯域幅要件を最小化します。勾配は論理リングを流れ、各GPUが一つの隣接ノードから受信し、別の隣接ノードに送信します。これにより、単一リンクを通過するデータは(N-1)/Nのみとなり、最適な帯域幅利用を実現します。NVIDIAのNCCLライブラリは、理論的ネットワーク容量の90%を実現する帯域幅最適リングアルゴリズムを実装しています。

階層削減は、ネットワークトポロジーを活用してクロススイッチトラフィックを最小化します。ラック間での全体削減に先立ってラック内でのローカル削減を行います。これにより、ラック間トラフィックをラックあたりのGPU数で削減し、通常8倍の削減となります。GoogleのTPUポッドは3レベル階層削減を実装し、トラフィックの70%をローカルスイッチ内に保持しています。適切な階層設計により、広域ネットワーク要件を90%削減できます。

複数のマイクロバッチにわたる勾配蓄積は、通信オーバーヘッドを償却します。各マイクロバッチ後の同期の代わりに、勾配をローカルで蓄積してから定期的に同期します。これにより、蓄積ステップに比例して通信頻度が削減されます。OpenAIのGPT-3トレーニングでは8マイクロバッチにわたって勾配を蓄積し、同等の数学的結果でネットワークトラフィックを87.5%削減しました。

通信スケジューリングは、レイテンシを隠すためにデータ転送と計算を重複させます。レイヤーNが計算している間、レイヤーN-1の勾配がバックグラウンドで転送されます。このパイプライニングでは、ピークバースト容量ではなく計算レートに合わせた帯域幅のみが必要です。適切なスケジューリングは、継続的なネットワーク通信にもかかわらず95%のGPU利用率を実現します。DeepSpeedの通信スケジューラーは、プロファイリングデータに基づいてオーバーラップパターンを自動的に最適化します。

高帯域幅向けインフラストラクチャ設計

ネットワークトポロジーは、達成可能な帯域幅とトレーニング性能に決定的な影響を与えます。Fat-treeアーキテクチャは、ラインレートでのany-to-any通信を可能にする完全バイセクション帯域幅を提供します。3:1オーバーサブスクリプションのLeaf-spine設計は、ほとんどのワークロードでコストとパフォーマンスのバランスを取ります。Dragonflyトポロジーは、インテリジェントルーティングにより高帯域幅を維持しながらスイッチ数を削減します。MetaのResearch SuperClusterは、2Pbpsの集約帯域幅を実現する3階層Closネットワークを使用しています。

InfiniBand展開は、AIワークロードにおいてEthernetと比較して優れた帯域幅とレイテンシを提供します。NDR 400Gb/s InfiniBandは、サブマイクロ秒レイテンシでポートあたり400Gbpsを提供します。カーネルネットワークスタックを迂回するRDMAにより、CPU オーバーヘッドをほぼゼロに削減します。アダプティブルーティングは複数パス間で自動的に負荷を分散します。NVIDIAのSeleneスーパーコンピューターはInfiniBandを専用使用し、4,480台のGPUで95%のスケーリング効率を実現しています。

Ethernetの進化により、InfiniBandより低コストで競争力のある性能を実現しています。400GbEおよび新興の800GbE標準は、InfiniBandの帯域幅レベルに近づいています。RoCEv2(RDMA over Converged Ethernet)により、Ethernetネットワークでのカーネル迂回が可能になります。ただし、Ethernetではフロー制御、QoS、輻輳管理の慎重な設定が必要です。AmazonのEFA(Elastic Fabric Adapter)は、特定のワークロードでEthernetがInfiniBandと同等の性能を実現できることを実証しています。

スイッチ選択は帯域幅とレイテンシ特性の両方に大きく影響します。Broadcom Tomahawkスイッチは競争力のある価格で高いポート密度を提供しますが、レイテンシが高くなります。Intel Tofinoプログラマブルスイッチはカスタム輻輳制御アルゴリズムを可能にします。NVIDIA Spectrumスイッチは直接データ配置のためにGPUメモリと統合されます。スイッチバッファ深度は、パケット損失なくバーストトラフィックに対応する必要があります。適切なスイッチ選択により、実効帯域幅を30%向上できます。

ケーブルプラント設計は高速での信号品質に影響します。Direct Attach Copper(DAC)ケーブルは、400Gbpsで3メートル未満の配線に対応します。Active Optical Cable(AOC)は、低消費電力で100メートルまで延長できます。シングルモードファイバーはキャンパススケール展開を可能にしますが、高価なトランシーバーが必要です。ケーブル品質は、再送信を引き起こし実効帯域幅を削減するビット誤り率に直接影響します。Googleのデータセンターは、一貫した性能のためにAOCを標準化しています。

輻輳制御とトラフィック管理

TCP輻輳制御アルゴリズムは、AIクラスターで典型的な高帯域幅、低レイテンシネットワークで苦労しています。CUBICなどの従来アルゴリズムは、保守的な成長率により利用可能帯域幅を十分活用できません。Data Center TCP(DCTCP)はECNマーキングを使用して浅いキューと高利用率を維持します。GoogleのSwift輻輳制御は、マイクロ秒レベルのレイテンシで99%のリンク利用率を実現します。適切な輻輳制御選択により、実効帯域幅を40%向上できます。

Quality of Service(QoS)設定により、勾配トラフィックを補助フローよりも優先します。DSCPマーキングは優先処理のためにトレーニングトラフィックを識別します。Priority Flow Control(PFC)は重要なトラフィックのパケット損失を防ぎます。Weighted fair queuingは異なるトラフィッククラス間で帯域幅を比例配分します。これらのメカニズムにより、競合するワークロードにもかかわらずトレーニングトラフィックが必要な帯域幅を確実に受け取ります。Microsoft AzureのAIインフラストラクチャは、トラフィック差別化に8つのQoSクラスを使用しています。

複数パスでの負荷分散により、集約帯域幅利用を最大化します。Equal-Cost Multi-Path(ECMP)ルーティングは並列リンク間でフローを分散します。アダプティブルーティングは輻輳と障害に動的に調整します。パケットごとのスプレイは最もきめ細かい負荷分散を実現しますが、順序変更を引き起こす可能性があります。Facebookのファブリックはアダプティブルーティングを使用し、全リンクで同時に95%の利用率を実現しています。

バッファ管理は、レイテンシを最小化しながらパケット損失を防ぎます。浅いバッファはキューイング遅延を削減しますが、バースト中に損失のリスクがあります。深いバッファはトラフィックバーストに対応しますが、レイテンシが増加します。Active Queue Management(AQM)は、キュー占有率に基づいてドロップ確率を動的に調整します。AIワークロードの最適バッファサイズは通常、リンク帯域幅の100~200マイクロ秒です。このバランス調整は実効スループットに大きく影響します。

フロー制御メカニズムは、高速送信者が低速受信者を圧倒することを防ぎます。InfiniBandのクレジットベースフロー制御は、ソースでの輻輳を防ぎます。EthernetのPriority Flow Controlは、設定ミスがあるとhead-of-line blockingを引き起こす可能性があります。受信者主導フロー制御は正確なレートマッチングを可能にします。適切なフロー制御設定により、高価な再送信を引き起こすパケット損失を防ぎます。

監視と性能解析

帯域幅利用率メトリクスにより、ネットワーク容量がトレーニング性能を制約するかどうかが明らかになります。リンク利用率は平均60~80%で、バーストに対応するためピークは95%以下である必要があります。マイクロバースト検出には、一時的な輻輳を捉えるためにサブミリ秒サンプリングが必要です。持続的な高利用率は容量拡張の必要性を示します。Alibabaの監視では、トレーニングネットワーク全体で平均73%の利用率と92%のピークが示されています。

レイテンシプロファイリングにより、トレーニング反復時間に影響する通信ボトルネックを特定します。all-reduce完了時間は、GPU利用率とトレーニング速度に直接影響します。同期操作では平均よりもテール レイテンシが重要です。総反復時間に対するネットワークの寄与は25%以下に留める必要があります。プロファイリングツールは、正確な帰属のためにネットワークイベントとGPUタイムラインを関連付ける必要があります。

パケット損失監視により、トレーニングに大きく影響する前にネットワーク問題を検出します。0.01%の損失率でも、再送信により実効帯域幅が10%削減される可能性があります。損失パターンにより、問題が体系的かランダムかが明らかになります。特定のスイッチやリンクとの相関により、故障コンポーネントが特定されます。パケット損失の自動アラートにより、長時間のトレーニング遅延を防ぎます。

トラフィックパターン解析により、実際のワークロードに対してネットワーク設定を最適化します。ヒートマップはGPUペア間の通信パターンを視覚化します。時系列解析は周期的パターンと異常を明らかにします。不均衡なトラフィックは最適でない並列化戦略を示します。この解析により、トポロジー最適化の指針が得られます。

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING