NVLinkとスケールアップネットワーキング:800Gイーサネットでは不十分な場合
2025年12月11日更新
2025年12月更新: NVLink 5はGPUあたり1.8TB/秒(18リンク×100GB/秒)を実現—PCIe Gen5帯域幅の14倍。GB200 NVL72は72基のGPUを130TB/秒の総帯域幅で接続。NVSwitchは576基のGPUをノンブロッキングファブリックで接続し、1PB/秒の総帯域幅を実現。第5世代NVLinkは初代(2014年)の12倍の帯域幅を達成。スケールアップネットワーキングは、スケールアウトネットワークでは実現できない能力を生み出す。
単一のNVIDIA Blackwell GPUは最大18本のNVLink接続をサポートし、各リンクは毎秒100ギガバイトで動作し、合計1.8テラバイト/秒の帯域幅を提供する—これはPCIe Gen5の14倍の帯域幅である。¹ GB200 NVL72システムは72基のGPUを単一のNVLinkドメインで接続し、130テラバイト/秒の総帯域幅を実現する。² NVIDIAのNVLink Switchは576基のGPUをノンブロッキングコンピュートファブリックで接続し、1ペタバイト/秒を超える総帯域幅を提供する。³ スケールアップネットワーキングは、スケールアウトのイーサネットやInfiniBandネットワークでは実現できないインフラストラクチャ能力を生み出す。
スケールアップとスケールアウトネットワーキングの違いが、現代のAIインフラストラクチャアーキテクチャを定義している。NVLinkとNVSwitchはノード内およびラック内の通信を処理し、大規模モデルにおけるテンソル並列処理に必要な帯域幅と低遅延を提供する。InfiniBandとイーサネットはラック間の通信を処理し、数千のGPUにまたがるデータ並列処理に必要なリーチを提供する。それぞれの技術がいつ適用されるかを理解することで、インフラストラクチャへの投資が期待されるパフォーマンスを発揮できるかどうかが決まる。
第5世代NVLinkの仕様
第5世代NVLinkは、前世代と比較して帯域幅を2倍に向上させた。⁴ 各リンクは双方向で毎秒100ギガバイトで動作し、Blackwell GPUあたり18本のリンクにより、合計1.8テラバイト/秒の帯域幅を提供する。⁵ この改善はPCIe Gen5の帯域幅を14倍以上上回る。⁶
世代間の進化がその軌跡を示している:
| 世代 | アーキテクチャ | リンク数 | GPU当たり帯域幅 |
|---|---|---|---|
| 第1世代 (2018) | Volta V100 | 6 | 300 GB/s |
| 第2世代 (2020) | Ampere A100 | 12 | 600 GB/s |
| 第3世代 (2022) | Hopper H100 | 18 | 900 GB/s |
| 第4世代 (2024) | Blackwell B200 | 18 | 1.8 TB/s |
第5世代NVLinkは、2014年に導入された初代NVLinkの12倍の帯域幅を実現している。⁷ HopperからBlackwellへの倍増は、1兆パラメータモデルの増大する帯域幅要件を反映している。
NVLink 4の毎秒50ギガバイトからNVLink 5の毎秒100ギガバイトへのリンクあたり帯域幅の増加により、同じ18リンク構成で総スループットを2倍にすることが可能になった。⁸ アーキテクチャはリンク数を維持しながら、シグナリングレートを向上させている。
NVSwitchアーキテクチャの進化
NVIDIAは2018年にDGX-2システムと共にNVSwitchを導入し、単一システム内のGPU間の完全な相互接続を可能にした。⁹ NVSwitchはNVLinkトラフィック用の高速ノンブロッキングクロスバースイッチとして機能し、システム内のすべてのGPUがフル速度で他のすべてのGPUと通信できるようにする。¹⁰
DGX-2は16基のV100 GPUを第1世代NVSwitchで接続していた。¹¹ 各NVSwitchチップは18ポートのNVLinkと900ギガバイト/秒の総スイッチング容量を提供した。¹² TSMC 12nmで製造されたこの100ワットのチップには20億個のトランジスタが搭載されていた。¹³
第2世代NVSwitchは2020年にDGX A100と共に登場し、GPUあたり600ギガバイト/秒でNVLink 3.0をサポートした。¹⁴ 6つのNVSwitchチップが8基のA100 GPU用に完全接続ネットワークトポロジーを構築した。¹⁵
Hopper向けの第3世代NVSwitchは、チップあたり25.6テラビット/秒の総双方向帯域幅に増加した。¹⁶ 各HGX H100およびHGX H200システム内の4つのNVSwitchチップは、8基のGPU間で3.6テラバイト/秒の双方向ネットワーク帯域幅を提供する。¹⁷ 第3世代NVSwitchは、個々のGPUへのラウンドトリップを必要とせずに複数のGPUユニット間で結果を集約・更新するネットワーク内計算のためのSHARP機能を導入した。¹⁸
Blackwell向けの第4世代NVSwitchは、チップあたり72ポートのNVLink 5.0を搭載している。¹⁹ NVLink 5 Switchは144ポートのNVLinkと14.4テラバイト/秒のノンブロッキングスイッチング容量を提供する。²⁰ この世代はラックレベルスイッチングを導入し、NVSwitchをサーバーから専用スイッチトレイに移動させた。
GB200 NVL72スケールアップアーキテクチャ
GB200 NVL72は、36基のGrace CPUと72基のBlackwell GPUをラック規模の液冷設計で接続する。²¹ 72基のGPUによるNVLinkドメインは単一の大規模GPUとして機能し、前世代と比較して1兆パラメータの大規模言語モデルのリアルタイム推論を30倍高速に実行する。²²
物理アーキテクチャは、コンピュートトレイとスイッチトレイにコンポーネントを分散配置している。²³ 各コンピュートトレイには2つのGB200 Superchipが含まれ、各Superchipは2基のB200 GPUと1基のGrace CPUで構成されている。²⁴ システムには18のコンピュートトレイがあり、合計72基のGPUを搭載している。
9つのNVLinkスイッチトレイがフルメッシュ接続を提供する。²⁵ 各スイッチトレイには2つのNVLink Switchチップがあり、合計144ポートのNVLinkを備えている。²⁶ 9つのスイッチは、すべてのBlackwell GPUの18本のNVLinkポートのそれぞれを完全に接続する。²⁷
単一サーバーまたはコンピュートトレイ内での直接的なGPU間接続は存在しない。²⁸ すべての通信は外部のNVSwitchファブリックを経由する。²⁹ このアーキテクチャにより、接続の観点からすべての72基のGPUが同等となり、どのGPUも同じ帯域幅と遅延で他のGPUと通信できる。³⁰
130テラバイト/秒の総NVLink帯域幅により、72基すべてのGPUにまたがるテンソル並列処理が可能になる。³¹ 単一GPUのメモリ容量を超える大規模モデルは、最小限の通信オーバーヘッドでドメイン全体にテンソルを分散できる。このアーキテクチャは、スケールアップワークロードにおけるサーバーとラックネットワーキングの従来の境界を排除する。
スケールアップとスケールアウトネットワーキングの比較
スケールアップネットワーキング(NVLink)とスケールアウトネットワーキング(InfiniBandおよびイーサネット)は、AIインフラストラクチャにおいて根本的に異なる目的を果たす。³²
NVLinkは単一ドメイン内のGPU間の高速通信に優れており、InfiniBandよりもはるかに高速で、ローカル接続では毎秒テラバイトオーダーの帯域幅を提供する。³³ 低遅延と高帯域幅はテンソル並列処理をサポートし、モデルの重みがGPU間に分散され、各レイヤーで同期する必要がある。NVLinkのGPUあたり1.8テラバイト/秒により、この同期がボトルネックになることなく実現される。
通信がノード境界を越えると、NVLinkは役立たなくなる。³⁴ ノード間ネットワーキングには、ノード内NVLink機能に関係なく、InfiniBandまたはイーサネットが必要である。これらの技術は階層の異なるレイヤーで動作する。
InfiniBandは数千のサーバーノードを接続するための業界標準を提供する。³⁵ リモートダイレクトメモリアクセス(RDMA)により、サーバーはCPUとOSのオーバーヘッドをバイパスして、メモリ空間間でデータを直接交換できる。³⁶ この機能は、各ノードが異なるバッチを処理し勾配を同期するデータ並列処理を使用した大規模分散トレーニングに不可欠である。
InfiniBandは大規模AIトレーニングのゴールドスタンダードであり続け、世界のトップスーパーコンピュータの270台以上を接続している。³⁷ アダプティブルーティング、輻輳制御、RDMA機能は、同期型の高性能コンピューティング向けに特別に設計されている。
イーサネットはスケールアウト展開においてInfiniBandを追い越しつつある。³⁸ NVIDIAのSpectrum-Xは、テレメトリ駆動の輻輳制御、アダプティブ負荷分散、ダイレクトデータプレースメントなど、InfiniBandの革新をイーサネットにもたらす。³⁹ Spectrum-Xを使用した大規模システムは、アプリケーション遅延の劣化なしに95%のデータスループットを達成している。これに対し、標準的なイーサネットファブリックでは60%のスループットにとどまる。⁴⁰
階層モデルはこれらの技術を適切に組み合わせる。NVLinkはラック内のスケールアップを処理し、スケールアウトネットワーキングの約18倍の帯域幅を提供する。⁴¹ InfiniBandまたはイーサネットはラック間のスケールアウトを処理し、数千のノードにまたがるリーチを提供する。GB200 NVL72システムの各GPUトレイには、ラック間通信用の800ギガビット/秒のRDMA NICが含まれている。⁴²
576 GPUドメインとSuperPODアーキテクチャ
NVLink Switchは576基の完全接続GPUをノンブロッキングコンピュートファブリックで実現する。⁴³ 8つのGB200 NVL72ラックがSuperPODを形成し、576基のGPUと1ペタバイト/秒を超える総帯域幅、240テラバイトの高速メモリを持つスーパーノードを構築する。⁴⁴
DGX SuperPODはスケーラブルユニット(SU)で構築され、各SUには8つのDGX GB200システムが含まれている。⁴⁵ モジュラー設計により、任意の規模でSuperPODを迅速に展開できる。リファレンスアーキテクチャには、InfiniBand、NVLinkネットワーク、イーサネットファブリックトポロジー、ストレージシステム、ラックレイアウト、配線の仕様が含まれている。⁴⁶
576 GPUドメインは、SuperPOD内のすべてのラックにまたがる完全接続NVLinkトポロジーを維持する。⁴⁷ どのGPUも、スケールアウトネットワーキングを経由せずに、1.8テラバイト/秒で他のGPUと通信できる。⁴⁸ ドメインサイズは、現在トレーニング中の最大の基盤モデルの要件に合致している。
SuperPODの展開にはオンプレミスでのインストールが必要である。⁴⁹ 顧客はデータセンターまたはコロケーション商用施設内でハードウェアを所有・管理する。アーキテクチャはNVIDIAの内部研究開発システムを反映しており、インフラストラクチャソフトウェア、アプリケーション、サポートは同一構成でテストされている。⁵⁰
クラウドプロバイダーのMicrosoft Azure、Oracle Cloud、CoreWeaveは、2025年にX800アーキテクチャが利用可能になった際にサポートすることを表明した。⁵¹ クラウド展開により、専用オンプレミスインフラストラクチャを正当化できない組織にもSuperPOD機能が拡張される。
エンタープライズKubernetes展開
マルチノードNVLink(MNNVL)システムには、専門的なKubernetes構成が必要である。⁵² KubernetesはNVIDIAのMNNVLアーキテクチャをネイティブに認識しないため、ワークロード管理とスケジューリングは標準的なGPU展開よりも複雑になる。⁵³
展開要件にはKubernetes 1.32以降とNVIDIA GPU Operatorバージョン25.3以上が含まれる。⁵⁴ GPU Operatorバージョンには、GB200アクセラレーテッドネットワーキングリソースとComputeDomain機能のサポートを提供するDynamic Resource Allocation(DRA)ドライバーが含まれている必要がある。⁵⁵ NVIDIA Network Operatorがネットワーク構成を処理する。
IMEXサービスは、NVLinkマルチノード展開におけるOSドメイン間のGPUメモリのエクスポートとインポートをサポートする。⁵⁶ このサービスにより、ドメイン全体でのNVLinkピアツーピア通信と共有メモリ操作が可能になる。
分散ワークロードがMNNVLノードプールを対象とする場合、プラットフォームはNVLinkドメイン割り当てを管理するComputeDomain Custom Resource Definition(CRD)を作成する。⁵⁷ ComputeDomainへの参照がリソースクレームとしてワークロード仕様に自動的に添付され、スケジューラが特定のNVLinkドメインにワークロードをバインドできるようになる。⁵⁸
Podアフィニティルールは、MNNVLラベルキー(nvidia.com/gpu.clique)をトポロジーキーとして使用する。⁵⁹ この構成により、分散ワークロード内のPodがNVLinkインターコネクトを持つノードに配置され、パフォーマンスに必要なトポロジーが維持される。⁶⁰
インフラストラクチャ計画の考慮事項
NVLinkインフラストラクチャを評価する組織は、まずワークロードの特性を考慮すべきである。大規模モデルにまたがるテンソル並列処理は、NVLink帯域幅の恩恵を直接受ける。多数の小規模モデルにまたがるデータ並列処理は、NVLinkの機能を必要とせず、スケールアウトネットワーキングのみで十分なパフォーマンスを達成できる場合がある。
GB200 NVL72は重要なインフラストラクチャ投資を意味する。液冷要件、ラック規模の統合、専門的なネットワーキングは、空冷のサーバー中心アーキテクチャの複雑さを超えている。組織は、コミットする前にワークロードがこれらの機能を必要とすることを検証すべきである。
電源と冷却インフラストラクチャは、初期展開から液冷に対応する必要がある。GB200 NVL72は空冷では動作しない。展開後に液冷用に施設を改修することは、費用がかかり破壊的である。
ネットワーク計画は、スケールアップとスケールアウトの両方の要件に対応すべきである。NVLinkファブリックはラック内通信を処理するが、ラック間
[翻訳のため内容を省略]