UALinkとCXL 4.0:GPUクラスターアーキテクチャを変革するオープン規格
2025年4月に公開されたUALink 1.0仕様は、単一ファブリック上で1,024個のアクセラレータへのスケーリングを可能にし、NvidiaのプロプライエタリなNVLinkおよびNVSwitchエコシステムに直接挑戦しています。その7ヶ月後、CXLコンソーシアムは2025年11月18日にCXL 4.0をリリースし、帯域幅を128 GT/sに倍増させ、マルチラックメモリプーリングを実現しました。これらのオープン規格は、2016年にNvidiaがNVLinkを導入して以来、同社のインターコネクト支配に対する最も重大な挑戦となっています。
要約
UALink 1.0は1レーンあたり200 GT/sを実現し、最大1,024個のアクセラレータをサポートします。これに対し、NVLinkの最大GPU数は576です。CXL 4.0はメモリ帯域幅を128 GT/sに倍増させ、テラバイト規模の共有メモリを必要とするAIワークロード向けにバンドルポートを導入しています。UALinkをサポートするハードウェアは、AMD、Intel、Astera Labsから2026年後半に登場予定であり、CXL 4.0のマルチラック展開は2027年を目標としています。次世代GPUクラスターを計画するインフラチームにとって、これらの仕様は、ベンダーロックインを削減しながら前例のないスケールを実現するベンダー中立アーキテクチャへの移行を示しています。
2025年のインターコネクト状況
GPUインターコネクトは、AIクラスターがいかに効果的にスケールするかを決定します。アクセラレータ間のデータ交換が高速であるほど、トレーニング可能なモデルは大規模になり、推論リクエストをより効率的に処理できます。
現在のインターコネクト技術
| 技術 | 所有者 | 帯域幅 | 最大スケール | 状況 |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | GPUあたり1.8 TB/s | 576 GPU | 製品化済(Blackwell) |
| NVLink 4.0 | Nvidia | GPUあたり900 GB/s | 256 GPU | 製品化済(Hopper) |
| Infinity Fabric | AMD | カードあたり約1.075 TB/s | 8 GPU(ダイレクトメッシュ) | 製品化済(MI300X) |
| UALink 1.0 | コンソーシアム | 800 GB/s(4レーン) | 1,024アクセラレータ | 2025年4月仕様公開 |
| CXL 4.0 | コンソーシアム | 128 GT/s | マルチラック | 2025年11月仕様公開 |
NvidiaのNVLinkは製品展開で優位を占めていますが、GB200 NVL72システムはその性能と制約の両方を象徴しています:72個のBlackwell GPUが130 TB/sの総帯域幅で相互接続されていますが、Nvidiaのプロプライエタリエコシステム内でのみ動作します。
UALink 1.0:ベンダーロックインからの脱却
コンソーシアムの設立
Ultra Accelerator Linkコンソーシアムは2024年10月に設立され、AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoftが創設メンバーとなりました。この取り組みは、AMDとBroadcomが2023年12月に発表した作業を基盤としています。
2025年1月までに、Alibaba Cloud、Apple、Synopsysがボードレベルで参加し、総メンバー数は75組織に達しました。
技術仕様
UALink 200G 1.0仕様は、AIコンピューティングポッド内のアクセラレータとスイッチ間通信のための低レイテンシ・高帯域幅インターコネクトを定義しています。
| 仕様 | UALink 1.0 |
|---|---|
| レーンあたりデータレート | 200 GT/s双方向 |
| シグナリングレート | 212.5 GT/s(FECオーバーヘッド込み) |
| リンク幅 | x1、x2、x4 |
| 最大帯域幅 | 800 GB/s(x4構成) |
| 最大スケール | 1,024アクセラレータ |
| ケーブル長 | 4メートル未満に最適化 |
| レイテンシ目標 | ラウンドトリップ1 µs未満(64B/640Bペイロード) |
UALinkスイッチはアクセラレータごとに1ポートを割り当て、ファブリック全体で正確なルーティングを行うために10ビットの一意識別子を使用します。
UALink vs NVLink:直接比較
| 指標 | UALink 1.0 | NVLink 4.0(Hopper) | NVLink 5.0(Blackwell) |
|---|---|---|---|
| GPUあたり帯域幅 | 800 GB/s | 900 GB/s | 1.8 TB/s |
| GPUあたりリンク数 | 4 | 18 | 18 |
| 最大GPU数 | 1,024 | 256 | 576 |
| ベンダーロックイン | オープン規格 | Nvidiaのみ | Nvidiaのみ |
| ハードウェア可用性 | 2026年後半/2027年 | 製品化済 | 製品化済 |
NVLink 5.0は、UALink 1.0と比較して接続あたり3倍以上の帯域幅を提供します(2,538 GB/s vs 800 GB/s)。しかし、UALinkは最大クラスターサイズで約2倍(1,024 vs 576 GPU)をサポートし、複数ベンダー間で動作します。
設計思想の違い
NVLinkは、密接に配置されたアクセラレータ間の最大帯域幅が最重要となる密集型・均質なGPUクラスター向けに最適化されています。この技術は、すべてのコンポーネントがNvidia製であるDGXシステムやNVL72ラックで真価を発揮します。
UALinkは、異なるベンダーのアクセラレータを混在させたり、より大きな論理クラスターを必要とする組織向けのモジュラー型ラックスケールアーキテクチャを対象としています。このオープン規格により、AMD MIシリーズ、Intel Gaudi、および将来のアクセラレータが共通ファブリックを通じて通信できるようになります。
AMDの現状
AMDのInfinity Fabricは、最大8個のMI300XまたはMI355X GPUをフルメッシュで接続します。各MI300Xは7本のInfinity Fabricリンクを搭載し、リンクあたり16レーンで、約1.075 TB/sのピアツーピア帯域幅を提供します。
制限事項:8 GPUを超えるスケーリングにはEthernetネットワーキングが必要です。AMDのロードマップには、PCIe Gen7リンク上で動作するAFL(Accelerated Fabric Link)と、マルチベンダー相互運用性のためのUALink採用が含まれています。
CXL 4.0:境界のないメモリ
メモリウォール問題
AIワークロードは、コンピュート限界に達する前にメモリボトルネックに直面することが増えています。大規模言語モデルは推論時のKVキャッシュにテラバイト規模のメモリを必要とし、トレーニング実行では活性化とオプティマイザ状態のためにさらに多くを要求します。
従来のサーバーアーキテクチャはメモリをCPUに直接接続するため、ワークロードが変動すると未使用容量が発生します。CXLはメモリをコンピュートから分離し、ノード間での動的割り当てを可能にします。
CXL 4.0仕様
CXLコンソーシアムは、2025年11月18日のSupercomputing 2025でCXL 4.0をリリースしました。
| 仕様 | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| シグナリングレート | 64 GT/s | 128 GT/s |
| PCIe世代 | PCIe 6.0 | PCIe 7.0 |
| 帯域幅 | 256 GB/s(x16) | 512 GB/s(x16) |
| リタイマー | 2 | 4 |
| リンク幅 | x16、x8、x4、x1 | x16、x8、x4、x2、x1 |
| トポロジー | シングルラック | マルチラック |
CXL 4.0の主要機能
バンドルポート:CXL 4.0はポートアグリゲーションを導入し、ホストとデバイスが複数の物理ポートを単一の論理接続に統合できるようにします。これにより、システムが1つのデバイスとして認識するシンプルなソフトウェアモデルを維持しながら、より高い帯域幅を実現します。
リーチの拡張:4つのリタイマーにより、信号品質を犠牲にすることなくマルチラック構成が可能になります。CXL 3.xはシングルラックトポロジーに制限されていましたが、CXL 4.0はデータセンターの通路を越えてメモリプーリングを拡張します。
メモリ容量:CXLメモリプーリングにより、単一CPUに100テラバイト以上のメモリを接続できるようになり、大規模データセットのマイニングやメモリ集約型AIワークロードを実行する組織にとって価値があります。
ネイティブx2リンク:新しいx2リンク幅オプションは、適度な帯域幅を必要とするアプリケーションのコストを削減し、エッジ展開におけるCXLの経済性を向上させます。
CXLメモリプーリングの性能
CXL DevCon 2025のデモンストレーションでは、NVIDIA H100 GPUを搭載した2台のサーバーでOPT-6.7Bモデルを実行しました:
| 構成 | 性能 |
|---|---|
| CXLメモリプール | ベースライン |
| 200G RDMA | 3.8倍遅い |
| 100G RDMA | 6.5倍遅い |
CXLは200-500 ns範囲のレイテンシでメモリセマンティックアクセスを提供します。これはNVMeの約100 µsやストレージベースのメモリ共有の10 ms以上と比較して大幅に低いです。
電力と効率の向上
研究によると、CXLは[メモリ消費電力を20-30%削減](https://computeexpresslink.org/blog/over
[翻訳用にコンテンツを切り詰め]