CXL 4.0インフラ計画ガイド:大規模AIのためのメモリプーリング
2025年12月13日
2025年12月アップデート: CXL Consortiumは2025年11月18日にCXL 4.0をリリースし、PCIe 7.0経由で帯域幅を128 GT/sに倍増させ、1.5 TB/s接続のためのバンドルポートを導入しました。このガイドでは、AIインフラでCXLベースのメモリプーリングの実装を準備している組織向けの導入計画を説明します。
要約
CXL 4.0は前例のない規模でのメモリプーリングを可能にし、AI推論ワークロードが複数のラックにわたってキャッシュコヒーレンシーを保ちながら100テラバイト以上の共有メモリにアクセスできるようにします。この仕様のバンドルポートは、複数の物理接続を1.5 TB/sの帯域幅を提供する単一の論理接続に統合します。インフラ計画者にとって、重要な決定はCXLの採用時期(本格運用は2026-2027年)、現在評価すべき製品(CXL 2.0/3.0スイッチが出荷中)、そしてCXLがNVLinkやUALinkを置き換えるのではなく補完する方法を理解することです。このガイドでは、CXL導入を計画するために必要な技術的深度と意思決定フレームワークを提供します。
メモリウォール問題
大規模言語モデルは基本的な制約に直面しています:GPUメモリ容量です。現代のAI推論ワークロードは、GPU当たり80-120GBを日常的に超え、キー-バリュー(KV)キャッシュはコンテキスト長とともに増加します。[^1] 128Kコンテキストウィンドウでの単一推論リクエストは、KVキャッシュストレージだけで数十ギガバイトを消費する可能性があります。
問題は規模で激化します。フロンティアLLMのモデル重みは数百ギガバイトを消費します。KVキャッシュ要件はバッチサイズとシーケンス長の両方に対して線形に増加します。GPU VRAMは80GB(H100)または192GB(B200)で固定されています。[^2]
従来のソリューションは不十分です:
| アプローチ | 制限 |
|---|---|
| より多くのGPUを追加 | 線形コスト増加、メモリはGPU単位で依然として分離 |
| NVMeオフロード | ~100 μsレイテンシ、DRAMより100倍遅い |
| RDMAベース共有 | 依然として10-20 μsレイテンシ、複雑なネットワーキング |
| より大きなGPUメモリ | 供給制約、高コスト |
CXLは、データセンター全体でDRAMライクなレイテンシー(200-500 ns)でのメモリプーリングを可能にすることで、この方程式を変えます。[^3]
CXL 4.0技術詳細
CXL 1.0から4.0への進化
CXLは2019年の導入以来、急速に成熟しました。各世代で機能が拡張されました:
| 世代 | リリース | PCIeベース | 速度 | 主な進歩 |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | 基本的なコヒーレントメモリアタッチ |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | スイッチング、メモリプーリング、マルチデバイス |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | ファブリックサポート、ピアツーピア、4,096ノード |
| CXL 4.0 | 2025年11月 | PCIe 7.0 | 128 GT/s | バンドルポート、マルチラック、拡張RAS |
CXL 2.0はメモリプーリングの基本概念を導入しました。複数のType 3メモリデバイスがスイッチに接続され、共有プールを形成し、スイッチが異なるホストにリソースを動的に割り当てます。[^4] これにより、クラスタ全体でのメモリ使用率が典型的な50-60%から85%以上に改善されます。
CXL 3.0は、ポートベースルーティング(PBR)で最大4,096ノードをサポートするマルチレベルスイッチングのファブリック機能を追加しました。[^5] 256バイトFLITへの移行とPCIe 6.0の64 GT/sにより、利用可能な帯域幅が倍増しました。
CXL 4.0は再び帯域幅を倍増させながら、マルチラックAI導入にとって重要な機能を導入します。
バンドルポートアーキテクチャ
CXL 4.0の高性能コンピューティング向け最重要機能:バンドルポートは複数の物理CXLデバイスポートを単一の論理エンティティに統合します。[^6]
バンドルポートの動作原理:
- ホストとType 1/2デバイスが複数の物理ポートを結合
- システムソフトウェアは複数の物理接続にもかかわらず単一デバイスとして認識
- すべてのバンドルポート全体で帯域幅が統合
- 256バイトFLITモード向けに最適化、レガシーオーバーヘッドを排除
帯域幅計算:
| 構成 | 方向 | 帯域幅 |
|---|---|---|
| 単一x16ポート @ 128 GT/s | 単方向 | 256 GB/s |
| 単一x16ポート @ 128 GT/s | 双方向 | 512 GB/s |
| 3つのバンドルx16ポート @ 128 GT/s | 単方向 | 768 GB/s |
| 3つのバンドルx16ポート @ 128 GT/s | 双方向 | 1,536 GB/s |
参考として、H200のHBM3eメモリは4.8 TB/sの帯域幅を提供します。[^7] 1.5 TB/sでのバンドルCXL 4.0接続は、その約30%の帯域幅を表します—ピーク帯域幅よりも容量が重要な多くのメモリ拡張用途に十分です。
PCIe 7.0基盤
CXL 4.0はPCIe 7.0の物理層改善に基づいて構築されます:[^8]
- 128 GT/s転送レート: PCIe 6.0の64 GT/sの2倍
- PAM4シグナリング: PCIe 6.0と同じエンコーディング方式
- 改善されたFEC: 信号完全性のための前方誤り訂正
- 光サポート: より長距離接続を可能にする
仕様は、時間に敏感な操作用のレイテンシ最適化バリアントを追加しながら、CXL 3.xからの256バイトFLIT形式を保持します。[^9]
マルチラックファブリック機能
CXL 4.0は2つのメカニズムにより到達距離を拡張します:
4つのリタイマーサポート: 以前の世代では2つのリタイマーが許可されていました。4つのリタイマーにより、信号劣化なしに複数のラックにまたがるより長い物理接続が可能になります。[^10]
ネイティブx2幅: 以前は劣化したフォールバックモードでしたが、x2リンクは現在フルパフォーマンスで動作します。これにより、多くの低帯域幅接続がより多くのエンドポイントにサービスを提供する高ファンアウト構成が可能になります。[^11]
これらの機能が組み合わさって「マルチラックメモリプーリング」を可能にします—CXL Consortiumが2026-2027年後期の本格運用導入を明示的に目標とする機能です。[^12]
AIインフラのCXL用途
LLM推論のためのKVキャッシュオフロード
最も影響の大きい短期用途:GPU VRAMからCXL接続メモリへのKVキャッシュオフロード。
問題: 長いコンテキストでのLLM推論は巨大なKVキャッシュを生成します。128Kコンテキストでバッチサイズ32の70Bパラメータモデルは、KVキャッシュだけで150GB以上を要求する可能性があります。[^13] これはH100 VRAMを超え、高コストなバッチサイズ削減や複数GPUを強制します。
CXLソリューション: ホット層をGPU VRAMに保持しながら、KVキャッシュをプールされたCXLメモリに保存します。XConnとMemVergeはSC25とOCP 2025でこれを実演しました:[^14]
- OPT-6.7Bを実行する2つのH100 GPU(各80GB)
- 共有CXLメモリプールにオフロードされたKVキャッシュ
- 200G RDMAと比較して3.8倍の高速化
- 100G RDMAと比較して6.5倍の高速化
- SSDベースKVキャッシュと比較して5倍以上の改善
学術界の研究が機会を確認しています。PNM-KV(KVキャッシュのProcessing-Near-Memory)は、トークンページ選択をCXLメモリ内のアクセラレータにオフロードすることで最大21.9倍のスループット改善を達成します。[^15]
訓練のためのメモリ拡張
訓練ワークロードは以下のための拡張メモリ容量から恩恵を受けます:
- より大きなバッチサイズ: 勾配蓄積なしでイテレーション当たりより多くのサンプル
- 活性化チェックポイント削減: 再計算vs.メモリでより多くの活性化を保存
- オプティマイザー状態: Adamオプティマイザーは運動量/分散のために2xパラメータが必要
CXLメモリ拡張により、以前はマルチノード分散を必要としていた訓練構成が単一ノードで実行でき、通信オーバーヘッドが削減されます。
科学・HPC ワークロード
PNNLのCreteプロジェクトは、科学シミュレーションでの計算ノード間での高スループットメモリ共有にCXLプールを使用します。[^16] 用途には以下が含まれます:
- 大きな近傍リストを持つ分子動力学
- 兆エッジデータセットでのグラフ解析
- 単一サーバー容量を超えるインメモリデータベース
インターコネクト環境
CXL vs NVLink vs UALink
CXLの位置を理解するには、これらの技術が異なる目的に対応することを認識する必要があります:
| 標準 | 主目的 | 最適用途 |
|---|---|---|
| CXL | メモリコヒーレンシー + プーリング | CPUメモリ拡張、共有メモリプール |
| NVLink | GPU間スケーリング | ノード内GPU通信 |
| UALink | アクセラレータインターコネクト | NVLinkに対するオープン標準代替 |
| Ultra Ethernet | スケールアウトネットワーキング | マルチラック、10,000以上のエンドポイント |
CXLはPCIe SerDes上で動作:より低いエラー率、より低いレイテンシー、しかしNVLink/UALinkのEthernet系SerDesより低い帯域幅。[^17] NVLink 5はGPU当たり1.8 TB/sを提供—CXL 4.0のx16ポート当たり512 GB/sをはるかに超えます。[^18]
技術は競合ではなく補完します:
- GPUノード内: NVLinkがGPUを接続
- ノード間: UALinkまたはInfiniBand/Ethernet
- メモリ拡張: CXLがCPUとアクセラレータに容量を追加
- ファブリック全体のメモリプール: CXLスイッチがホスト間での共有を可能にする
Panmnesiaは3つすべてを統合する「CXL-over-XLink」アーキテクチャを提案し、PCIe/RDMAベースラインと比較してAI訓練で5.3倍高速、推論レイテンシーで6倍削減を報告しています。[^19]
決定フレームワーク:何をいつ使用するか
| シナリオ | 推奨インターコネクト | 根拠 |
|---|---|---|
| サーバー内マルチGPU訓練 | NVLink | 最高帯域幅、最低レイテンシー |
| マルチGPU推論ポッド(非NVIDIA) | UALink | オープン標準、高帯域幅 |
| VRAM超えのメモリ拡張 | CXL | キャッシュコヒーレンシー、DRAMライクレイテンシー |
| マルチラックGPUクラスター | InfiniBandまたはUltra Ethernet | スケールアウト向け設計 |
| サーバー間共有メモリプール | CXLスイッチ | コヒーレンシーを持つメモリプーリング |
| 中国/制限市場 | UB-Mesh検討 | 西側IP依存を回避 |
CXLエコシステム:ベンダーと製品
メモリエクスパンダー
主要DRAM製造業者3社すべてがCXLメモリエクスパンダーを出荷:
| ベンダー | 製品 | 容量 | インターフェース | ステータス |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | 2025年量産[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | 2024年後期量産[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | サンプリング[^22] |
| SK Hynix | CMS | 512 GB | CXL(コンピューティング対応) | 発表[^23] |
SK HynixのCMS(Computational Memory Solution)は、メモリモジュール内に直接コンピューティング機能を追加—CXL向けprocessing-near-memoryの初期実装です。
スイッチベンダー
CXLスイッチは複数ホスト間でのメモリプーリングを可能にします:
| ベンダー | 製品 | 世代 | ステータス | 主要機能 |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | 出荷中 | 256レーンスイッチ、市場初[^24] |
| XConn | Apollo | CXL 2.0 | 出荷中 | SC25でメモリプーリング実演[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | 2025年11月サンプリング | 初のPBR実装[^26] |
| Astera Labs | Leo | CXL 2.0 | 出荷中 | スマートメモリコントローラー[^27] |
| Microchip | SMC 2000 | CXL 2.0 | 出荷中 | メモリ拡張コントローラー[^28] |
PanmnesiaのCXL 3.2 Fabric Switchは世代飛躍を表します:最大4,096ノードでの真のファブリックアーキテクチャ用ポートベースルーティングを実装する初のシリコンです。[^29]
コントローラーベンダー
CXLメモリコントローラーはCXLプロトコルとDRAM間を変換します:
| ベンダー | 役割 | 主要製品 |
|---|---|---|
| Marvell | コントローラー | Structera CXLコントローラー[^30] |
| Montage | コントローラー | CXLメモリバッファチップ |
| Astera Labs | コントローラー | Leoスマートメモリコントローラー |
| Microchip | コントローラー | SMC 2000シリーズ |
MarvellのStructeraは、IntelとAMDプラットフォーム両方で主要メモリサプライヤー3社(Samsung、Micron、SK Hynix)すべてとの相互運用性テストを完了しました。[^31]
導入計画ガイド
タイムライン
| 期間 | CXL世代 | 期待される能力 | 推奨事項 |
|---|---|---|---|
| 現在-2026年Q2 | CXL 2.0 | メモリ拡張、基本プーリング | 本格運用評価 |
| 2026年Q3-Q4 | CXL 3.0/3.1 | ファブリック、ピアツーピア、4Kノード | AI向け早期採用 |
| 2027年以降 | CXL 4.0 | マルチラックプーリング、1.5 TB/s | 現在から計画開始 |
ABI Researchは、商用採用に十分なソフトウェアサポートを持つCXL 3.0/3.1ソリューションを2027年までに期待しています。[^32]
現在評価すべきもの
即座(2025年): 1. 既存のIntel Sapphire RapidsまたはAMD EPYC GenoaサーバーでCXL 2.0メモリエクスパンダーをテスト 2. メモリプーリング用のXConnまたはAstera Labsスイッチを評価