CXL 4.0インフラ計画ガイド:AIスケールのためのメモリプーリング
2025年12月13日
2025年12月更新: CXLコンソーシアムは2025年11月18日にCXL 4.0をリリースし、PCIe 7.0経由で帯域幅を128 GT/sに倍増させ、1.5 TB/s接続のためのバンドルポートを導入しました。本ガイドでは、AIインフラにCXLベースのメモリプーリングを実装する準備を進める組織向けの導入計画について解説します。
要約
CXL 4.0は前例のない規模でのメモリプーリングを可能にし、AI推論ワークロードが複数のラックにわたってキャッシュコヒーレンシを維持しながら100テラバイト以上の共有メモリにアクセスできるようになります。この仕様のバンドルポートは、複数の物理接続を1.5 TB/sの帯域幅を提供する単一の論理アタッチメントに集約します。インフラ計画担当者にとって、重要な決定事項は、CXLをいつ採用するか(本番環境は2026-2027年)、現在どの製品を評価すべきか(CXL 2.0/3.0スイッチは出荷中)、そしてCXLがNVLinkやUALinkを置き換えるのではなく補完する方法を理解することです。本ガイドでは、CXL導入を計画するために必要な技術的詳細と意思決定フレームワークを提供します。
メモリウォール問題
大規模言語モデルは根本的な制約に直面しています:GPUメモリ容量です。現代のAI推論ワークロードは、GPU当たり80-120 GBを日常的に超過し、キーバリュー(KV)キャッシュはコンテキスト長に応じて増大します。[^1] 128Kコンテキストウィンドウを持つ単一の推論リクエストは、KVキャッシュストレージだけで数十ギガバイトを消費する可能性があります。
問題はスケールで深刻化します。フロンティアLLMのモデルウェイトは数百ギガバイトを消費します。KVキャッシュ要件はバッチサイズとシーケンス長の両方に対して線形に増大します。GPU VRAMは80GB(H100)または192GB(B200)で固定されたままです。[^2]
従来のソリューションでは不十分です:
| アプローチ | 限界 |
|---|---|
| GPUを追加 | コストが線形に増加、メモリは依然としてGPUごとに分離 |
| NVMeオフロード | 約100 μsのレイテンシ、DRAMより100倍遅い |
| RDMAベースの共有 | 依然として10-20 μsのレイテンシ、複雑なネットワーキング |
| より大きなGPUメモリ | 供給制約あり、高価 |
CXLは、データセンター全体でDRAM並みのレイテンシ(200-500 ns)でメモリプーリングを可能にすることで、この方程式を変えます。[^3]
CXL 4.0技術詳細
CXL 1.0から4.0への進化
CXLは2019年の導入以来、急速に成熟してきました。各世代で機能が拡張されています:
| 世代 | リリース | PCIeベース | 速度 | 主要な進歩 |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | 基本的なコヒーレントメモリアタッチ |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | スイッチング、メモリプーリング、マルチデバイス |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | ファブリックサポート、ピアツーピア、4,096ノード |
| CXL 4.0 | 2025年11月 | PCIe 7.0 | 128 GT/s | バンドルポート、マルチラック、強化されたRAS |
CXL 2.0はメモリプーリングの基礎的な概念を導入しました。複数のType 3メモリデバイスがスイッチに接続し、共有プールを形成し、スイッチが異なるホストにリソースを動的に割り当てます。[^4] これにより、クラスター全体のメモリ使用率が典型的な50-60%から85%以上に改善されます。
CXL 3.0は、マルチレベルスイッチングとポートベースルーティング(PBR)による最大4,096ノードをサポートするファブリック機能を追加しました。[^5] 256バイトFLITへの移行とPCIe 6.0の64 GT/sにより、利用可能な帯域幅が倍増しました。
CXL 4.0は帯域幅を再び倍増させながら、マルチラックAI導入に不可欠な機能を導入しています。
バンドルポートアーキテクチャ
高性能コンピューティングにとってCXL 4.0の最も重要な機能:バンドルポートは複数の物理CXLデバイスポートを単一の論理エンティティに集約します。[^6]
バンドルポートの仕組み:
- ホストとType 1/2デバイスが複数の物理ポートを組み合わせる
- システムソフトウェアは複数の物理接続にもかかわらず単一のデバイスとして認識
- 帯域幅はすべてのバンドルポートにわたって集約
- 256バイトFLITモード用に最適化され、レガシーオーバーヘッドを排除
帯域幅計算:
| 構成 | 方向 | 帯域幅 |
|---|---|---|
| 単一x16ポート @ 128 GT/s | 単方向 | 256 GB/s |
| 単一x16ポート @ 128 GT/s | 双方向 | 512 GB/s |
| 3バンドルx16ポート @ 128 GT/s | 単方向 | 768 GB/s |
| 3バンドルx16ポート @ 128 GT/s | 双方向 | 1,536 GB/s |
参考として、H200のHBM3eメモリは4.8 TB/sの帯域幅を提供します。[^7] 1.5 TB/sのバンドルCXL 4.0接続は、その帯域幅の約30%を表します—容量がピーク帯域幅よりも重要な多くのメモリ拡張ユースケースには十分です。
PCIe 7.0基盤
CXL 4.0はPCIe 7.0の物理層改善の上に構築されています:[^8]
- 128 GT/s転送レート:PCIe 6.0の64 GT/sの2倍
- PAM4シグナリング:PCIe 6.0と同じエンコーディング方式
- 改善されたFEC:信号整合性のための前方誤り訂正
- 光学サポート:より長いリーチ接続を可能に
この仕様は、時間に敏感な操作用のレイテンシ最適化バリアントを追加しながら、CXL 3.xからの256バイトFLIT形式を維持しています。[^9]
マルチラックファブリック機能
CXL 4.0は2つのメカニズムを通じてリーチを拡張します:
4つのリタイマーをサポート:以前の世代では2つのリタイマーが許可されていました。4つのリタイマーにより、信号劣化なしに複数のラックにまたがるより長い物理接続が可能になります。[^10]
ネイティブx2幅:以前は低下したフォールバックモードでしたが、x2リンクは現在フルパフォーマンスで動作します。これにより、多くの低帯域幅接続がより多くのエンドポイントにサービスを提供する高ファンアウト構成が可能になります。[^11]
これらの機能が組み合わさることで「マルチラックメモリプーリング」が可能になります—CXLコンソーシアムが2026年後半から2027年の本番導入を明確に目標としている機能です。[^12]
AIインフラ向けCXLユースケース
LLM推論のためのKVキャッシュオフロード
最も影響力のある短期ユースケース:GPU VRAMからCXL接続メモリへのKVキャッシュオフロード。
問題: 長いコンテキストを持つLLM推論は大量のKVキャッシュを生成します。70Bパラメータモデルで128Kコンテキスト、バッチサイズ32の場合、KVキャッシュだけで150+ GBを必要とする可能性があります。[^13] これはH100 VRAMを超え、高価なバッチサイズ削減または複数のGPUを強制します。
CXLソリューション: ホットレイヤーをGPU VRAMに保持しながら、KVキャッシュをプールされたCXLメモリに保存します。XConnとMemVergeはSC25およびOCP 2025でこれを実演しました:[^14]
- 2つのH100 GPU(各80GB)でOPT-6.7Bを実行
- KVキャッシュを共有CXLメモリプールにオフロード
- 200G RDMAと比較して3.8倍の高速化
- 100G RDMAと比較して6.5倍の高速化
- SSDベースのKVキャッシュと比較して5倍以上の改善
学術界からの研究もこの機会を確認しています。PNM-KV(KVキャッシュ用Processing-Near-Memory)は、トークンページ選択をCXLメモリ内のアクセラレータにオフロードすることで、最大21.9倍のスループット改善を達成しています。[^15]
トレーニング用メモリ拡張
トレーニングワークロードは、以下のための拡張されたメモリ容量の恩恵を受けます:
- より大きなバッチサイズ:勾配累積なしでイテレーションごとにより多くのサンプル
- 活性化チェックポイントの削減:再計算ではなくメモリにより多くの活性化を保存
- オプティマイザ状態:Adamオプティマイザはモメンタム/分散のためにパラメータの2倍を必要とする
CXLメモリ拡張により、以前はマルチノード分散を必要としていたトレーニング構成を単一ノードで実行できるようになり、通信オーバーヘッドが削減されます。
科学・HPCワークロード
PNNLのCreteプロジェクトは、科学シミュレーションにおける計算ノード間の高スループットメモリ共有にCXLプールを使用しています。[^16] ユースケースには以下が含まれます:
- 大規模な隣接リストを持つ分子動力学
- 数兆エッジのデータセットに対するグラフ分析
- 単一サーバー容量を超えるインメモリデータベース
インターコネクト環境
CXL対NVLink対UALink
CXLがどこに位置するかを理解するには、これらの技術が異なる目的に役立つことを認識する必要があります:
| 標準 | 主な目的 | 最適な用途 |
|---|---|---|
| CXL | メモリコヒーレンシ + プーリング | CPUメモリ拡張、共有メモリプール |
| NVLink | GPU間スケーリング | ノード内GPU通信 |
| UALink | アクセラレータインターコネクト | NVLinkに対するオープン標準代替 |
| Ultra Ethernet | スケールアウトネットワーキング | マルチラック、10,000以上のエンドポイント |
CXLはPCIe SerDes上で動作します:NVLink/UALinkのEthernetスタイルSerDesよりも低いエラーレート、低いレイテンシ、ただし低い帯域幅。[^17] NVLink 5はGPU当たり1.8 TB/sを提供します—CXL 4.0のx16ポート当たり512 GB/sを大幅に上回ります。[^18]
これらの技術は競合するのではなく補完し合います:
- GPUノード内:NVLinkがGPUを接続
- ノード間:UALinkまたはInfiniBand/Ethernet
- メモリ拡張:CXLがCPUとアクセラレータに容量を追加
- ファブリック全体のメモリプール:CXLスイッチがホスト間の共有を可能に
Panmnesiaは3つすべてを統合する「CXL-over-XLink」アーキテクチャを提案し、PCIe/RDMAベースラインと比較してAIトレーニングが5.3倍高速化し、推論レイテンシが6倍削減されたと報告しています。[^19]
意思決定フレームワーク:いつ何を使用するか
| シナリオ | 推奨インターコネクト | 根拠 |
|---|---|---|
| サーバー内マルチGPUトレーニング | NVLink | 最高帯域幅、最低レイテンシ |
| マルチGPU推論ポッド(非NVIDIA) | UALink | オープン標準、高帯域幅 |
| VRAMを超えるメモリ拡張 | CXL | キャッシュコヒーレンシ、DRAM並みのレイテンシ |
| マルチラックGPUクラスター | InfiniBandまたはUltra Ethernet | スケールアウト用に設計 |
| サーバー間共有メモリプール | CXLスイッチ | コヒーレンシを持つメモリプーリング |
| 中国/制限市場 | UB-Meshを検討 | 西洋のIP依存を回避 |
CXLエコシステム:ベンダーと製品
メモリエクスパンダー
3大DRAMメーカーすべてがCXLメモリエクスパンダーを出荷しています:
| ベンダー | 製品 | 容量 | インターフェース | ステータス |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | 2025年量産[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | 2024年後半量産[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | サンプリング[^22] |
| SK Hynix | CMS | 512 GB | CXL(コンピュート対応) | 発表済み[^23] |
SK HynixのCMS(Computational Memory Solution)は、メモリモジュール内に直接計算機能を追加します—CXL向けのProcessing-Near-Memoryの初期実装です。
スイッチベンダー
CXLスイッチは複数のホスト間でメモリプーリングを可能にします:
| ベンダー | 製品 | 世代 | ステータス | 主要機能 |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | 出荷中 | 256レーンスイッチ、市場初[^24] |
| XConn | Apollo | CXL 2.0 | 出荷中 | SC25でのメモリプーリングデモンストレーション[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | 2025年11月サンプリング | 初のPBR実装[^26] |
| Astera Labs | Leo | CXL 2.0 | 出荷中 | スマートメモリコントローラー[^27] |
| Microchip | SMC 2000 | CXL 2.0 | 出荷中 | メモリ拡張コントローラー[^28] |
PanmnesiaのCXL 3.2 Fabric Switchは世代の飛躍を表しています:最大4,096ノードの真のファブリックアーキテクチャ用のポートベースルーティングを実装した最初のシリコンです。[^29]
コントローラーベンダー
CXLメモリコントローラーはCXLプロトコルとDRAM間を変換します:
| ベンダー | 役割 | 主要製品 |
|---|---|---|
| Marvell | コントローラー | Structera CXLコントローラー[^30] |
| Montage | コントローラー | CXLメモリバッファチップ |
| Astera Labs | コントローラー | Leoスマートメモリコントローラー |
| Microchip | コントローラー | SMC 2000シリーズ |
MarvellのStructeraは、IntelおよびAMDプラットフォームの両方で3大メモリサプライヤー(Samsung、Micron、SK Hynix)すべてとの相互運用性テストを完了しました。[^31]
導入計画ガイド
タイムライン
| 期間 | CXL世代 | 期待される機能 | 推奨事項 |
|---|---|---|---|
| 現在-2026年Q2 | CXL 2.0 | メモリ拡張、基本的なプーリング | 本番評価 |
| 2026年Q3-2026年Q4 | CXL 3.0/3.1 | ファブリック、ピアツーピア、4Kノード | AI向け早期採用 |
| 2027年以降 | CXL 4.0 | マルチラックプーリング、1.5 TB/s | 今から計画開始 |
ABI Researchは、2027年までに商用採用に十分なソフトウェアサポートを備えたCXL 3.0/3.1ソリューションを期待しています。[^32]
今評価すべきこと
即時(2025年): 1. 既存のIntel Sapphire RapidsまたはAMD EPYC GenoaサーバーでCXL 2.0メモリエクスパンダーをテスト 2. メモリプーリング用にXConnまたはAstera Labsスイッチを評価
[翻訳のため内容を切り詰め]