CXL 4.0インフラ計画ガイド：大規模AIのためのメモリプーリング

バンドルポート、マルチラックメモリプーリング、KVキャッシュオフロード、ベンダーエコシステム、2026-2027年計画タイムラインを網羅した完全なCXL 4.0導入ガイド。

Madison Kersh

Apr 27, 2026 2 min read Disclaimer

CXL 4.0インフラ計画ガイド：大規模AIのためのメモリプーリング

2025年12月13日

2025年12月アップデート: CXL Consortiumは2025年11月18日にCXL 4.0をリリースし、PCIe 7.0経由で帯域幅を128 GT/sに倍増させ、1.5 TB/s接続のためのバンドルポートを導入しました。このガイドでは、AIインフラでCXLベースのメモリプーリングの実装を準備している組織向けの導入計画を説明します。

要約

CXL 4.0は前例のない規模でのメモリプーリングを可能にし、AI推論ワークロードが複数のラックにわたってキャッシュコヒーレンシーを保ちながら100テラバイト以上の共有メモリにアクセスできるようにします。この仕様のバンドルポートは、複数の物理接続を1.5 TB/sの帯域幅を提供する単一の論理接続に統合します。インフラ計画者にとって、重要な決定はCXLの採用時期（本格運用は2026-2027年）、現在評価すべき製品（CXL 2.0/3.0スイッチが出荷中）、そしてCXLがNVLinkやUALinkを置き換えるのではなく補完する方法を理解することです。このガイドでは、CXL導入を計画するために必要な技術的深度と意思決定フレームワークを提供します。

メモリウォール問題

大規模言語モデルは基本的な制約に直面しています：GPUメモリ容量です。現代のAI推論ワークロードは、GPU当たり80-120GBを日常的に超え、キー-バリュー（KV）キャッシュはコンテキスト長とともに増加します。[^1] 128Kコンテキストウィンドウでの単一推論リクエストは、KVキャッシュストレージだけで数十ギガバイトを消費する可能性があります。

問題は規模で激化します。フロンティアLLMのモデル重みは数百ギガバイトを消費します。KVキャッシュ要件はバッチサイズとシーケンス長の両方に対して線形に増加します。GPU VRAMは80GB（H100）または192GB（B200）で固定されています。[^2]

従来のソリューションは不十分です：

アプローチ	制限
より多くのGPUを追加	線形コスト増加、メモリはGPU単位で依然として分離
NVMeオフロード	~100 μsレイテンシ、DRAMより100倍遅い
RDMAベース共有	依然として10-20 μsレイテンシ、複雑なネットワーキング
より大きなGPUメモリ	供給制約、高コスト

CXLは、データセンター全体でDRAMライクなレイテンシー（200-500 ns）でのメモリプーリングを可能にすることで、この方程式を変えます。[^3]

CXL 4.0技術詳細

CXL 1.0から4.0への進化

CXLは2019年の導入以来、急速に成熟しました。各世代で機能が拡張されました：

世代	リリース	PCIeベース	速度	主な進歩
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	基本的なコヒーレントメモリアタッチ
CXL 2.0	2022	PCIe 5.0	32 GT/s	スイッチング、メモリプーリング、マルチデバイス
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	ファブリックサポート、ピアツーピア、4,096ノード
CXL 4.0	2025年11月	PCIe 7.0	128 GT/s	バンドルポート、マルチラック、拡張RAS

CXL 2.0はメモリプーリングの基本概念を導入しました。複数のType 3メモリデバイスがスイッチに接続され、共有プールを形成し、スイッチが異なるホストにリソースを動的に割り当てます。[^4] これにより、クラスタ全体でのメモリ使用率が典型的な50-60%から85%以上に改善されます。

CXL 3.0は、ポートベースルーティング（PBR）で最大4,096ノードをサポートするマルチレベルスイッチングのファブリック機能を追加しました。[^5] 256バイトFLITへの移行とPCIe 6.0の64 GT/sにより、利用可能な帯域幅が倍増しました。

CXL 4.0は再び帯域幅を倍増させながら、マルチラックAI導入にとって重要な機能を導入します。

バンドルポートアーキテクチャ

CXL 4.0の高性能コンピューティング向け最重要機能：バンドルポートは複数の物理CXLデバイスポートを単一の論理エンティティに統合します。[^6]

バンドルポートの動作原理:

ホストとType 1/2デバイスが複数の物理ポートを結合
システムソフトウェアは複数の物理接続にもかかわらず単一デバイスとして認識
すべてのバンドルポート全体で帯域幅が統合
256バイトFLITモード向けに最適化、レガシーオーバーヘッドを排除

帯域幅計算:

構成	方向	帯域幅
単一x16ポート @ 128 GT/s	単方向	256 GB/s
単一x16ポート @ 128 GT/s	双方向	512 GB/s
3つのバンドルx16ポート @ 128 GT/s	単方向	768 GB/s
3つのバンドルx16ポート @ 128 GT/s	双方向	1,536 GB/s

参考として、H200のHBM3eメモリは4.8 TB/sの帯域幅を提供します。[^7] 1.5 TB/sでのバンドルCXL 4.0接続は、その約30%の帯域幅を表します—ピーク帯域幅よりも容量が重要な多くのメモリ拡張用途に十分です。

PCIe 7.0基盤

CXL 4.0はPCIe 7.0の物理層改善に基づいて構築されます：[^8]

128 GT/s転送レート: PCIe 6.0の64 GT/sの2倍
PAM4シグナリング: PCIe 6.0と同じエンコーディング方式
改善されたFEC: 信号完全性のための前方誤り訂正
光サポート: より長距離接続を可能にする

仕様は、時間に敏感な操作用のレイテンシ最適化バリアントを追加しながら、CXL 3.xからの256バイトFLIT形式を保持します。[^9]

マルチラックファブリック機能

CXL 4.0は2つのメカニズムにより到達距離を拡張します：

4つのリタイマーサポート: 以前の世代では2つのリタイマーが許可されていました。4つのリタイマーにより、信号劣化なしに複数のラックにまたがるより長い物理接続が可能になります。[^10]

ネイティブx2幅: 以前は劣化したフォールバックモードでしたが、x2リンクは現在フルパフォーマンスで動作します。これにより、多くの低帯域幅接続がより多くのエンドポイントにサービスを提供する高ファンアウト構成が可能になります。[^11]

これらの機能が組み合わさって「マルチラックメモリプーリング」を可能にします—CXL Consortiumが2026-2027年後期の本格運用導入を明示的に目標とする機能です。[^12]

AIインフラのCXL用途

LLM推論のためのKVキャッシュオフロード

最も影響の大きい短期用途：GPU VRAMからCXL接続メモリへのKVキャッシュオフロード。

問題: 長いコンテキストでのLLM推論は巨大なKVキャッシュを生成します。128Kコンテキストでバッチサイズ32の70Bパラメータモデルは、KVキャッシュだけで150GB以上を要求する可能性があります。[^13] これはH100 VRAMを超え、高コストなバッチサイズ削減や複数GPUを強制します。

CXLソリューション: ホット層をGPU VRAMに保持しながら、KVキャッシュをプールされたCXLメモリに保存します。XConnとMemVergeはSC25とOCP 2025でこれを実演しました：[^14]

OPT-6.7Bを実行する2つのH100 GPU（各80GB）
共有CXLメモリプールにオフロードされたKVキャッシュ
200G RDMAと比較して3.8倍の高速化
100G RDMAと比較して6.5倍の高速化
SSDベースKVキャッシュと比較して5倍以上の改善

学術界の研究が機会を確認しています。PNM-KV（KVキャッシュのProcessing-Near-Memory）は、トークンページ選択をCXLメモリ内のアクセラレータにオフロードすることで最大21.9倍のスループット改善を達成します。[^15]

訓練のためのメモリ拡張

訓練ワークロードは以下のための拡張メモリ容量から恩恵を受けます：

より大きなバッチサイズ: 勾配蓄積なしでイテレーション当たりより多くのサンプル
活性化チェックポイント削減: 再計算vs.メモリでより多くの活性化を保存
オプティマイザー状態: Adamオプティマイザーは運動量/分散のために2xパラメータが必要

CXLメモリ拡張により、以前はマルチノード分散を必要としていた訓練構成が単一ノードで実行でき、通信オーバーヘッドが削減されます。

科学・HPC ワークロード

PNNLのCreteプロジェクトは、科学シミュレーションでの計算ノード間での高スループットメモリ共有にCXLプールを使用します。[^16] 用途には以下が含まれます：

大きな近傍リストを持つ分子動力学
兆エッジデータセットでのグラフ解析
単一サーバー容量を超えるインメモリデータベース

インターコネクト環境

CXL vs NVLink vs UALink

CXLの位置を理解するには、これらの技術が異なる目的に対応することを認識する必要があります：

標準	主目的	最適用途
CXL	メモリコヒーレンシー + プーリング	CPUメモリ拡張、共有メモリプール
NVLink	GPU間スケーリング	ノード内GPU通信
UALink	アクセラレータインターコネクト	NVLinkに対するオープン標準代替
Ultra Ethernet	スケールアウトネットワーキング	マルチラック、10,000以上のエンドポイント

CXLはPCIe SerDes上で動作：より低いエラー率、より低いレイテンシー、しかしNVLink/UALinkのEthernet系SerDesより低い帯域幅。[^17] NVLink 5はGPU当たり1.8 TB/sを提供—CXL 4.0のx16ポート当たり512 GB/sをはるかに超えます。[^18]

技術は競合ではなく補完します：

GPUノード内: NVLinkがGPUを接続
ノード間: UALinkまたはInfiniBand/Ethernet
メモリ拡張: CXLがCPUとアクセラレータに容量を追加
ファブリック全体のメモリプール: CXLスイッチがホスト間での共有を可能にする

Panmnesiaは3つすべてを統合する「CXL-over-XLink」アーキテクチャを提案し、PCIe/RDMAベースラインと比較してAI訓練で5.3倍高速、推論レイテンシーで6倍削減を報告しています。[^19]

決定フレームワーク：何をいつ使用するか

シナリオ	推奨インターコネクト	根拠
サーバー内マルチGPU訓練	NVLink	最高帯域幅、最低レイテンシー
マルチGPU推論ポッド（非NVIDIA）	UALink	オープン標準、高帯域幅
VRAM超えのメモリ拡張	CXL	キャッシュコヒーレンシー、DRAMライクレイテンシー
マルチラックGPUクラスター	InfiniBandまたはUltra Ethernet	スケールアウト向け設計
サーバー間共有メモリプール	CXLスイッチ	コヒーレンシーを持つメモリプーリング
中国/制限市場	UB-Mesh検討	西側IP依存を回避

CXLエコシステム：ベンダーと製品

メモリエクスパンダー

主要DRAM製造業者3社すべてがCXLメモリエクスパンダーを出荷：

ベンダー	製品	容量	インターフェース	ステータス
Samsung	CMM-D	256 GB	CXL 2.0	2025年量産[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	2024年後期量産[^21]
Micron	CZ120	256 GB	CXL 2.0	サンプリング[^22]
SK Hynix	CMS	512 GB	CXL（コンピューティング対応）	発表[^23]

SK HynixのCMS（Computational Memory Solution）は、メモリモジュール内に直接コンピューティング機能を追加—CXL向けprocessing-near-memoryの初期実装です。

スイッチベンダー

CXLスイッチは複数ホスト間でのメモリプーリングを可能にします：

ベンダー	製品	世代	ステータス	主要機能
XConn	XC50256	CXL 2.0	出荷中	256レーンスイッチ、市場初[^24]
XConn	Apollo	CXL 2.0	出荷中	SC25でメモリプーリング実演[^25]
Panmnesia	Fabric Switch	CXL 3.2	2025年11月サンプリング	初のPBR実装[^26]
Astera Labs	Leo	CXL 2.0	出荷中	スマートメモリコントローラー[^27]
Microchip	SMC 2000	CXL 2.0	出荷中	メモリ拡張コントローラー[^28]

PanmnesiaのCXL 3.2 Fabric Switchは世代飛躍を表します：最大4,096ノードでの真のファブリックアーキテクチャ用ポートベースルーティングを実装する初のシリコンです。[^29]

コントローラーベンダー

CXLメモリコントローラーはCXLプロトコルとDRAM間を変換します：

ベンダー	役割	主要製品
Marvell	コントローラー	Structera CXLコントローラー[^30]
Montage	コントローラー	CXLメモリバッファチップ
Astera Labs	コントローラー	Leoスマートメモリコントローラー
Microchip	コントローラー	SMC 2000シリーズ

MarvellのStructeraは、IntelとAMDプラットフォーム両方で主要メモリサプライヤー3社（Samsung、Micron、SK Hynix）すべてとの相互運用性テストを完了しました。[^31]

導入計画ガイド

タイムライン

期間	CXL世代	期待される能力	推奨事項
現在-2026年Q2	CXL 2.0	メモリ拡張、基本プーリング	本格運用評価
2026年Q3-Q4	CXL 3.0/3.1	ファブリック、ピアツーピア、4Kノード	AI向け早期採用
2027年以降	CXL 4.0	マルチラックプーリング、1.5 TB/s	現在から計画開始

ABI Researchは、商用採用に十分なソフトウェアサポートを持つCXL 3.0/3.1ソリューションを2027年までに期待しています。[^32]

現在評価すべきもの

即座（2025年）: 1. 既存のIntel Sapphire RapidsまたはAMD EPYC GenoaサーバーでCXL 2.0メモリエクスパンダーをテスト 2. メモリプーリング用のXConnまたはAstera Labsスイッチを評価

CXL 4.0インフラ計画ガイド：大規模AIのためのメモリプーリング

要約

メモリウォール問題

CXL 4.0技術詳細

CXL 1.0から4.0への進化

バンドルポートアーキテクチャ

PCIe 7.0基盤

マルチラックファブリック機能

AIインフラのCXL用途

LLM推論のためのKVキャッシュオフロード

訓練のためのメモリ拡張

科学・HPC ワークロード

インターコネクト環境

CXL vs NVLink vs UALink

決定フレームワーク：何をいつ使用するか

CXLエコシステム：ベンダーと製品

メモリエクスパンダー

スイッチベンダー

コントローラーベンダー

導入計画ガイド

タイムライン

現在評価すべきもの

You Might Also Like

AIワークロードスケジューリング：タイムゾーン横断でのGPU利用率最適化

AI インフラストラクチャのセキュリティオペレーション: GPU クラスターのSOC要件

6,000億ドルのAIインフラ構築：ハイパースケーラーのCapEx、債務、サプライチェーンの現実

お見積り依頼_

リクエストを受信しました_