CXL 4.0インフラ計画ガイド：AIスケールのためのメモリプーリング

バンドルポート、マルチラックメモリプーリング、KVキャッシュオフロード、ベンダーエコシステム、2026-2027年計画タイムラインを網羅した完全なCXL 4.0導入ガイド。

Blake Crosley

Mar 29, 2026 2 min read Disclaimer

CXL 4.0インフラ計画ガイド：AIスケールのためのメモリプーリング

2025年12月13日

2025年12月更新： CXLコンソーシアムは2025年11月18日にCXL 4.0をリリースし、PCIe 7.0経由で帯域幅を128 GT/sに倍増させ、1.5 TB/s接続のためのバンドルポートを導入しました。本ガイドでは、AIインフラにCXLベースのメモリプーリングを実装する準備を進める組織向けの導入計画について解説します。

要約

CXL 4.0は前例のない規模でのメモリプーリングを可能にし、AI推論ワークロードが複数のラックにわたってキャッシュコヒーレンシを維持しながら100テラバイト以上の共有メモリにアクセスできるようになります。この仕様のバンドルポートは、複数の物理接続を1.5 TB/sの帯域幅を提供する単一の論理アタッチメントに集約します。インフラ計画担当者にとって、重要な決定事項は、CXLをいつ採用するか（本番環境は2026-2027年）、現在どの製品を評価すべきか（CXL 2.0/3.0スイッチは出荷中）、そしてCXLがNVLinkやUALinkを置き換えるのではなく補完する方法を理解することです。本ガイドでは、CXL導入を計画するために必要な技術的詳細と意思決定フレームワークを提供します。

メモリウォール問題

大規模言語モデルは根本的な制約に直面しています：GPUメモリ容量です。現代のAI推論ワークロードは、GPU当たり80-120 GBを日常的に超過し、キーバリュー（KV）キャッシュはコンテキスト長に応じて増大します。[^1] 128Kコンテキストウィンドウを持つ単一の推論リクエストは、KVキャッシュストレージだけで数十ギガバイトを消費する可能性があります。

問題はスケールで深刻化します。フロンティアLLMのモデルウェイトは数百ギガバイトを消費します。KVキャッシュ要件はバッチサイズとシーケンス長の両方に対して線形に増大します。GPU VRAMは80GB（H100）または192GB（B200）で固定されたままです。[^2]

従来のソリューションでは不十分です：

アプローチ	限界
GPUを追加	コストが線形に増加、メモリは依然としてGPUごとに分離
NVMeオフロード	約100 μsのレイテンシ、DRAMより100倍遅い
RDMAベースの共有	依然として10-20 μsのレイテンシ、複雑なネットワーキング
より大きなGPUメモリ	供給制約あり、高価

CXLは、データセンター全体でDRAM並みのレイテンシ（200-500 ns）でメモリプーリングを可能にすることで、この方程式を変えます。[^3]

CXL 4.0技術詳細

CXL 1.0から4.0への進化

CXLは2019年の導入以来、急速に成熟してきました。各世代で機能が拡張されています：

世代	リリース	PCIeベース	速度	主要な進歩
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	基本的なコヒーレントメモリアタッチ
CXL 2.0	2022	PCIe 5.0	32 GT/s	スイッチング、メモリプーリング、マルチデバイス
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	ファブリックサポート、ピアツーピア、4,096ノード
CXL 4.0	2025年11月	PCIe 7.0	128 GT/s	バンドルポート、マルチラック、強化されたRAS

CXL 2.0はメモリプーリングの基礎的な概念を導入しました。複数のType 3メモリデバイスがスイッチに接続し、共有プールを形成し、スイッチが異なるホストにリソースを動的に割り当てます。[^4] これにより、クラスター全体のメモリ使用率が典型的な50-60%から85%以上に改善されます。

CXL 3.0は、マルチレベルスイッチングとポートベースルーティング（PBR）による最大4,096ノードをサポートするファブリック機能を追加しました。[^5] 256バイトFLITへの移行とPCIe 6.0の64 GT/sにより、利用可能な帯域幅が倍増しました。

CXL 4.0は帯域幅を再び倍増させながら、マルチラックAI導入に不可欠な機能を導入しています。

バンドルポートアーキテクチャ

高性能コンピューティングにとってCXL 4.0の最も重要な機能：バンドルポートは複数の物理CXLデバイスポートを単一の論理エンティティに集約します。[^6]

バンドルポートの仕組み：

ホストとType 1/2デバイスが複数の物理ポートを組み合わせる
システムソフトウェアは複数の物理接続にもかかわらず単一のデバイスとして認識
帯域幅はすべてのバンドルポートにわたって集約
256バイトFLITモード用に最適化され、レガシーオーバーヘッドを排除

帯域幅計算：

構成	方向	帯域幅
単一x16ポート @ 128 GT/s	単方向	256 GB/s
単一x16ポート @ 128 GT/s	双方向	512 GB/s
3バンドルx16ポート @ 128 GT/s	単方向	768 GB/s
3バンドルx16ポート @ 128 GT/s	双方向	1,536 GB/s

参考として、H200のHBM3eメモリは4.8 TB/sの帯域幅を提供します。[^7] 1.5 TB/sのバンドルCXL 4.0接続は、その帯域幅の約30%を表します—容量がピーク帯域幅よりも重要な多くのメモリ拡張ユースケースには十分です。

PCIe 7.0基盤

CXL 4.0はPCIe 7.0の物理層改善の上に構築されています：[^8]

128 GT/s転送レート：PCIe 6.0の64 GT/sの2倍
PAM4シグナリング：PCIe 6.0と同じエンコーディング方式
改善されたFEC：信号整合性のための前方誤り訂正
光学サポート：より長いリーチ接続を可能に

この仕様は、時間に敏感な操作用のレイテンシ最適化バリアントを追加しながら、CXL 3.xからの256バイトFLIT形式を維持しています。[^9]

マルチラックファブリック機能

CXL 4.0は2つのメカニズムを通じてリーチを拡張します：

4つのリタイマーをサポート：以前の世代では2つのリタイマーが許可されていました。4つのリタイマーにより、信号劣化なしに複数のラックにまたがるより長い物理接続が可能になります。[^10]

ネイティブx2幅：以前は低下したフォールバックモードでしたが、x2リンクは現在フルパフォーマンスで動作します。これにより、多くの低帯域幅接続がより多くのエンドポイントにサービスを提供する高ファンアウト構成が可能になります。[^11]

これらの機能が組み合わさることで「マルチラックメモリプーリング」が可能になります—CXLコンソーシアムが2026年後半から2027年の本番導入を明確に目標としている機能です。[^12]

AIインフラ向けCXLユースケース

LLM推論のためのKVキャッシュオフロード

最も影響力のある短期ユースケース：GPU VRAMからCXL接続メモリへのKVキャッシュオフロード。

問題： 長いコンテキストを持つLLM推論は大量のKVキャッシュを生成します。70Bパラメータモデルで128Kコンテキスト、バッチサイズ32の場合、KVキャッシュだけで150+ GBを必要とする可能性があります。[^13] これはH100 VRAMを超え、高価なバッチサイズ削減または複数のGPUを強制します。

CXLソリューション： ホットレイヤーをGPU VRAMに保持しながら、KVキャッシュをプールされたCXLメモリに保存します。XConnとMemVergeはSC25およびOCP 2025でこれを実演しました：[^14]

2つのH100 GPU（各80GB）でOPT-6.7Bを実行
KVキャッシュを共有CXLメモリプールにオフロード
200G RDMAと比較して3.8倍の高速化
100G RDMAと比較して6.5倍の高速化
SSDベースのKVキャッシュと比較して5倍以上の改善

学術界からの研究もこの機会を確認しています。PNM-KV（KVキャッシュ用Processing-Near-Memory）は、トークンページ選択をCXLメモリ内のアクセラレータにオフロードすることで、最大21.9倍のスループット改善を達成しています。[^15]

トレーニング用メモリ拡張

トレーニングワークロードは、以下のための拡張されたメモリ容量の恩恵を受けます：

より大きなバッチサイズ：勾配累積なしでイテレーションごとにより多くのサンプル
活性化チェックポイントの削減：再計算ではなくメモリにより多くの活性化を保存
オプティマイザ状態：Adamオプティマイザはモメンタム/分散のためにパラメータの2倍を必要とする

CXLメモリ拡張により、以前はマルチノード分散を必要としていたトレーニング構成を単一ノードで実行できるようになり、通信オーバーヘッドが削減されます。

科学・HPCワークロード

PNNLのCreteプロジェクトは、科学シミュレーションにおける計算ノード間の高スループットメモリ共有にCXLプールを使用しています。[^16] ユースケースには以下が含まれます：

大規模な隣接リストを持つ分子動力学
数兆エッジのデータセットに対するグラフ分析
単一サーバー容量を超えるインメモリデータベース

インターコネクト環境

CXL対NVLink対UALink

CXLがどこに位置するかを理解するには、これらの技術が異なる目的に役立つことを認識する必要があります：

標準	主な目的	最適な用途
CXL	メモリコヒーレンシ + プーリング	CPUメモリ拡張、共有メモリプール
NVLink	GPU間スケーリング	ノード内GPU通信
UALink	アクセラレータインターコネクト	NVLinkに対するオープン標準代替
Ultra Ethernet	スケールアウトネットワーキング	マルチラック、10,000以上のエンドポイント

CXLはPCIe SerDes上で動作します：NVLink/UALinkのEthernetスタイルSerDesよりも低いエラーレート、低いレイテンシ、ただし低い帯域幅。[^17] NVLink 5はGPU当たり1.8 TB/sを提供します—CXL 4.0のx16ポート当たり512 GB/sを大幅に上回ります。[^18]

これらの技術は競合するのではなく補完し合います：

GPUノード内：NVLinkがGPUを接続
ノード間：UALinkまたはInfiniBand/Ethernet
メモリ拡張：CXLがCPUとアクセラレータに容量を追加
ファブリック全体のメモリプール：CXLスイッチがホスト間の共有を可能に

Panmnesiaは3つすべてを統合する「CXL-over-XLink」アーキテクチャを提案し、PCIe/RDMAベースラインと比較してAIトレーニングが5.3倍高速化し、推論レイテンシが6倍削減されたと報告しています。[^19]

意思決定フレームワーク：いつ何を使用するか

シナリオ	推奨インターコネクト	根拠
サーバー内マルチGPUトレーニング	NVLink	最高帯域幅、最低レイテンシ
マルチGPU推論ポッド（非NVIDIA）	UALink	オープン標準、高帯域幅
VRAMを超えるメモリ拡張	CXL	キャッシュコヒーレンシ、DRAM並みのレイテンシ
マルチラックGPUクラスター	InfiniBandまたはUltra Ethernet	スケールアウト用に設計
サーバー間共有メモリプール	CXLスイッチ	コヒーレンシを持つメモリプーリング
中国/制限市場	UB-Meshを検討	西洋のIP依存を回避

CXLエコシステム：ベンダーと製品

メモリエクスパンダー

3大DRAMメーカーすべてがCXLメモリエクスパンダーを出荷しています：

ベンダー	製品	容量	インターフェース	ステータス
Samsung	CMM-D	256 GB	CXL 2.0	2025年量産[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	2024年後半量産[^21]
Micron	CZ120	256 GB	CXL 2.0	サンプリング[^22]
SK Hynix	CMS	512 GB	CXL（コンピュート対応）	発表済み[^23]

SK HynixのCMS（Computational Memory Solution）は、メモリモジュール内に直接計算機能を追加します—CXL向けのProcessing-Near-Memoryの初期実装です。

スイッチベンダー

CXLスイッチは複数のホスト間でメモリプーリングを可能にします：

ベンダー	製品	世代	ステータス	主要機能
XConn	XC50256	CXL 2.0	出荷中	256レーンスイッチ、市場初[^24]
XConn	Apollo	CXL 2.0	出荷中	SC25でのメモリプーリングデモンストレーション[^25]
Panmnesia	Fabric Switch	CXL 3.2	2025年11月サンプリング	初のPBR実装[^26]
Astera Labs	Leo	CXL 2.0	出荷中	スマートメモリコントローラー[^27]
Microchip	SMC 2000	CXL 2.0	出荷中	メモリ拡張コントローラー[^28]

PanmnesiaのCXL 3.2 Fabric Switchは世代の飛躍を表しています：最大4,096ノードの真のファブリックアーキテクチャ用のポートベースルーティングを実装した最初のシリコンです。[^29]

コントローラーベンダー

CXLメモリコントローラーはCXLプロトコルとDRAM間を変換します：

ベンダー	役割	主要製品
Marvell	コントローラー	Structera CXLコントローラー[^30]
Montage	コントローラー	CXLメモリバッファチップ
Astera Labs	コントローラー	Leoスマートメモリコントローラー
Microchip	コントローラー	SMC 2000シリーズ

MarvellのStructeraは、IntelおよびAMDプラットフォームの両方で3大メモリサプライヤー（Samsung、Micron、SK Hynix）すべてとの相互運用性テストを完了しました。[^31]

導入計画ガイド

タイムライン

期間	CXL世代	期待される機能	推奨事項
現在-2026年Q2	CXL 2.0	メモリ拡張、基本的なプーリング	本番評価
2026年Q3-2026年Q4	CXL 3.0/3.1	ファブリック、ピアツーピア、4Kノード	AI向け早期採用
2027年以降	CXL 4.0	マルチラックプーリング、1.5 TB/s	今から計画開始

ABI Researchは、2027年までに商用採用に十分なソフトウェアサポートを備えたCXL 3.0/3.1ソリューションを期待しています。[^32]

今評価すべきこと

即時（2025年）： 1. 既存のIntel Sapphire RapidsまたはAMD EPYC GenoaサーバーでCXL 2.0メモリエクスパンダーをテスト 2. メモリプーリング用にXConnまたはAstera Labsスイッチを評価

[翻訳のため内容を切り詰め]

CXL 4.0インフラ計画ガイド：AIスケールのためのメモリプーリング

要約

メモリウォール問題

CXL 4.0技術詳細

CXL 1.0から4.0への進化

バンドルポートアーキテクチャ

PCIe 7.0基盤

マルチラックファブリック機能

AIインフラ向けCXLユースケース

LLM推論のためのKVキャッシュオフロード

トレーニング用メモリ拡張

科学・HPCワークロード

インターコネクト環境

CXL対NVLink対UALink

意思決定フレームワーク：いつ何を使用するか

CXLエコシステム：ベンダーと製品

メモリエクスパンダー

スイッチベンダー

コントローラーベンダー

導入計画ガイド

タイムライン

今評価すべきこと

You Might Also Like

シンガポールの270億ドルAIインフラブーム：データセンター展開の機会

マレーシアとタイ：東南アジアで台頭するAIデータセンターハブ

AI向けバックアップ・リカバリ: ペタバイト規模の訓練データ保護

お見積り依頼_

リクエストを受信しました_