CXLメモリ拡張:AIデータセンターにおけるメモリウォールの突破
2025年12月11日更新
2025年12月アップデート: Microsoftが2025年11月に初のCXL搭載クラウドインスタンスを開始。CXL 4.0仕様で帯域幅が128GT/sに倍増。CXL市場は2028年までに150億ドル規模に成長し、CXL接続DRAMが120億ドル以上を占めると予測。CXL対応KVキャッシュで21.9倍のスループット向上、トークンあたりのエネルギー消費60分の1を達成。商用CXLプールは2025年に100TiBに到達。
メモリボトルネックがAIパフォーマンスを低下させている。大規模言語モデルはKVキャッシュだけでGPUあたり80~120GBを超えることが常態化しており、最も高価なHBM搭載アクセラレータでさえ限界に達している。¹ Compute Express Link(CXL)メモリ拡張技術は、サーバーがCPU接続DRAMの制限を超えてメモリプールにアクセスできるようにすることで、メモリ容量の危機に直接対応する。Microsoftが2025年11月に業界初のCXL搭載クラウドインスタンスを開始し、CXL 4.0仕様が帯域幅を128GT/sに倍増させたことで、ディスアグリゲート型メモリアーキテクチャは研究コンセプトから本番環境へと移行しつつある。²
市場はこの緊急性を反映している。CXL市場の収益予測は2028年までに150億ドルに達し、CXL接続DRAMがその総額の120億ドル以上を占めると見込まれている。³ AIインフラを大規模に展開する組織にとって、CXLメモリ拡張機能を理解することは、継続的なハードウェアアップグレードなしに次世代ワークロードを処理できるかどうかを左右する。
CXLメモリ拡張の仕組み
CXLは、標準的なPCIe物理層上で動作するキャッシュコヒーレント相互接続プロトコルとして機能する。この技術は、CPUキャッシュと外部メモリデバイス間の完全なコヒーレンシを維持し、アプリケーションがローカルDRAMと同じプログラミングモデルでCXL接続メモリにアクセスできるようにする。⁴ 3つのプロトコルサブタイプが異なるデバイスインタラクションを処理する:CXL.ioはPCIeスタイルのトランザクションを管理し、CXL.cacheはデバイスがホストメモリをキャッシュできるようにし、CXL.memはホストがデバイス接続メモリにアクセスできるようにする。⁵
CXL Type-3として指定されるメモリエクスパンダーデバイスは、PCIeスロットまたはEDSFFフォームファクターを通じてDDR5モジュールをサーバーに接続する。最新のCXLコントローラーは、直接接続DRAMと比較して約70ナノ秒のレイテンシを追加する。⁶ これは大きな値だが、CXLメモリレイテンシはNVMeストレージより20~50倍高速であり、高速なホストメモリと低速なディスクアクセスの間の重要なパフォーマンス層を埋めている。⁷
仕様の進化は急速に加速した。CXL 2.0はメモリプーリングを導入し、複数のホストが個別の割り当てで共通のメモリデバイスにアクセスできるようになった。⁸ CXL 3.0は真の共有メモリを実現し、複数のホストが一貫したデータビューで同じメモリセグメントに同時にアクセスできるようになった。⁹ 2025年11月にリリースされたCXL 4.0は、帯域幅を64GT/sから128GT/sに倍増させ、256バイトのFLITフォーマットを維持しながら、新しいバンドルポート機能によりx16リンクで最大1.536TB/sの双方向総帯域幅を実現した。¹⁰
メモリプーリングがサーバー経済を変革
従来のサーバーアーキテクチャでは、オペレーターは難しいトレードオフを迫られていた。メモリ要件はワークロードによって大きく異なるが、サーバーは固定のDRAM構成で出荷される。メモリは2022年にサーバー価値の約30%を占め、2025年までに40%を超えると予測されている。¹¹ 組織は通常、ピーク負荷に対応するためにメモリを過剰にプロビジョニングし、平均利用期間中は高価なDRAMが遊休状態になる。
CXLメモリプーリングは、この方程式を根本的に変える。複数のサーバーが集中型メモリプールへのアクセスを共有し、リアルタイムのワークロード需要に基づいて動的に容量を割り当てる。Microsoftは、CXLベースのメモリプーリングを採用することで必要なメモリ総量を約10%削減でき、サーバーコスト全体を5%削減できることを発見した。¹² SMART Modular Technologiesは、安価なDIMMとCXLアドインカードを組み合わせることで、より多くのRAMをサポートするCPUへのアップグレードと比較して、1TB メモリ構成で最大40%の節約が可能だと推定している。¹³
ハイブリッドDRAM-CXLシステムは、圧縮と効率的なプーリングによりメモリコストを50%削減しながら、純粋なDRAMセットアップの95~100%のスループットを達成する。¹⁴ HBM需要がDRAM生産能力を消費しているためメモリ価格が高止まりしており、経済的な根拠はさらに強まっている。DRAM価格の上昇により、企業は高価なメモリアップグレードの代替として、メモリ効率化ソフトウェアやCXLベースの拡張ソリューションに向かっている。¹⁵
AI推論ワークロードがCXL採用を促進
大規模言語モデルの推論は、拡張されたメモリ容量に対する最も差し迫った需要を生み出している。KVキャッシュのストレージ要件はコンテキスト長に比例してスケールし、数百万トークンのコンテキストをサポートする最新モデルは、GPUメモリを完全に超えるキャッシュサイズを生成する。研究により、CXL対応のKVキャッシュ管理が、ベースライン実装と比較して最大21.9倍のスループット向上、トークンあたり60分の1のエネルギー消費、7.3倍の総コスト効率を達成することが実証されている。¹⁶
XConn TechnologiesとMemVergeは、Supercomputing 2025で、AI推論ワークロードが大規模なKVキャッシュリソースをGPUとCPU間で動的にオフロードおよび共有する方法を実演した。このデモンストレーションでは、SSDベースのキャッシングやRDMAベースのKVキャッシュオフローディングと比較して5倍以上のパフォーマンス向上を達成した。¹⁷ ネットワークベースの代替手段と比較して、CXLメモリプールは推論ワークロードにおいて200G RDMAの3.8倍、100G RDMAの6.5倍のスピードアップを達成した。¹⁸
100TiBに達する商用CXLメモリプールは2025年に利用可能となり、2026年にはさらに大規模な展開が計画されている。¹⁹ Astera Labsは、OCP Global Summit 2025で、Leo CXL Smart Memory Controllerがより高いスループットで3倍の同時LLMインスタンスを達成し、CXLでレイテンシを3分の1に低減することで、AIインフラのボトルネックを解消する方法を実演した。²⁰ SK Hynixは、従来のネットワーキングなしで複数のサーバーとGPUを接続し、CXLプールドメモリ技術を通じて分散推論タスクをサポートするメモリ中心のAIマシンを披露した。²¹
推論以外にも、CXLメモリ拡張はレコメンデーションシステム、インメモリデータベース、グラフ分析に利点をもたらす。MicronのH3 Falcon CXLベースのディスアグリゲート型メモリシステムは、グラフデータベースで最大20倍のパフォーマンス向上を実現する。²² AMD EPYC第5世代プロセッサと組み合わせたLeo CXLコントローラーは、ディープラーニングレコメンデーションモデルで70%のパフォーマンス向上を提供する。²³
CXLコントローラーの状況
3つのベンダーがCXLメモリコントローラー生産を支配している:Astera Labs、Montage Technology、Microchipである。彼らのコントローラーは、すべての主要DRAMメーカーのメモリモジュールを駆動している。
Astera Labsは、コントローラーあたり最大2TBのメモリ容量をサポートするCXL 2.0対応のLeo CXL Smart Memory Controllerで市場をリードしている。²⁴ Leoは、CXL.mem、CXL.cache、CXL.ioプロトコルを実装し、オペレーティングシステムに集約されたメモリを提示するためのハードウェアインターリーブを実行し、COSMOS管理スイートを通じてRAS機能を提供する。²⁵ A-Seriesアドインカードはプラグアンドプレイの展開を可能にし、E-SeriesとP-Series実装はカスタム統合をサポートする。Microsoft Azureの2025年11月のCXLメモリプレビューはLeoコントローラーを使用しており、業界初のCXL接続メモリのパブリッククラウド展開となっている。²⁶
Montage Technologyは世界初のCXL Memory eXpander Controller(MXC)を出荷し、現在Samsung、SK Hynix、その他の主要メモリメーカーにコントローラーを供給している。²⁷ 同社の2025年9月のCXL 3.1コントローラー(M88MX6852)は、x8構成で最大64GT/sのデータ転送速度を達成し、8000MT/s速度のデュアルチャネルDDR5を統合し、70nsのレイテンシのみを追加する。²⁸ 25mm x 25mmパッケージは、EDSFF E3.SとPCIeアドインカードの両方のフォームファクターをサポートする。²⁹ SamsungとSK Hynixは両方とも、Montage MXCチップを使用してCXL 2.0準拠テストに合格した。³⁰
Microchipは、メモリ拡張およびプーリングアプリケーションをサポートするSMC 1000 8x25GコントローラーでCXL市場に参入した。同社は、メモリバッファチップやSPDハブコントローラーと並んで、より広範なメモリコネクティビティポートフォリオにCXL機能を統合している。
主要ベンダーのメモリモジュール製品
SamsungのCMM-D(CXL Memory Module - DDR5)シリーズは、同社の量産CXLラインナップを代表する。CMM-D 2.0は、128GBと256GBの容量、最大36GB/sの帯域幅、CXL 2.0準拠、PCIe Gen 5サポートを提供する。³¹ Samsungは、CMM-Dを既存のローカルDIMMを補完するものとして位置づけ、総所有コストを削減しながらメモリ容量を最大50%、帯域幅を最大100%拡張できると主張している。³² カスタマーサンプルは2025年に出荷され、CXL 3.1バリアントは年末をターゲットとしている。³³
SK Hynixは、Supercomputing 2025で複数のCXLメモリ製品を実演した。CMM-DDR5はMontageコントローラーと連携してメモリ容量を拡張し、CMM-Ax(CXL Memory Module Accelerator)はコンピューティング機能をメモリに直接統合している。³⁴ SK TelecomのPetasus AI CloudはCMM-Axを展開し、実用的なAIインフラアプリケーションを実証した。³⁵ SK Hynixは、サードパーティシリコンへの依存を減らすため、CXL 3.0および3.1用の独自CXLコントローラーの生産を準備している。³⁶
Micronは、96GB DDR5容量を使用したCXL 2.0ベースのメモリ拡張モジュールを展開した。³⁷ 同社は、高マージンのサーバーメモリセグメントでSamsungとSK Hynixとのギャップを縮めるための重要な技術としてCXLメモリを位置づけている。MicronのH3 Falconシステムは、CXLベースのディスアグリゲート型メモリとLinuxサポートのFAMFSファイルシステムを組み合わせ、グラフデータベースの高速化を実現している。³⁸
IntelとAMDのサーバープラットフォームサポート
AMD EPYC Genoaプロセッサは2022年にネイティブCXL Type-3デバイスサポートとともに登場し、AMDにIntelに対する数年のリードを与えた。³⁹ 現在のEPYC 9005 Turinプロセッサは、ラインナップ全体でCXL互換性を維持している。パフォーマンスベンチマークは大幅な向上を示している:第5世代AMD EPYCを搭載したLeo CXLコントローラーは、レコメンデーションモデルで70%のパフォーマンス向上を実現し、ネイティブDRAMパフォーマンスの95~100%に匹敵するハイブリッドメモリアーキテクチャを可能にする。⁴⁰
IntelのCXLへの道のりはより困難であった。第4世代Xeon Scalable「Sapphire Rapids」は、ベースCXLプロトコルを実装しているにもかかわらず、CXL Type-3デバイスサポートなしで発売された。⁴¹ 公式のType-3サポートは、約1年前に第5世代「Emerald Rapids」で登場した。Intel Xeon 6プロセッサにはCXL Flat Memory Modeが含まれており、パフォーマンスを犠牲にすることなくコンピュート対メモリ比率の柔軟性を高める独自の機能である。⁴² MicrosoftはAzureのCXLプレビューを発表する際に、特にFlat Memory Mode機能を強調した。⁴³
Intel Xeon 6プロセッサを搭載したLenovo ThinkSystem V4サーバーは、E3.S 2TフォームファクターでCXL 2.0メモリをサポートする。⁴⁴ Dell Technologies、HPE、ASUS、Inventecを含む業界リーダーは、CXL 3.0に対応したプラットフォームを構築し、より広範なエコシステムの採用に備えている。⁴⁵ CXL接続DRAMの予測は、2029年までにサーバーDRAMの約10%に達すると見込まれている。⁴⁶
CXL 4.0がマルチラックの未来を描く
2025年11月のCXL 4.0仕様リリースは、真にディスアグリゲートされたデータセンターアーキテクチャの基盤を確立する。PCIe 7.0物理層を介した128GT/sへの帯域幅倍増は、以前の採用を制限していたパフォーマンスの懸念に対処する。⁴⁷ バンドルポートは複数の物理接続を単一の論理アタッチメントに集約し、シンプルなソフトウェアモデルを維持しながら、x16構成で各方向768GB/sの帯域幅(合計1.536TB/s)を可能にする。⁴⁸
ネイティブx2リンク幅サポートは、メモリプーリングトポロジのファンアウト機能を向上させる。以前のCXLバージョンでは、x2はレーン障害のフォールバックモードとしてのみサポートされていたが、CXL 4.0はx4からx16幅と同様にパフォーマンスのためにx2を完全に最適化している。⁴⁹ 最大4つのリタイマーを介した拡張リーチサポートにより、信号劣化なしにマルチラック構成が可能になる。⁵⁰
CXL 4.0マルチラックシステムは、2026年後半から2027年に展開される可能性がある。⁵¹ 仕様は以前のすべてのCXLバージョンとの後方互換性を維持し、既存のCXL 2.0および3.x機器への投資を保護する。⁵² CXL 3.0エコシステムの成熟は2025年を通じて期待されており、データセンターは2026年までにメモリとコンピュートがディスアグリゲートされ、プールされ、動的に再割り当てされるアーキテクチャの採用を開始する。⁵³
CXLインフラストラクチャスタックの構築
CXLメモリ拡張の展開には、エコシステムの調整が必要である。