CXL 4.0 基础设施规划指南：AI 规模化内存池

完整的 CXL 4.0 部署指南，涵盖捆绑端口、多机架内存池、KV 缓存卸载、供应商生态系统以及 2026-2027 规划时间表。

Madison Kersh

Apr 27, 2026 4 min read Disclaimer

CXL 4.0 基础设施规划指南：AI 规模化内存池

2025年12月13日

2025年12月更新： CXL 联盟于2025年11月18日发布了 CXL 4.0，通过 PCIe 7.0 将带宽提高一倍至 128 GT/s，并引入捆绑端口以实现 1.5 TB/s 连接。本指南涵盖了准备在其 AI 基础设施中实施基于 CXL 的内存池的组织的部署规划。

要点总结

CXL 4.0 可实现前所未有规模的内存池，允许 AI 推理工作负载在多个机架之间以缓存一致性访问 100+ TB 的共享内存。该规范的捆绑端口将多个物理连接聚合为单个逻辑连接，提供 1.5 TB/s 带宽。对于基础设施规划者而言，关键决策涉及了解何时采用 CXL（2026-2027 年投入生产）、现在评估哪些产品（CXL 2.0/3.0 交换机正在发货）以及 CXL 如何补充而非替代 NVLink 和 UALink。本指南提供了规划 CXL 部署所需的技术深度和决策框架。

内存墙问题

大型语言模型遇到了一个根本性约束：GPU 内存容量。现代 AI 推理工作负载经常超过每个 GPU 80-120 GB，而键值（KV）缓存随着上下文长度的增长而增长。[^1] 具有 128K 上下文窗口的单个推理请求仅 KV 缓存存储就可能消耗数十 GB。

问题在规模化时加剧。前沿 LLM 的模型权重消耗数百 GB。KV 缓存需求随批次大小和序列长度线性增长。GPU VRAM 仍固定在 80GB（H100）或 192GB（B200）。[^2]

传统解决方案存在不足：

方法	限制
添加更多 GPU	成本线性增加，内存仍按 GPU 隔离
NVMe 卸载	~100 μs 延迟，比 DRAM 慢 100 倍
基于 RDMA 的共享	仍有 10-20 μs 延迟，网络复杂
更大的 GPU 内存	供应受限，昂贵

CXL 通过在数据中心内实现具有 DRAM 类似延迟（200-500 ns）的内存池来改变这一等式。[^3]

CXL 4.0 技术深度剖析

从 CXL 1.0 到 4.0 的演进

自 2019 年推出以来，CXL 已快速成熟。每一代都扩展了功能：

代数	发布时间	PCIe 基础	速度	关键进步
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	基本一致性内存连接
CXL 2.0	2022	PCIe 5.0	32 GT/s	交换、内存池、多设备
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	结构支持、点对点、4,096 节点
CXL 4.0	2025年11月	PCIe 7.0	128 GT/s	捆绑端口、多机架、增强 RAS

CXL 2.0 引入了内存池的基础概念。多个 Type 3 内存设备连接到交换机，形成共享池，交换机从中动态分配资源给不同主机。[^4] 这使内存利用率从典型的 50-60% 提高到整个集群的 85%+。

CXL 3.0 添加了支持多级交换和多达 4,096 个节点的结构功能，采用基于端口的路由（PBR）。[^5] 转向 256 字节 FLIT 和 PCIe 6.0 的 64 GT/s 使可用带宽翻倍。

CXL 4.0 再次将带宽翻倍，同时引入对多机架 AI 部署至关重要的功能。

捆绑端口架构

CXL 4.0 对高性能计算最重要的功能：捆绑端口将多个物理 CXL 设备端口聚合为单个逻辑实体。[^6]

捆绑端口的工作原理：

主机和 Type 1/2 设备组合多个物理端口
系统软件看到单个设备，尽管有多个物理连接
带宽在所有捆绑端口之间聚合
针对 256 字节 FLIT 模式进行优化，消除传统开销

带宽计算：

配置	方向	带宽
单 x16 端口 @ 128 GT/s	单向	256 GB/s
单 x16 端口 @ 128 GT/s	双向	512 GB/s
3 个捆绑 x16 端口 @ 128 GT/s	单向	768 GB/s
3 个捆绑 x16 端口 @ 128 GT/s	双向	1,536 GB/s

作为对比，H200 上的 HBM3e 内存提供 4.8 TB/s 带宽。[^7] 1.5 TB/s 的捆绑 CXL 4.0 连接约占该带宽的 30%——对于容量比峰值带宽更重要的许多内存扩展用例来说已足够。

PCIe 7.0 基础

CXL 4.0 建立在 PCIe 7.0 的物理层改进之上：[^8]

128 GT/s 传输速率：是 PCIe 6.0 的 64 GT/s 的两倍
PAM4 信号传输：与 PCIe 6.0 相同的编码方案
改进的 FEC：用于信号完整性的前向纠错
光学支持：实现更长距离连接

该规范保留了 CXL 3.x 的 256 字节 FLIT 格式，同时为时间敏感操作添加了延迟优化变体。[^9]

多机架结构功能

CXL 4.0 通过两种机制扩展覆盖范围：

支持四个重定时器：以前的代次允许两个重定时器。四个重定时器可实现跨多个机架的更长物理连接，而无信号衰减。[^10]

原生 x2 宽度：以前是降级的后备模式，x2 链路现在以全性能运行。这实现了更高扇出配置，其中许多较低带宽连接服务更多端点。[^11]

这些功能结合起来实现了"多机架内存池"——CXL 联盟明确针对 2026-2027 年末生产部署的功能。[^12]

AI 基础设施的 CXL 用例

LLM 推理的 KV 缓存卸载

最高影响的近期用例：将 KV 缓存从 GPU VRAM 卸载到 CXL 连接的内存。

问题： 具有长上下文的 LLM 推理生成大量 KV 缓存。具有 128K 上下文和批次大小 32 的 70B 参数模型仅 KV 缓存就可能需要 150+ GB。[^13] 这超过了 H100 VRAM，迫使昂贵的批次大小减少或多个 GPU。

CXL 解决方案： 将 KV 缓存存储在池化的 CXL 内存中，同时在 GPU VRAM 中保留热层。XConn 和 MemVerge 在 SC25 和 OCP 2025 上演示了这一点：[^14]

两个 H100 GPU（每个 80GB）运行 OPT-6.7B
KV 缓存卸载到共享 CXL 内存池
比 200G RDMA 快 3.8 倍
比 100G RDMA 快 6.5 倍
比基于 SSD 的 KV 缓存提高 >5 倍

来自学术界的研究证实了这一机会。PNM-KV（用于 KV 缓存的近内存处理）通过将令牌页选择卸载到 CXL 内存内的加速器，实现了高达 21.9 倍的吞吐量改进。[^15]

训练的内存扩展

训练工作负载受益于扩展的内存容量，用于：

更大的批次大小：每次迭代更多样本，无需梯度累积
减少激活检查点：在内存中存储更多激活，而非重新计算
优化器状态：Adam 优化器需要动量/方差参数的 2 倍

CXL 内存扩展使以前需要多节点分布的训练配置能够在单节点上运行，减少通信开销。

科学和 HPC 工作负载

PNNL 的 Crete 项目在科学模拟中使用 CXL 池进行跨计算节点的高吞吐量内存共享。[^16] 用例包括：

具有大邻居列表的分子动力学
万亿边数据集上的图分析
超出单服务器容量的内存数据库

互连格局

CXL vs NVLink vs UALink

了解 CXL 的适用场景需要认识到这些技术服务于不同目的：

标准	主要用途	最适合
CXL	内存一致性 + 池化	CPU-内存扩展，共享内存池
NVLink	GPU 到 GPU 扩展	节点内 GPU 通信
UALink	加速器互连	NVLink 的开放标准替代
Ultra Ethernet	横向扩展网络	多机架，10,000+ 端点

CXL 运行在 PCIe SerDes 上：较低错误率、较低延迟，但带宽低于 NVLink/UALink 的 Ethernet 风格 SerDes。[^17] NVLink 5 每 GPU 提供 1.8 TB/s——远超 CXL 4.0 每 x16 端口的 512 GB/s。[^18]

这些技术相互补充而非竞争：

在 GPU 节点内：NVLink 连接 GPU
节点间：UALink 或 InfiniBand/Ethernet
内存扩展：CXL 为 CPU 和加速器添加容量
结构范围内存池：CXL 交换机实现跨主机共享

Panmnesia 提出了集成所有三者的"CXL-over-XLink"架构，报告与 PCIe/RDMA 基线相比，AI 训练速度提高 5.3 倍，推理延迟减少 6 倍。[^19]

决策框架：何时使用什么

场景	推荐互连	理由
服务器内多 GPU 训练	NVLink	最高带宽，最低延迟
多 GPU 推理集群（非 NVIDIA）	UALink	开放标准，高带宽
扩展超出 VRAM 的内存	CXL	缓存一致性，DRAM 类似延迟
多机架 GPU 集群	InfiniBand 或 Ultra Ethernet	专为横向扩展设计
跨服务器共享内存池	CXL 交换机	具有一致性的内存池
中国/受限市场	考虑 UB-Mesh	避免西方 IP 依赖

CXL 生态系统：供应商和产品

内存扩展器

三大主要 DRAM 制造商都发货 CXL 内存扩展器：

供应商	产品	容量	接口	状态
Samsung	CMM-D	256 GB	CXL 2.0	2025年批量生产[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	2024年末批量生产[^21]
Micron	CZ120	256 GB	CXL 2.0	样品[^22]
SK Hynix	CMS	512 GB	CXL（计算能力）	已宣布[^23]

SK Hynix 的 CMS（计算内存解决方案）直接在内存模块中添加计算功能——CXL 近内存处理的早期实现。

交换机供应商

CXL 交换机实现跨多个主机的内存池：

供应商	产品	代数	状态	关键功能
XConn	XC50256	CXL 2.0	发货中	256 通道交换机，市场首发[^24]
XConn	Apollo	CXL 2.0	发货中	SC25 内存池演示[^25]
Panmnesia	Fabric Switch	CXL 3.2	2025年11月样品	首个 PBR 实现[^26]
Astera Labs	Leo	CXL 2.0	发货中	智能内存控制器[^27]
Microchip	SMC 2000	CXL 2.0	发货中	内存扩展控制器[^28]

Panmnesia 的 CXL 3.2 Fabric Switch 代表了一代跃进：首个实现基于端口路由的真正结构架构的硅，支持多达 4,096 个节点。[^29]

控制器供应商

CXL 内存控制器在 CXL 协议和 DRAM 之间转换：

供应商	角色	关键产品
Marvell	控制器	Structera CXL 控制器[^30]
Montage	控制器	CXL 内存缓冲芯片
Astera Labs	控制器	Leo 智能内存控制器
Microchip	控制器	SMC 2000 系列

Marvell 的 Structera 完成了与所有三大主要内存供应商（Samsung、Micron、SK Hynix）在 Intel 和 AMD 平台上的互操作性测试。[^31]

部署规划指南

时间表

期间	CXL 代数	预期功能	建议
现在-2026年Q2	CXL 2.0	内存扩展，基本池化	生产评估
2026年Q3-2026年Q4	CXL 3.0/3.1	结构，点对点，4K 节点	AI 的早期采用
2027+	CXL 4.0	多机架池化，1.5 TB/s	现在开始规划

ABI Research 预计 CXL 3.0/3.1 解决方案将在 2027 年具有足够的软件支持进行商业采用。[^32]

现在评估什么

即时（2025年）： 1. 在现有 Intel Sapphire Rapids 或 AMD EPYC Genoa 服务器上测试 CXL 2.0 内存扩展器 2. 评估 XConn 或 Astera Labs 交换机用于内存池化

CXL 4.0 基础设施规划指南：AI 规模化内存池

要点总结

内存墙问题

CXL 4.0 技术深度剖析

从 CXL 1.0 到 4.0 的演进

捆绑端口架构

PCIe 7.0 基础

多机架结构功能

AI 基础设施的 CXL 用例

LLM 推理的 KV 缓存卸载

训练的内存扩展

科学和 HPC 工作负载

互连格局

CXL vs NVLink vs UALink

决策框架：何时使用什么

CXL 生态系统：供应商和产品

内存扩展器

交换机供应商

控制器供应商

部署规划指南

时间表

现在评估什么

You Might Also Like

AI工作负载调度：跨时区优化GPU利用率

AI基础设施安全运营：GPU集群的SOC要求

6000亿美元AI基础设施建设：超大规模云服务商资本支出、债务和供应链现实

申请报价_

请求已收到_