CXL 4.0 基础设施规划指南:AI 规模化内存池
2025年12月13日
2025年12月更新: CXL 联盟于2025年11月18日发布了 CXL 4.0,通过 PCIe 7.0 将带宽提高一倍至 128 GT/s,并引入捆绑端口以实现 1.5 TB/s 连接。本指南涵盖了准备在其 AI 基础设施中实施基于 CXL 的内存池的组织的部署规划。
要点总结
CXL 4.0 可实现前所未有规模的内存池,允许 AI 推理工作负载在多个机架之间以缓存一致性访问 100+ TB 的共享内存。该规范的捆绑端口将多个物理连接聚合为单个逻辑连接,提供 1.5 TB/s 带宽。对于基础设施规划者而言,关键决策涉及了解何时采用 CXL(2026-2027 年投入生产)、现在评估哪些产品(CXL 2.0/3.0 交换机正在发货)以及 CXL 如何补充而非替代 NVLink 和 UALink。本指南提供了规划 CXL 部署所需的技术深度和决策框架。
内存墙问题
大型语言模型遇到了一个根本性约束:GPU 内存容量。现代 AI 推理工作负载经常超过每个 GPU 80-120 GB,而键值(KV)缓存随着上下文长度的增长而增长。[^1] 具有 128K 上下文窗口的单个推理请求仅 KV 缓存存储就可能消耗数十 GB。
问题在规模化时加剧。前沿 LLM 的模型权重消耗数百 GB。KV 缓存需求随批次大小和序列长度线性增长。GPU VRAM 仍固定在 80GB(H100)或 192GB(B200)。[^2]
传统解决方案存在不足:
| 方法 | 限制 |
|---|---|
| 添加更多 GPU | 成本线性增加,内存仍按 GPU 隔离 |
| NVMe 卸载 | ~100 μs 延迟,比 DRAM 慢 100 倍 |
| 基于 RDMA 的共享 | 仍有 10-20 μs 延迟,网络复杂 |
| 更大的 GPU 内存 | 供应受限,昂贵 |
CXL 通过在数据中心内实现具有 DRAM 类似延迟(200-500 ns)的内存池来改变这一等式。[^3]
CXL 4.0 技术深度剖析
从 CXL 1.0 到 4.0 的演进
自 2019 年推出以来,CXL 已快速成熟。每一代都扩展了功能:
| 代数 | 发布时间 | PCIe 基础 | 速度 | 关键进步 |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | 基本一致性内存连接 |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | 交换、内存池、多设备 |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | 结构支持、点对点、4,096 节点 |
| CXL 4.0 | 2025年11月 | PCIe 7.0 | 128 GT/s | 捆绑端口、多机架、增强 RAS |
CXL 2.0 引入了内存池的基础概念。多个 Type 3 内存设备连接到交换机,形成共享池,交换机从中动态分配资源给不同主机。[^4] 这使内存利用率从典型的 50-60% 提高到整个集群的 85%+。
CXL 3.0 添加了支持多级交换和多达 4,096 个节点的结构功能,采用基于端口的路由(PBR)。[^5] 转向 256 字节 FLIT 和 PCIe 6.0 的 64 GT/s 使可用带宽翻倍。
CXL 4.0 再次将带宽翻倍,同时引入对多机架 AI 部署至关重要的功能。
捆绑端口架构
CXL 4.0 对高性能计算最重要的功能:捆绑端口将多个物理 CXL 设备端口聚合为单个逻辑实体。[^6]
捆绑端口的工作原理:
- 主机和 Type 1/2 设备组合多个物理端口
- 系统软件看到单个设备,尽管有多个物理连接
- 带宽在所有捆绑端口之间聚合
- 针对 256 字节 FLIT 模式进行优化,消除传统开销
带宽计算:
| 配置 | 方向 | 带宽 |
|---|---|---|
| 单 x16 端口 @ 128 GT/s | 单向 | 256 GB/s |
| 单 x16 端口 @ 128 GT/s | 双向 | 512 GB/s |
| 3 个捆绑 x16 端口 @ 128 GT/s | 单向 | 768 GB/s |
| 3 个捆绑 x16 端口 @ 128 GT/s | 双向 | 1,536 GB/s |
作为对比,H200 上的 HBM3e 内存提供 4.8 TB/s 带宽。[^7] 1.5 TB/s 的捆绑 CXL 4.0 连接约占该带宽的 30%——对于容量比峰值带宽更重要的许多内存扩展用例来说已足够。
PCIe 7.0 基础
CXL 4.0 建立在 PCIe 7.0 的物理层改进之上:[^8]
- 128 GT/s 传输速率:是 PCIe 6.0 的 64 GT/s 的两倍
- PAM4 信号传输:与 PCIe 6.0 相同的编码方案
- 改进的 FEC:用于信号完整性的前向纠错
- 光学支持:实现更长距离连接
该规范保留了 CXL 3.x 的 256 字节 FLIT 格式,同时为时间敏感操作添加了延迟优化变体。[^9]
多机架结构功能
CXL 4.0 通过两种机制扩展覆盖范围:
支持四个重定时器:以前的代次允许两个重定时器。四个重定时器可实现跨多个机架的更长物理连接,而无信号衰减。[^10]
原生 x2 宽度:以前是降级的后备模式,x2 链路现在以全性能运行。这实现了更高扇出配置,其中许多较低带宽连接服务更多端点。[^11]
这些功能结合起来实现了"多机架内存池"——CXL 联盟明确针对 2026-2027 年末生产部署的功能。[^12]
AI 基础设施的 CXL 用例
LLM 推理的 KV 缓存卸载
最高影响的近期用例:将 KV 缓存从 GPU VRAM 卸载到 CXL 连接的内存。
问题: 具有长上下文的 LLM 推理生成大量 KV 缓存。具有 128K 上下文和批次大小 32 的 70B 参数模型仅 KV 缓存就可能需要 150+ GB。[^13] 这超过了 H100 VRAM,迫使昂贵的批次大小减少或多个 GPU。
CXL 解决方案: 将 KV 缓存存储在池化的 CXL 内存中,同时在 GPU VRAM 中保留热层。XConn 和 MemVerge 在 SC25 和 OCP 2025 上演示了这一点:[^14]
- 两个 H100 GPU(每个 80GB)运行 OPT-6.7B
- KV 缓存卸载到共享 CXL 内存池
- 比 200G RDMA 快 3.8 倍
- 比 100G RDMA 快 6.5 倍
- 比基于 SSD 的 KV 缓存提高 >5 倍
来自学术界的研究证实了这一机会。PNM-KV(用于 KV 缓存的近内存处理)通过将令牌页选择卸载到 CXL 内存内的加速器,实现了高达 21.9 倍的吞吐量改进。[^15]
训练的内存扩展
训练工作负载受益于扩展的内存容量,用于:
- 更大的批次大小:每次迭代更多样本,无需梯度累积
- 减少激活检查点:在内存中存储更多激活,而非重新计算
- 优化器状态:Adam 优化器需要动量/方差参数的 2 倍
CXL 内存扩展使以前需要多节点分布的训练配置能够在单节点上运行,减少通信开销。
科学和 HPC 工作负载
PNNL 的 Crete 项目在科学模拟中使用 CXL 池进行跨计算节点的高吞吐量内存共享。[^16] 用例包括:
- 具有大邻居列表的分子动力学
- 万亿边数据集上的图分析
- 超出单服务器容量的内存数据库
互连格局
CXL vs NVLink vs UALink
了解 CXL 的适用场景需要认识到这些技术服务于不同目的:
| 标准 | 主要用途 | 最适合 |
|---|---|---|
| CXL | 内存一致性 + 池化 | CPU-内存扩展,共享内存池 |
| NVLink | GPU 到 GPU 扩展 | 节点内 GPU 通信 |
| UALink | 加速器互连 | NVLink 的开放标准替代 |
| Ultra Ethernet | 横向扩展网络 | 多机架,10,000+ 端点 |
CXL 运行在 PCIe SerDes 上:较低错误率、较低延迟,但带宽低于 NVLink/UALink 的 Ethernet 风格 SerDes。[^17] NVLink 5 每 GPU 提供 1.8 TB/s——远超 CXL 4.0 每 x16 端口的 512 GB/s。[^18]
这些技术相互补充而非竞争:
- 在 GPU 节点内:NVLink 连接 GPU
- 节点间:UALink 或 InfiniBand/Ethernet
- 内存扩展:CXL 为 CPU 和加速器添加容量
- 结构范围内存池:CXL 交换机实现跨主机共享
Panmnesia 提出了集成所有三者的"CXL-over-XLink"架构,报告与 PCIe/RDMA 基线相比,AI 训练速度提高 5.3 倍,推理延迟减少 6 倍。[^19]
决策框架:何时使用什么
| 场景 | 推荐互连 | 理由 |
|---|---|---|
| 服务器内多 GPU 训练 | NVLink | 最高带宽,最低延迟 |
| 多 GPU 推理集群(非 NVIDIA) | UALink | 开放标准,高带宽 |
| 扩展超出 VRAM 的内存 | CXL | 缓存一致性,DRAM 类似延迟 |
| 多机架 GPU 集群 | InfiniBand 或 Ultra Ethernet | 专为横向扩展设计 |
| 跨服务器共享内存池 | CXL 交换机 | 具有一致性的内存池 |
| 中国/受限市场 | 考虑 UB-Mesh | 避免西方 IP 依赖 |
CXL 生态系统:供应商和产品
内存扩展器
三大主要 DRAM 制造商都发货 CXL 内存扩展器:
| 供应商 | 产品 | 容量 | 接口 | 状态 |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | 2025年批量生产[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | 2024年末批量生产[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | 样品[^22] |
| SK Hynix | CMS | 512 GB | CXL(计算能力) | 已宣布[^23] |
SK Hynix 的 CMS(计算内存解决方案)直接在内存模块中添加计算功能——CXL 近内存处理的早期实现。
交换机供应商
CXL 交换机实现跨多个主机的内存池:
| 供应商 | 产品 | 代数 | 状态 | 关键功能 |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | 发货中 | 256 通道交换机,市场首发[^24] |
| XConn | Apollo | CXL 2.0 | 发货中 | SC25 内存池演示[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | 2025年11月样品 | 首个 PBR 实现[^26] |
| Astera Labs | Leo | CXL 2.0 | 发货中 | 智能内存控制器[^27] |
| Microchip | SMC 2000 | CXL 2.0 | 发货中 | 内存扩展控制器[^28] |
Panmnesia 的 CXL 3.2 Fabric Switch 代表了一代跃进:首个实现基于端口路由的真正结构架构的硅,支持多达 4,096 个节点。[^29]
控制器供应商
CXL 内存控制器在 CXL 协议和 DRAM 之间转换:
| 供应商 | 角色 | 关键产品 |
|---|---|---|
| Marvell | 控制器 | Structera CXL 控制器[^30] |
| Montage | 控制器 | CXL 内存缓冲芯片 |
| Astera Labs | 控制器 | Leo 智能内存控制器 |
| Microchip | 控制器 | SMC 2000 系列 |
Marvell 的 Structera 完成了与所有三大主要内存供应商(Samsung、Micron、SK Hynix)在 Intel 和 AMD 平台上的互操作性测试。[^31]
部署规划指南
时间表
| 期间 | CXL 代数 | 预期功能 | 建议 |
|---|---|---|---|
| 现在-2026年Q2 | CXL 2.0 | 内存扩展,基本池化 | 生产评估 |
| 2026年Q3-2026年Q4 | CXL 3.0/3.1 | 结构,点对点,4K 节点 | AI 的早期采用 |
| 2027+ | CXL 4.0 | 多机架池化,1.5 TB/s | 现在开始规划 |
ABI Research 预计 CXL 3.0/3.1 解决方案将在 2027 年具有足够的软件支持进行商业采用。[^32]
现在评估什么
即时(2025年): 1. 在现有 Intel Sapphire Rapids 或 AMD EPYC Genoa 服务器上测试 CXL 2.0 内存扩展器 2. 评估 XConn 或 Astera Labs 交换机用于内存池化