CXL 4.0 基础设施规划指南:面向大规模 AI 的内存池化
2025年12月13日
2025年12月更新: CXL 联盟于2025年11月18日发布了 CXL 4.0,通过 PCIe 7.0 将带宽翻倍至 128 GT/s,并引入捆绑端口以实现 1.5 TB/s 连接。本指南涵盖了准备在 AI 基础设施中实施基于 CXL 的内存池化的组织的部署规划。
摘要
CXL 4.0 实现了前所未有规模的内存池化,使 AI 推理工作负载能够跨多个机架访问超过 100 TB 的共享内存,同时保持缓存一致性。该规范的捆绑端口将多个物理连接聚合为单个逻辑连接,可提供 1.5 TB/s 的带宽。对于基础设施规划者而言,关键决策包括:了解何时采用 CXL(2026-2027年进入生产环境)、现在应评估哪些产品(CXL 2.0/3.0 交换机已开始出货),以及 CXL 如何补充而非取代 NVLink 和 UALink。本指南提供了规划 CXL 部署所需的技术深度和决策框架。
内存墙问题
大语言模型遇到了一个根本性的限制:GPU 内存容量。现代 AI 推理工作负载通常超过每 GPU 80-120 GB,而键值(KV)缓存会随着上下文长度增长。[^1] 单个具有 128K 上下文窗口的推理请求仅 KV 缓存存储就可能消耗数十 GB。
问题在规模化时更加严重。前沿大语言模型的模型权重消耗数百 GB。KV 缓存需求随批量大小和序列长度线性增长。GPU 显存仍然固定在 80GB(H100)或 192GB(B200)。[^2]
传统解决方案存在不足:
| 方法 | 局限性 |
|---|---|
| 增加更多 GPU | 成本线性增加,内存仍然按 GPU 隔离 |
| NVMe 卸载 | 约 100 μs 延迟,比 DRAM 慢 100 倍 |
| 基于 RDMA 的共享 | 仍有 10-20 μs 延迟,网络复杂 |
| 更大的 GPU 内存 | 供应受限,价格昂贵 |
CXL 通过在数据中心内实现具有类似 DRAM 延迟(200-500 ns)的内存池化来改变这一局面。[^3]
CXL 4.0 技术深度解析
从 CXL 1.0 到 4.0 的演进
自2019年推出以来,CXL 已快速成熟。每一代都扩展了功能:
| 版本 | 发布时间 | PCIe 基础 | 速度 | 关键进步 |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | 基本的一致性内存连接 |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | 交换、内存池化、多设备 |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric 支持、点对点、4,096 节点 |
| CXL 4.0 | 2025年11月 | PCIe 7.0 | 128 GT/s | 捆绑端口、多机架、增强的 RAS |
CXL 2.0 引入了内存池化的基础概念。多个 Type 3 内存设备连接到交换机,形成共享池,交换机从中动态地将资源分配给不同的主机。[^4] 这使得集群的内存利用率从典型的 50-60% 提升到 85% 以上。
CXL 3.0 增加了 Fabric 功能,通过基于端口的路由(PBR)支持多级交换和多达 4,096 个节点。[^5] 转向 256 字节 FLIT 和 PCIe 6.0 的 64 GT/s 使可用带宽翻倍。
CXL 4.0 再次将带宽翻倍,同时引入了对多机架 AI 部署至关重要的功能。
捆绑端口架构
CXL 4.0 对高性能计算最重要的功能:捆绑端口将多个物理 CXL 设备端口聚合为单个逻辑实体。[^6]
捆绑端口的工作原理:
- 主机和 Type 1/2 设备组合多个物理端口
- 系统软件看到单个设备,尽管有多个物理连接
- 带宽在所有捆绑端口之间聚合
- 针对 256 字节 FLIT 模式优化,消除传统开销
带宽计算:
| 配置 | 方向 | 带宽 |
|---|---|---|
| 单个 x16 端口 @ 128 GT/s | 单向 | 256 GB/s |
| 单个 x16 端口 @ 128 GT/s | 双向 | 512 GB/s |
| 3 个捆绑 x16 端口 @ 128 GT/s | 单向 | 768 GB/s |
| 3 个捆绑 x16 端口 @ 128 GT/s | 双向 | 1,536 GB/s |
作为参考,H200 上的 HBM3e 内存提供 4.8 TB/s 带宽。[^7] 1.5 TB/s 的捆绑 CXL 4.0 连接约为该带宽的 30%——对于容量比峰值带宽更重要的许多内存扩展用例来说已经足够。
PCIe 7.0 基础
CXL 4.0 建立在 PCIe 7.0 的物理层改进之上:[^8]
- 128 GT/s 传输速率:是 PCIe 6.0 的 64 GT/s 的两倍
- PAM4 信号:与 PCIe 6.0 相同的编码方案
- 改进的 FEC:用于信号完整性的前向纠错
- 光学支持:实现更长距离的连接
该规范保留了 CXL 3.x 的 256 字节 FLIT 格式,同时为时间敏感操作添加了延迟优化变体。[^9]
多机架 Fabric 功能
CXL 4.0 通过两种机制扩展覆盖范围:
支持四个中继器:之前的版本允许两个中继器。四个中继器使更长的物理连接能够跨越多个机架而不会出现信号衰减。[^10]
原生 x2 宽度:以前是降级的后备模式,x2 链路现在以全性能运行。这使得更高扇出配置成为可能,其中许多较低带宽的连接服务于更多端点。[^11]
这些功能结合起来实现了"多机架内存池化"——CXL 联盟明确针对 2026 年末至 2027 年生产部署的功能。[^12]
AI 基础设施的 CXL 用例
大语言模型推理的 KV 缓存卸载
影响最大的近期用例:将 KV 缓存从 GPU 显存卸载到 CXL 连接的内存。
问题: 长上下文的大语言模型推理会产生巨大的 KV 缓存。一个 700 亿参数模型,128K 上下文和批量大小 32,仅 KV 缓存就可能需要 150+ GB。[^13] 这超过了 H100 显存,迫使进行昂贵的批量大小缩减或使用多个 GPU。
CXL 解决方案: 将 KV 缓存存储在池化的 CXL 内存中,同时将热层保留在 GPU 显存中。XConn 和 MemVerge 在 SC25 和 OCP 2025 上展示了这一点:[^14]
- 两个 H100 GPU(各 80GB)运行 OPT-6.7B
- KV 缓存卸载到共享 CXL 内存池
- 相比 200G RDMA 提速 3.8 倍
- 相比 100G RDMA 提速 6.5 倍
- 相比基于 SSD 的 KV 缓存 提升超过 5 倍
学术界的研究证实了这一机会。PNM-KV(用于 KV 缓存的近内存处理)通过将 token 页面选择卸载到 CXL 内存内的加速器,实现了高达 21.9 倍的吞吐量提升。[^15]
训练的内存扩展
训练工作负载受益于扩展的内存容量,用于:
- 更大的批量大小:每次迭代更多样本,无需梯度累积
- 减少激活检查点:在内存中存储更多激活值,而非重新计算
- 优化器状态:Adam 优化器需要 2 倍参数量用于动量/方差
CXL 内存扩展使以前需要多节点分布式的训练配置能够在单节点上运行,减少通信开销。
科学和高性能计算工作负载
PNNL 的 Crete 项目使用 CXL 池在科学模拟中跨计算节点进行高吞吐量内存共享。[^16] 用例包括:
- 具有大型邻居列表的分子动力学
- 万亿边数据集上的图分析
- 超过单服务器容量的内存数据库
互连技术格局
CXL vs NVLink vs UALink
理解 CXL 的定位需要认识到这些技术服务于不同的目的:
| 标准 | 主要目的 | 最适合 |
|---|---|---|
| CXL | 内存一致性 + 池化 | CPU 内存扩展、共享内存池 |
| NVLink | GPU 到 GPU 扩展 | 节点内 GPU 通信 |
| UALink | 加速器互连 | NVLink 的开放标准替代方案 |
| Ultra Ethernet | 横向扩展网络 | 多机架、10,000+ 端点 |
CXL 运行在 PCIe SerDes 上:比 NVLink/UALink 的以太网风格 SerDes 错误率更低、延迟更低,但带宽也更低。[^17] NVLink 5 每 GPU 提供 1.8 TB/s——远超 CXL 4.0 每 x16 端口的 512 GB/s。[^18]
这些技术是互补而非竞争关系:
- 在 GPU 节点内:NVLink 连接 GPU
- 节点之间:UALink 或 InfiniBand/以太网
- 内存扩展:CXL 为 CPU 和加速器增加容量
- Fabric 范围的内存池:CXL 交换机实现跨主机共享
Panmnesia 提出了集成所有三者的"CXL-over-XLink"架构,报告相比 PCIe/RDMA 基准,AI 训练速度提升 5.3 倍,推理延迟降低 6 倍。[^19]
决策框架:何时使用什么
| 场景 | 推荐互连 | 理由 |
|---|---|---|
| 服务器内多 GPU 训练 | NVLink | 最高带宽、最低延迟 |
| 多 GPU 推理 Pod(非 NVIDIA) | UALink | 开放标准、高带宽 |
| 扩展显存以外的内存 | CXL | 缓存一致性、类似 DRAM 的延迟 |
| 多机架 GPU 集群 | InfiniBand 或 Ultra Ethernet | 专为横向扩展设计 |
| 跨服务器的共享内存池 | CXL 交换机 | 具有一致性的内存池化 |
| 中国/受限市场 | 考虑 UB-Mesh | 避免西方知识产权依赖 |
CXL 生态系统:供应商和产品
内存扩展器
三大 DRAM 制造商都出货 CXL 内存扩展器:
| 供应商 | 产品 | 容量 | 接口 | 状态 |
|---|---|---|---|---|
| 三星 | CMM-D | 256 GB | CXL 2.0 | 2025年量产[^20] |
| SK 海力士 | CMM-DDR5 | 128 GB | CXL 2.0 | 2024年末量产[^21] |
| 美光 | CZ120 | 256 GB | CXL 2.0 | 送样中[^22] |
| SK 海力士 | CMS | 512 GB | CXL(具备计算能力) | 已宣布[^23] |
SK 海力士的 CMS(计算内存解决方案)直接在内存模块中增加了计算能力——这是 CXL 近内存处理的早期实现。
交换机供应商
CXL 交换机实现跨多个主机的内存池化:
| 供应商 | 产品 | 版本 | 状态 | 关键特性 |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | 出货中 | 256 通道交换机,首个上市[^24] |
| XConn | Apollo | CXL 2.0 | 出货中 | SC25 内存池化演示[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | 2025年11月送样 | 首个 PBR 实现[^26] |
| Astera Labs | Leo | CXL 2.0 | 出货中 | 智能内存控制器[^27] |
| Microchip | SMC 2000 | CXL 2.0 | 出货中 | 内存扩展控制器[^28] |
Panmnesia 的 CXL 3.2 Fabric Switch 代表了一代飞跃:首款实现基于端口路由的硅片,支持最多 4,096 节点的真正 Fabric 架构。[^29]
控制器供应商
CXL 内存控制器在 CXL 协议和 DRAM 之间进行转换:
| 供应商 | 角色 | 主要产品 |
|---|---|---|
| Marvell | 控制器 | Structera CXL 控制器[^30] |
| 澜起科技 | 控制器 | CXL 内存缓冲芯片 |
| Astera Labs | 控制器 | Leo 智能内存控制器 |
| Microchip | 控制器 | SMC 2000 系列 |
Marvell 的 Structera 在 Intel 和 AMD 平台上与所有三大内存供应商(三星、美光、SK 海力士)完成了互操作性测试。[^31]
部署规划指南
时间表
| 时期 | CXL 版本 | 预期能力 | 建议 |
|---|---|---|---|
| 现在至2026年第二季度 | CXL 2.0 | 内存扩展、基本池化 | 生产评估 |
| 2026年第三至第四季度 | CXL 3.0/3.1 | Fabric、点对点、4K 节点 | AI 早期采用 |
| 2027年以后 | CXL 4.0 | 多机架池化、1.5 TB/s | 现在开始规划 |
ABI Research 预计到 2027 年,具有足够软件支持的 CXL 3.0/3.1 解决方案将实现商业化采用。[^32]
现在应评估什么
即时(2025年): 1. 在现有 Intel Sapphire Rapids 或 AMD EPYC Genoa 服务器上测试 CXL 2.0 内存扩展器 2. 评估 XConn 或 Astera Labs 交换机用于内存池
[内容截断以供翻译]