CXL 4.0 基础设施规划指南:AI 规模化内存池

完整的 CXL 4.0 部署指南,涵盖捆绑端口、多机架内存池、KV 缓存卸载、供应商生态系统以及 2026-2027 规划时间表。

CXL 4.0 基础设施规划指南:AI 规模化内存池

CXL 4.0 基础设施规划指南:AI 规模化内存池

2025年12月13日

2025年12月更新: CXL 联盟于2025年11月18日发布了 CXL 4.0,通过 PCIe 7.0 将带宽提高一倍至 128 GT/s,并引入捆绑端口以实现 1.5 TB/s 连接。本指南涵盖了准备在其 AI 基础设施中实施基于 CXL 的内存池的组织的部署规划。


要点总结

CXL 4.0 可实现前所未有规模的内存池,允许 AI 推理工作负载在多个机架之间以缓存一致性访问 100+ TB 的共享内存。该规范的捆绑端口将多个物理连接聚合为单个逻辑连接,提供 1.5 TB/s 带宽。对于基础设施规划者而言,关键决策涉及了解何时采用 CXL(2026-2027 年投入生产)、现在评估哪些产品(CXL 2.0/3.0 交换机正在发货)以及 CXL 如何补充而非替代 NVLink 和 UALink。本指南提供了规划 CXL 部署所需的技术深度和决策框架。


内存墙问题

大型语言模型遇到了一个根本性约束:GPU 内存容量。现代 AI 推理工作负载经常超过每个 GPU 80-120 GB,而键值(KV)缓存随着上下文长度的增长而增长。[^1] 具有 128K 上下文窗口的单个推理请求仅 KV 缓存存储就可能消耗数十 GB。

问题在规模化时加剧。前沿 LLM 的模型权重消耗数百 GB。KV 缓存需求随批次大小和序列长度线性增长。GPU VRAM 仍固定在 80GB(H100)或 192GB(B200)。[^2]

传统解决方案存在不足:

方法 限制
添加更多 GPU 成本线性增加,内存仍按 GPU 隔离
NVMe 卸载 ~100 μs 延迟,比 DRAM 慢 100 倍
基于 RDMA 的共享 仍有 10-20 μs 延迟,网络复杂
更大的 GPU 内存 供应受限,昂贵

CXL 通过在数据中心内实现具有 DRAM 类似延迟(200-500 ns)的内存池来改变这一等式。[^3]


CXL 4.0 技术深度剖析

从 CXL 1.0 到 4.0 的演进

自 2019 年推出以来,CXL 已快速成熟。每一代都扩展了功能:

代数 发布时间 PCIe 基础 速度 关键进步
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s 基本一致性内存连接
CXL 2.0 2022 PCIe 5.0 32 GT/s 交换、内存池、多设备
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s 结构支持、点对点、4,096 节点
CXL 4.0 2025年11月 PCIe 7.0 128 GT/s 捆绑端口、多机架、增强 RAS

CXL 2.0 引入了内存池的基础概念。多个 Type 3 内存设备连接到交换机,形成共享池,交换机从中动态分配资源给不同主机。[^4] 这使内存利用率从典型的 50-60% 提高到整个集群的 85%+。

CXL 3.0 添加了支持多级交换和多达 4,096 个节点的结构功能,采用基于端口的路由(PBR)。[^5] 转向 256 字节 FLIT 和 PCIe 6.0 的 64 GT/s 使可用带宽翻倍。

CXL 4.0 再次将带宽翻倍,同时引入对多机架 AI 部署至关重要的功能。

捆绑端口架构

CXL 4.0 对高性能计算最重要的功能:捆绑端口将多个物理 CXL 设备端口聚合为单个逻辑实体。[^6]

捆绑端口的工作原理:

  1. 主机和 Type 1/2 设备组合多个物理端口
  2. 系统软件看到单个设备,尽管有多个物理连接
  3. 带宽在所有捆绑端口之间聚合
  4. 针对 256 字节 FLIT 模式进行优化,消除传统开销

带宽计算:

配置 方向 带宽
单 x16 端口 @ 128 GT/s 单向 256 GB/s
单 x16 端口 @ 128 GT/s 双向 512 GB/s
3 个捆绑 x16 端口 @ 128 GT/s 单向 768 GB/s
3 个捆绑 x16 端口 @ 128 GT/s 双向 1,536 GB/s

作为对比,H200 上的 HBM3e 内存提供 4.8 TB/s 带宽。[^7] 1.5 TB/s 的捆绑 CXL 4.0 连接约占该带宽的 30%——对于容量比峰值带宽更重要的许多内存扩展用例来说已足够。

PCIe 7.0 基础

CXL 4.0 建立在 PCIe 7.0 的物理层改进之上:[^8]

  • 128 GT/s 传输速率:是 PCIe 6.0 的 64 GT/s 的两倍
  • PAM4 信号传输:与 PCIe 6.0 相同的编码方案
  • 改进的 FEC:用于信号完整性的前向纠错
  • 光学支持:实现更长距离连接

该规范保留了 CXL 3.x 的 256 字节 FLIT 格式,同时为时间敏感操作添加了延迟优化变体。[^9]

多机架结构功能

CXL 4.0 通过两种机制扩展覆盖范围:

支持四个重定时器:以前的代次允许两个重定时器。四个重定时器可实现跨多个机架的更长物理连接,而无信号衰减。[^10]

原生 x2 宽度:以前是降级的后备模式,x2 链路现在以全性能运行。这实现了更高扇出配置,其中许多较低带宽连接服务更多端点。[^11]

这些功能结合起来实现了"多机架内存池"——CXL 联盟明确针对 2026-2027 年末生产部署的功能。[^12]


AI 基础设施的 CXL 用例

LLM 推理的 KV 缓存卸载

最高影响的近期用例:将 KV 缓存从 GPU VRAM 卸载到 CXL 连接的内存。

问题: 具有长上下文的 LLM 推理生成大量 KV 缓存。具有 128K 上下文和批次大小 32 的 70B 参数模型仅 KV 缓存就可能需要 150+ GB。[^13] 这超过了 H100 VRAM,迫使昂贵的批次大小减少或多个 GPU。

CXL 解决方案: 将 KV 缓存存储在池化的 CXL 内存中,同时在 GPU VRAM 中保留热层。XConn 和 MemVerge 在 SC25 和 OCP 2025 上演示了这一点:[^14]

  • 两个 H100 GPU(每个 80GB)运行 OPT-6.7B
  • KV 缓存卸载到共享 CXL 内存池
  • 比 200G RDMA 快 3.8 倍
  • 比 100G RDMA 快 6.5 倍
  • 比基于 SSD 的 KV 缓存提高 >5 倍

来自学术界的研究证实了这一机会。PNM-KV(用于 KV 缓存的近内存处理)通过将令牌页选择卸载到 CXL 内存内的加速器,实现了高达 21.9 倍的吞吐量改进。[^15]

训练的内存扩展

训练工作负载受益于扩展的内存容量,用于:

  • 更大的批次大小:每次迭代更多样本,无需梯度累积
  • 减少激活检查点:在内存中存储更多激活,而非重新计算
  • 优化器状态:Adam 优化器需要动量/方差参数的 2 倍

CXL 内存扩展使以前需要多节点分布的训练配置能够在单节点上运行,减少通信开销。

科学和 HPC 工作负载

PNNL 的 Crete 项目在科学模拟中使用 CXL 池进行跨计算节点的高吞吐量内存共享。[^16] 用例包括:

  • 具有大邻居列表的分子动力学
  • 万亿边数据集上的图分析
  • 超出单服务器容量的内存数据库

互连格局

了解 CXL 的适用场景需要认识到这些技术服务于不同目的:

标准 主要用途 最适合
CXL 内存一致性 + 池化 CPU-内存扩展,共享内存池
NVLink GPU 到 GPU 扩展 节点内 GPU 通信
UALink 加速器互连 NVLink 的开放标准替代
Ultra Ethernet 横向扩展网络 多机架,10,000+ 端点

CXL 运行在 PCIe SerDes 上:较低错误率、较低延迟,但带宽低于 NVLink/UALink 的 Ethernet 风格 SerDes。[^17] NVLink 5 每 GPU 提供 1.8 TB/s——远超 CXL 4.0 每 x16 端口的 512 GB/s。[^18]

这些技术相互补充而非竞争:

  • 在 GPU 节点内:NVLink 连接 GPU
  • 节点间:UALink 或 InfiniBand/Ethernet
  • 内存扩展:CXL 为 CPU 和加速器添加容量
  • 结构范围内存池:CXL 交换机实现跨主机共享

Panmnesia 提出了集成所有三者的"CXL-over-XLink"架构,报告与 PCIe/RDMA 基线相比,AI 训练速度提高 5.3 倍,推理延迟减少 6 倍。[^19]

决策框架:何时使用什么

场景 推荐互连 理由
服务器内多 GPU 训练 NVLink 最高带宽,最低延迟
多 GPU 推理集群(非 NVIDIA) UALink 开放标准,高带宽
扩展超出 VRAM 的内存 CXL 缓存一致性,DRAM 类似延迟
多机架 GPU 集群 InfiniBand 或 Ultra Ethernet 专为横向扩展设计
跨服务器共享内存池 CXL 交换机 具有一致性的内存池
中国/受限市场 考虑 UB-Mesh 避免西方 IP 依赖

CXL 生态系统:供应商和产品

内存扩展器

三大主要 DRAM 制造商都发货 CXL 内存扩展器:

供应商 产品 容量 接口 状态
Samsung CMM-D 256 GB CXL 2.0 2025年批量生产[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 2024年末批量生产[^21]
Micron CZ120 256 GB CXL 2.0 样品[^22]
SK Hynix CMS 512 GB CXL(计算能力) 已宣布[^23]

SK Hynix 的 CMS(计算内存解决方案)直接在内存模块中添加计算功能——CXL 近内存处理的早期实现。

交换机供应商

CXL 交换机实现跨多个主机的内存池:

供应商 产品 代数 状态 关键功能
XConn XC50256 CXL 2.0 发货中 256 通道交换机,市场首发[^24]
XConn Apollo CXL 2.0 发货中 SC25 内存池演示[^25]
Panmnesia Fabric Switch CXL 3.2 2025年11月样品 首个 PBR 实现[^26]
Astera Labs Leo CXL 2.0 发货中 智能内存控制器[^27]
Microchip SMC 2000 CXL 2.0 发货中 内存扩展控制器[^28]

Panmnesia 的 CXL 3.2 Fabric Switch 代表了一代跃进:首个实现基于端口路由的真正结构架构的硅,支持多达 4,096 个节点。[^29]

控制器供应商

CXL 内存控制器在 CXL 协议和 DRAM 之间转换:

供应商 角色 关键产品
Marvell 控制器 Structera CXL 控制器[^30]
Montage 控制器 CXL 内存缓冲芯片
Astera Labs 控制器 Leo 智能内存控制器
Microchip 控制器 SMC 2000 系列

Marvell 的 Structera 完成了与所有三大主要内存供应商(Samsung、Micron、SK Hynix)在 Intel 和 AMD 平台上的互操作性测试。[^31]


部署规划指南

时间表

期间 CXL 代数 预期功能 建议
现在-2026年Q2 CXL 2.0 内存扩展,基本池化 生产评估
2026年Q3-2026年Q4 CXL 3.0/3.1 结构,点对点,4K 节点 AI 的早期采用
2027+ CXL 4.0 多机架池化,1.5 TB/s 现在开始规划

ABI Research 预计 CXL 3.0/3.1 解决方案将在 2027 年具有足够的软件支持进行商业采用。[^32]

现在评估什么

即时(2025年): 1. 在现有 Intel Sapphire Rapids 或 AMD EPYC Genoa 服务器上测试 CXL 2.0 内存扩展器 2. 评估 XConn 或 Astera Labs 交换机用于内存池化

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中