CXL 4.0与互连战争:AI内存如何重塑数据中心架构
2025年12月12日
2025年12月更新: CXL联盟于11月18日发布了CXL 4.0,通过PCIe 7.0将带宽翻倍至128 GT/s,并引入捆绑端口以实现1.5 TB/s连接。Panmnesia开始提供业界首款具有基于端口路由的CXL 3.2交换矩阵样品。与此同时,UALink计划于2026年底部署,华为将UB-Mesh作为替代方案开源。
摘要
CXL 4.0代表了下一代内存互连技术,可在AI基础设施中实现超过100TB的池化内存并保持缓存一致性。该规范的捆绑端口功能允许将多个物理端口聚合为单个逻辑连接,总带宽可达1.5 TB/s。Panmnesia的CXL 3.2交换矩阵标志着首款实现多机架AI集群基于端口路由的硬件。更广泛的互连格局进一步分化,UALink、Ultra Ethernet和华为的UB-Mesh在不同细分市场展开竞争。
发生了什么
CXL联盟于2025年11月18日在SC25上发布了Compute Express Link 4.0规范。1 该规范从PCIe 6.x(64 GT/s)升级到PCIe 7.0(128 GT/s),在保持CXL 3.x引入的256字节FLIT格式的同时,将可用带宽翻倍。2
"CXL 4.0规范的发布为推进一致性内存连接树立了新的里程碑,通过强大的新功能将带宽比上一代翻倍,"CXL联盟主席、NVIDIA首席工程师Derek Rohde表示。3
四天前的11月12日,韩国初创公司Panmnesia宣布其PCIe 6.0/CXL 3.2交换矩阵样品上市:这是首款实现CXL交换矩阵基于端口路由(PBR)的芯片。4
互连格局持续分化。UALink计划于2026年底进行数据中心部署。华为宣布将开源其UB-Mesh协议,旨在用统一标准取代PCIe、CXL、NVLink和TCP/IP。5
对基础设施的重要性
内存变得可组合:CXL 4.0实现了规模化内存池化。需要数百TB的AI推理工作负载现在可以通过缓存一致性跨机架访问共享内存池,而不仅仅局限于单台服务器内部。
带宽匹配AI需求:采用x16链路、128 GT/s的CXL 4.0捆绑端口可在每个方向提供768 GB/s(设备与CPU之间的总带宽为1.536 TB/s)。6 LLM推理服务直接受益于此容量。
多机架AI集群:CXL 3.2/4.0中的基于端口路由允许交换矩阵在不产生长网络延迟的情况下,跨多个机架互连数千台设备。Panmnesia声称内存访问的"两位数纳秒级延迟"。7
标准碎片化风险:四个竞争的互连生态系统(CXL/PCIe、UALink、Ultra Ethernet、NVLink)迫使基础设施规划者押注赢家。今天购买的设备可能在2027年面临互操作性挑战。
技术细节
CXL 4.0规范
| 特性 | CXL 3.x | CXL 4.0 |
|---|---|---|
| 基础协议 | PCIe 6.x | PCIe 7.0 |
| 传输速度 | 64 GT/s | 128 GT/s |
| FLIT大小 | 256B | 256B |
| 支持的重定时器 | 2 | 4 |
| 链路宽度选项 | 标准 | 新增原生x2 |
| 捆绑端口 | 否 | 是 |
捆绑端口架构
CXL 4.0的捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体:8
- 主机和Type 1/2设备可以组合多个物理端口
- 系统软件看到的是单个设备,尽管有多个物理连接
- 针对256B FLIT模式优化,消除了传统68B FLIT开销
- 每个逻辑连接可实现1.5+ TB/s的总带宽
Panmnesia CXL 3.2交换矩阵
首款CXL 3.2交换芯片包括:9
| 规格 | 详情 |
|---|---|
| 协议支持 | PCIe Gen 6.0 + CXL 3.2混合 |
| 数据速率 | 64 GT/s |
| 路由模式 | PBR(基于端口)和HBR(基于层次) |
| CXL子协议 | CXL.cache、CXL.mem、CXL.io |
| 通道数 | 256通道高扇出 |
| 延迟 | 两位数纳秒 |
| 向后兼容 | 所有先前PCIe/CXL代 |
目标应用包括DLRM(深度学习推荐模型)、LLM推理、RAG工作负载和基于MPI的HPC模拟。
竞争互连标准
| 标准 | 所有者 | 用途 | 带宽 | 规模 | 时间表 |
|---|---|---|---|---|---|
| CXL 4.0 | 联盟 | 内存一致性 | 128 GT/s | 多机架 | 2026年底-2027年 |
| NVLink 5 | NVIDIA | GPU-GPU | 1.8 TB/s | 576 GPU | 已发布 |
| UALink 1.0 | AMD主导联盟 | 加速器-加速器 | 200 Gb/s/通道 | 1,024设备 | 2026年底 |
| Ultra Ethernet | UEC | 横向扩展网络 | 基于以太网 | 10,000+端点 | 2026+ |
| UB-Mesh | 华为 | 统一互连 | 1+ TB/s/设备 | 1M处理器 | 已开源 |
互连决策框架
何时使用哪种标准:
| 使用场景 | 最佳选择 | 原因 |
|---|---|---|
| 节点内GPU-GPU | NVLink | 最高带宽(1.8 TB/s),最低延迟 |
| 跨节点GPU-GPU | UALink | NVLink的开放标准替代方案 |
| 内存扩展 | CXL | 与CPU的缓存一致性,内存池化 |
| 横向扩展网络 | Ultra Ethernet / InfiniBand | 专为10,000+端点集群设计 |
| 中国统一生态系统 | UB-Mesh | 避免西方知识产权限制 |
UALink与CXL定位
UALink并不直接与CXL竞争。它们服务于不同的目的:10
- UALink:加速器集群的GPU-GPU扩展(纵向扩展)
- CXL:CPU-内存一致性和内存池化(内存扩展)
- Ultra Ethernet:跨数据中心的横向扩展网络
"UALink与PCIe和CXL并行工作,但只有UALink具有统一分配资源的效果。UALink旨在连接您的主要GPU单元以实现GPU-GPU扩展,"Synopsys产品管理副总裁Michael Posner解释道。11
华为UB-Mesh
华为的替代方案旨在取代所有现有互连:12
- 目标每设备1 TB/s+带宽
- ~150 ns跳跃延迟(从微秒改进到纳秒)
- 同步加载/存储语义vs基于数据包
- 2025年9月宣布开源许可
- 在"SuperNode"架构中扩展到100万处理器
鉴于地缘政治担忧和现有标准的发展势头,行业采用仍不确定。
下一步
2026年底:UALink交换机进入数据中心;CXL 4.0产品开始采样。
2026年底-2027年:CXL 4.0多机架系统达到生产部署。13
2026年第四季度:Upscale AI计划交付UALink交换机。14
持续进行:标准机构协调CXL、UALink和Ultra Ethernet的共存。华为的UB-Mesh在西方市场以外寻求采用。
互连格局至少到2027年仍将保持碎片化。没有单一标准能解决所有使用场景:内存池化(CXL)、加速器扩展(UALink/NVLink)和网络结构(Ultra Ethernet/InfiniBand)。
关键要点
对于基础设施规划者: - CXL 4.0实现跨机架100+ TB内存池和缓存一致性 - Panmnesia采样首款具有基于端口路由的CXL 3.2交换矩阵 - 规划标准共存:CXL + UALink + Ultra Ethernet/InfiniBand - CXL 4.0生产系统部署时间表为2026年底-2027年
对于运维团队: - CXL保持与先前代的向后兼容性 - 基于端口的路由简化多机架交换矩阵管理 - 跨交换机内存访问的两位数纳秒延迟 - 关注Panmnesia、XConn和其他CXL交换机供应商的可用性
对于战略规划: - 没有单一互连标准会"获胜",因为不同层服务于不同目的 - 内存池化对于规模化AI推理变得可行 - 华为的UB-Mesh主要为中国市场创建平行生态系统 - 2025-2026年的设备决策将影响到2030年的互操作性
参考文献
如需采用先进互连架构进行AI基础设施部署,请联系Introl。
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." 2025年11月18日。 ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." 2025年11月。 ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." 2025年11月18日。 ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月12日。 ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." 2025年8月。 ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." 2025年11月。 ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月。 ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." 2025年11月24日。 ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月。 ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025年。 ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025年。 ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." 2025年8月。 ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." 2025年11月。 ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." 2025年12月2日。 ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." 2025年11月。 ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." 2025年11月。 ↩
-
CXL Consortium. "CXL 4.0 White Paper." 2025年11月。 ↩