CXL 4.0与互连战争:AI内存如何重塑数据中心架构

CXL 4.0规范于11月18日发布,采用PCIe 7.0、128 GT/s、捆绑端口。Panmnesia推出首款CXL 3.2交换矩阵。UALink、Ultra Ethernet、华为UB-Mesh展开竞争。

CXL 4.0与互连战争:AI内存如何重塑数据中心架构

CXL 4.0与互连战争:AI内存如何重塑数据中心架构

2025年12月12日

2025年12月更新: CXL联盟于11月18日发布了CXL 4.0,通过PCIe 7.0将带宽翻倍至128 GT/s,并引入捆绑端口以实现1.5 TB/s连接。Panmnesia开始提供业界首款具有基于端口路由的CXL 3.2交换矩阵样品。与此同时,UALink计划于2026年底部署,华为将UB-Mesh作为替代方案开源。


摘要

CXL 4.0代表了下一代内存互连技术,可在AI基础设施中实现超过100TB的池化内存并保持缓存一致性。该规范的捆绑端口功能允许将多个物理端口聚合为单个逻辑连接,总带宽可达1.5 TB/s。Panmnesia的CXL 3.2交换矩阵标志着首款实现多机架AI集群基于端口路由的硬件。更广泛的互连格局进一步分化,UALink、Ultra Ethernet和华为的UB-Mesh在不同细分市场展开竞争。


发生了什么

CXL联盟于2025年11月18日在SC25上发布了Compute Express Link 4.0规范。1 该规范从PCIe 6.x(64 GT/s)升级到PCIe 7.0(128 GT/s),在保持CXL 3.x引入的256字节FLIT格式的同时,将可用带宽翻倍。2

"CXL 4.0规范的发布为推进一致性内存连接树立了新的里程碑,通过强大的新功能将带宽比上一代翻倍,"CXL联盟主席、NVIDIA首席工程师Derek Rohde表示。3

四天前的11月12日,韩国初创公司Panmnesia宣布其PCIe 6.0/CXL 3.2交换矩阵样品上市:这是首款实现CXL交换矩阵基于端口路由(PBR)的芯片。4

互连格局持续分化。UALink计划于2026年底进行数据中心部署。华为宣布将开源其UB-Mesh协议,旨在用统一标准取代PCIe、CXL、NVLink和TCP/IP。5


对基础设施的重要性

内存变得可组合:CXL 4.0实现了规模化内存池化。需要数百TB的AI推理工作负载现在可以通过缓存一致性跨机架访问共享内存池,而不仅仅局限于单台服务器内部。

带宽匹配AI需求:采用x16链路、128 GT/s的CXL 4.0捆绑端口可在每个方向提供768 GB/s(设备与CPU之间的总带宽为1.536 TB/s)。6 LLM推理服务直接受益于此容量。

多机架AI集群:CXL 3.2/4.0中的基于端口路由允许交换矩阵在不产生长网络延迟的情况下,跨多个机架互连数千台设备。Panmnesia声称内存访问的"两位数纳秒级延迟"。7

标准碎片化风险:四个竞争的互连生态系统(CXL/PCIe、UALink、Ultra Ethernet、NVLink)迫使基础设施规划者押注赢家。今天购买的设备可能在2027年面临互操作性挑战。


技术细节

CXL 4.0规范

特性 CXL 3.x CXL 4.0
基础协议 PCIe 6.x PCIe 7.0
传输速度 64 GT/s 128 GT/s
FLIT大小 256B 256B
支持的重定时器 2 4
链路宽度选项 标准 新增原生x2
捆绑端口

捆绑端口架构

CXL 4.0的捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体:8

  • 主机和Type 1/2设备可以组合多个物理端口
  • 系统软件看到的是单个设备,尽管有多个物理连接
  • 针对256B FLIT模式优化,消除了传统68B FLIT开销
  • 每个逻辑连接可实现1.5+ TB/s的总带宽

Panmnesia CXL 3.2交换矩阵

首款CXL 3.2交换芯片包括:9

规格 详情
协议支持 PCIe Gen 6.0 + CXL 3.2混合
数据速率 64 GT/s
路由模式 PBR(基于端口)和HBR(基于层次)
CXL子协议 CXL.cache、CXL.mem、CXL.io
通道数 256通道高扇出
延迟 两位数纳秒
向后兼容 所有先前PCIe/CXL代

目标应用包括DLRM(深度学习推荐模型)、LLM推理、RAG工作负载和基于MPI的HPC模拟。

竞争互连标准

标准 所有者 用途 带宽 规模 时间表
CXL 4.0 联盟 内存一致性 128 GT/s 多机架 2026年底-2027年
NVLink 5 NVIDIA GPU-GPU 1.8 TB/s 576 GPU 已发布
UALink 1.0 AMD主导联盟 加速器-加速器 200 Gb/s/通道 1,024设备 2026年底
Ultra Ethernet UEC 横向扩展网络 基于以太网 10,000+端点 2026+
UB-Mesh 华为 统一互连 1+ TB/s/设备 1M处理器 已开源

互连决策框架

何时使用哪种标准:

使用场景 最佳选择 原因
节点内GPU-GPU NVLink 最高带宽(1.8 TB/s),最低延迟
跨节点GPU-GPU UALink NVLink的开放标准替代方案
内存扩展 CXL 与CPU的缓存一致性,内存池化
横向扩展网络 Ultra Ethernet / InfiniBand 专为10,000+端点集群设计
中国统一生态系统 UB-Mesh 避免西方知识产权限制

UALink与CXL定位

UALink并不直接与CXL竞争。它们服务于不同的目的:10

  • UALink:加速器集群的GPU-GPU扩展(纵向扩展)
  • CXL:CPU-内存一致性和内存池化(内存扩展)
  • Ultra Ethernet:跨数据中心的横向扩展网络

"UALink与PCIe和CXL并行工作,但只有UALink具有统一分配资源的效果。UALink旨在连接您的主要GPU单元以实现GPU-GPU扩展,"Synopsys产品管理副总裁Michael Posner解释道。11

华为UB-Mesh

华为的替代方案旨在取代所有现有互连:12

  • 目标每设备1 TB/s+带宽
  • ~150 ns跳跃延迟(从微秒改进到纳秒)
  • 同步加载/存储语义vs基于数据包
  • 2025年9月宣布开源许可
  • 在"SuperNode"架构中扩展到100万处理器

鉴于地缘政治担忧和现有标准的发展势头,行业采用仍不确定。


下一步

2026年底:UALink交换机进入数据中心;CXL 4.0产品开始采样。

2026年底-2027年:CXL 4.0多机架系统达到生产部署。13

2026年第四季度:Upscale AI计划交付UALink交换机。14

持续进行:标准机构协调CXL、UALink和Ultra Ethernet的共存。华为的UB-Mesh在西方市场以外寻求采用。

互连格局至少到2027年仍将保持碎片化。没有单一标准能解决所有使用场景:内存池化(CXL)、加速器扩展(UALink/NVLink)和网络结构(Ultra Ethernet/InfiniBand)。


关键要点

对于基础设施规划者: - CXL 4.0实现跨机架100+ TB内存池和缓存一致性 - Panmnesia采样首款具有基于端口路由的CXL 3.2交换矩阵 - 规划标准共存:CXL + UALink + Ultra Ethernet/InfiniBand - CXL 4.0生产系统部署时间表为2026年底-2027年

对于运维团队: - CXL保持与先前代的向后兼容性 - 基于端口的路由简化多机架交换矩阵管理 - 跨交换机内存访问的两位数纳秒延迟 - 关注Panmnesia、XConn和其他CXL交换机供应商的可用性

对于战略规划: - 没有单一互连标准会"获胜",因为不同层服务于不同目的 - 内存池化对于规模化AI推理变得可行 - 华为的UB-Mesh主要为中国市场创建平行生态系统 - 2025-2026年的设备决策将影响到2030年的互操作性


参考文献


如需采用先进互连架构进行AI基础设施部署,请联系Introl


  1. CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." 2025年11月18日。 

  2. VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." 2025年11月。 

  3. Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." 2025年11月18日。 

  4. Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月12日。 

  5. Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." 2025年8月。 

  6. Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." 2025年11月。 

  7. Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月。 

  8. Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." 2025年11月24日。 

  9. TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." 2025年11月。 

  10. Semi Engineering. "New Data Center Protocols Tackle AI." 2025年。 

  11. Synopsys. "Ultra Ethernet UaLink AI Networks." 2025年。 

  12. ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." 2025年8月。 

  13. Blocks and Files. "CXL 4.0 doubles bandwidth." 2025年11月。 

  14. HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." 2025年12月2日。 

  15. EE Times. "CXL Adds Port Bundling to Quench AI Thirst." 2025年11月。 

  16. SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." 2025年11月。 

  17. CXL Consortium. "CXL 4.0 White Paper." 2025年11月。 

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING