CXL 4.0与互连技术之战:AI内存如何重塑数据中心架构
2025年12月12日
2025年12月更新: CXL联盟于11月18日发布CXL 4.0规范,借助PCIe 7.0将带宽提升至128 GT/s,并引入捆绑端口特性,实现1.5 TB/s的连接带宽。Panmnesia开始提供业界首款支持端口路由的CXL 3.2交换芯片样片。与此同时,UALink计划于2026年底部署,华为则将UB-Mesh作为替代方案进行开源。
要点速览
CXL 4.0代表了新一代内存互连技术,能够在AI基础设施中实现超过100TB的内存池化,并支持缓存一致性。该规范的捆绑端口特性允许将多个物理端口聚合为单个逻辑连接,总带宽可达1.5 TB/s。Panmnesia的CXL 3.2交换芯片是首款实现端口路由(PBR)的硬件,可用于多机架AI集群。随着UALink、Ultra Ethernet和华为UB-Mesh在各自领域展开竞争,更广泛的互连技术格局进一步分化。
事件回顾
CXL联盟于2025年11月18日在SC25大会上发布了Compute Express Link 4.0规范。1该规范从PCIe 6.x(64 GT/s)升级到PCIe 7.0(128 GT/s),在保持CXL 3.x引入的256字节FLIT格式的同时,将可用带宽提升了一倍。2
CXL联盟主席、NVIDIA首席工程师Derek Rohde表示:"CXL 4.0规范的发布为推进一致性内存连接树立了新的里程碑,带宽较上一代翻倍,并带来了强大的新特性。"3
四天前的11月12日,韩国初创公司Panmnesia宣布其PCIe 6.0/CXL 3.2交换芯片开始提供样片:这是首款实现CXL交换网络端口路由(PBR)的芯片。4
互连技术格局持续分化。UALink计划于2026年底在数据中心部署。华为宣布将开源其UB-Mesh协议,该协议旨在以统一标准取代PCIe、CXL、NVLink和TCP/IP。5
对基础设施的意义
内存变得可组合:CXL 4.0实现了大规模内存池化。需要数百TB内存的AI推理工作负载现在可以跨机架访问共享内存池并保持缓存一致性,而不仅限于单台服务器内部。
带宽匹配AI需求:CXL 4.0的x16链路捆绑端口在128 GT/s速率下,每个方向可提供768 GB/s带宽(设备与CPU之间总带宽达1.536 TB/s)。6大语言模型推理服务直接受益于这一能力。
多机架AI集群:CXL 3.2/4.0的端口路由允许交换芯片跨多个机架互连数千台设备,而无需承受长距离网络延迟。Panmnesia声称内存访问延迟仅为"两位数纳秒级"。7
标准碎片化风险:四种相互竞争的互连生态系统(CXL/PCIe、UALink、Ultra Ethernet、NVLink)迫使基础设施规划者押注赢家。今天采购的设备可能在2027年面临互操作性挑战。
技术细节
CXL 4.0规范
| 特性 | CXL 3.x | CXL 4.0 |
|---|---|---|
| 基础协议 | PCIe 6.x | PCIe 7.0 |
| 传输速率 | 64 GT/s | 128 GT/s |
| FLIT大小 | 256B | 256B |
| 支持的Retimer数量 | 2 | 4 |
| 链路宽度选项 | 标准 | 新增原生x2 |
| 捆绑端口 | 否 | 是 |
捆绑端口架构
CXL 4.0的捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体:8
- 主机和Type 1/2设备可以组合多个物理端口
- 系统软件将多个物理连接视为单一设备
- 针对256B Flit模式优化,消除传统68B Flit的开销
- 单个逻辑连接可实现1.5+ TB/s的总带宽
Panmnesia CXL 3.2交换芯片
首款CXL 3.2交换芯片包括:9
| 规格 | 详情 |
|---|---|
| 协议支持 | PCIe Gen 6.0 + CXL 3.2混合 |
| 数据速率 | 64 GT/s |
| 路由模式 | PBR(端口路由)和HBR(层级路由) |
| CXL子协议 | CXL.cache、CXL.mem、CXL.io |
| 通道数 | 256通道高扇出 |
| 延迟 | 两位数纳秒级 |
| 向后兼容性 | 所有先前的PCIe/CXL代际 |
目标应用包括DLRM(深度学习推荐模型)、大语言模型推理、RAG工作负载和基于MPI的高性能计算仿真。
竞争性互连标准
| 标准 | 主导方 | 用途 | 带宽 | 规模 | 时间线 |
|---|---|---|---|---|---|
| CXL 4.0 | 联盟 | 内存一致性 | 128 GT/s | 多机架 | 2026年底-2027年 |
| NVLink 5 | NVIDIA | GPU-GPU | 1.8 TB/s | 576 GPU | 已上市 |
| UALink 1.0 | AMD主导联盟 | 加速器间互连 | 200 Gb/s/通道 | 1,024设备 | 2026年底 |
| Ultra Ethernet | UEC | 横向扩展网络 | 基于以太网 | 万级端点 | 2026年+ |
| UB-Mesh | 华为 | 统一互连 | 1+ TB/s/设备 | 100万处理器 | 已开源 |
互连技术选型框架
何时使用哪种标准:
| 使用场景 | 最佳选择 | 原因 |
|---|---|---|
| 节点内GPU间互连 | NVLink | 最高带宽(1.8 TB/s),最低延迟 |
| 节点间GPU互连 | UALink | NVLink的开放标准替代方案 |
| 内存扩展 | CXL | 与CPU的缓存一致性,内存池化 |
| 横向扩展网络 | Ultra Ethernet / InfiniBand | 专为万级端点集群设计 |
| 中国统一生态 | UB-Mesh | 规避西方知识产权限制 |
UALink与CXL的定位
UALink与CXL并非直接竞争关系,它们服务于不同目的:10
- UALink:用于加速器集群的GPU间扩展(纵向扩展)
- CXL:CPU-内存一致性和内存池化(内存扩展)
- Ultra Ethernet:跨数据中心的横向扩展网络
Synopsys产品管理副总裁Michael Posner解释道:"UALink与PCIe和CXL协同工作,但只有UALink具有统一已分配资源的效果。UALink旨在连接您的主要GPU单元,实现GPU间扩展。"11
华为UB-Mesh
华为的替代方案旨在取代所有现有互连技术:12
- 目标每设备带宽超过1 TB/s
- 单跳延迟约150纳秒(从微秒级改善到纳秒级)
- 同步加载/存储语义,而非基于数据包
- 2025年9月宣布开源许可
- "SuperNode"架构可扩展至100万处理器
鉴于地缘政治考量和现有标准的发展惯性,行业采用情况仍不确定。
未来展望
2026年底:UALink交换机进入数据中心;CXL 4.0产品开始提供样片。
2026年底-2027年:CXL 4.0多机架系统实现生产部署。13
2026年第四季度:Upscale AI计划交付UALink交换机。14
持续进行中:标准组织正在协调CXL、UALink和Ultra Ethernet的共存。华为的UB-Mesh在西方市场以外寻求采用。
互连技术格局至少到2027年仍将保持碎片化。没有单一标准能够满足所有使用场景:内存池化(CXL)、加速器扩展(UALink/NVLink)和网络交换(Ultra Ethernet/InfiniBand)。
关键要点
对基础设施规划者: - CXL 4.0实现跨机架100+ TB内存池的缓存一致性 - Panmnesia正在提供首款支持端口路由的CXL 3.2交换芯片样片 - 规划标准共存:CXL + UALink + Ultra Ethernet/InfiniBand - CXL 4.0生产系统部署时间线为2026年底至2027年
对运维团队: - CXL保持与先前代际的向后兼容性 - 端口路由简化多机架交换网络管理 - 跨交换机内存访问延迟为两位数纳秒级 - 关注Panmnesia、XConn等CXL交换机供应商的产品可用性
对战略规划: - 没有单一互连标准会"胜出",因为不同层级服务于不同目的 - 内存池化使大规模AI推理成为可能 - 华为UB-Mesh主要为中国市场创建平行生态系统 - 2025-2026年的设备决策将影响到2030年的互操作性
参考文献
如需部署采用先进互连架构的AI基础设施,请联系Introl。
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." November 18, 2025. ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." November 2025. ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." November 18, 2025. ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." November 12, 2025. ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." August 2025. ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." November 2025. ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." November 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." November 24, 2025. ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." November 2025. ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025. ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025. ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." August 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." November 2025. ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." December 2, 2025. ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." November 2025. ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." November 2025. ↩
-
CXL Consortium. "CXL 4.0 White Paper." November 2025. ↩