UALink与CXL 4.0:重塑GPU集群架构的开放标准
2025年4月发布的UALink 1.0规范支持在单一网络架构中扩展至1,024个加速器,直接挑战Nvidia专有的NVLink和NVSwitch生态系统。七个月后,CXL联盟于2025年11月18日发布了CXL 4.0,将带宽翻倍至128 GT/s,并实现跨机架内存池化。这两项开放标准共同构成了自2016年Nvidia推出NVLink以来,对其互连主导地位最重大的挑战。
要点速览
UALink 1.0每通道提供200 GT/s速率,支持多达1,024个加速器,而NVLink最多仅支持576个GPU。CXL 4.0将内存带宽翻倍至128 GT/s,并为需要TB级共享内存的AI工作负载引入端口捆绑功能。支持UALink的硬件将于2026年底由AMD、Intel和Astera Labs推出,而CXL 4.0跨机架部署预计在2027年实现。对于规划下一代GPU集群的基础设施团队而言,这些规范标志着向厂商中立架构的转变,在减少供应商锁定的同时实现前所未有的扩展规模。
2025年互连技术格局
GPU互连决定了AI集群的扩展效率。加速器之间的数据交换速度越快,能够训练的模型规模就越大,推理请求的处理效率也越高。
当前互连技术
| 技术 | 所有者 | 带宽 | 最大规模 | 状态 |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 每GPU 1.8 TB/s | 576 GPU | 量产中(Blackwell) |
| NVLink 4.0 | Nvidia | 每GPU 900 GB/s | 256 GPU | 量产中(Hopper) |
| Infinity Fabric | AMD | 每卡约1.075 TB/s | 8 GPU(直连网格) | 量产中(MI300X) |
| UALink 1.0 | 联盟 | 800 GB/s(4通道) | 1,024加速器 | 规范于2025年4月发布 |
| CXL 4.0 | 联盟 | 128 GT/s | 跨机架 | 规范于2025年11月发布 |
Nvidia的NVLink主导着生产环境部署,但GB200 NVL72系统既展示了其强大能力,也暴露了其局限性:72个Blackwell GPU通过130 TB/s的聚合带宽互连,但完全局限于Nvidia的专有生态系统。
UALink 1.0:打破供应商锁定
联盟成立
Ultra Accelerator Link联盟于2024年10月正式注册成立,创始成员包括AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta和Microsoft。该项目建立在AMD和Broadcom于2023年12月宣布的工作基础之上。
到2025年1月,阿里云、Apple和Synopsys以董事会级别加入,使成员总数达到75个组织。
技术规格
UALink 200G 1.0规范定义了一种低延迟、高带宽的互连技术,用于AI计算集群中加速器与交换机之间的通信。
| 规格 | UALink 1.0 |
|---|---|
| 单通道数据速率 | 200 GT/s双向 |
| 信号速率 | 212.5 GT/s(含FEC开销) |
| 链路宽度 | x1、x2、x4 |
| 最大带宽 | 800 GB/s(x4配置) |
| 最大规模 | 1,024加速器 |
| 线缆长度 | 优化至<4米 |
| 延迟目标 | <1 µs往返(64B/640B负载) |
UALink交换机为每个加速器分配一个端口,并使用10位唯一标识符实现整个网络的精确路由。
UALink与NVLink:正面对比
| 指标 | UALink 1.0 | NVLink 4.0(Hopper) | NVLink 5.0(Blackwell) |
|---|---|---|---|
| 每GPU带宽 | 800 GB/s | 900 GB/s | 1.8 TB/s |
| 每GPU链路数 | 4 | 18 | 18 |
| 最大GPU数量 | 1,024 | 256 | 576 |
| 供应商锁定 | 开放标准 | 仅限Nvidia | 仅限Nvidia |
| 硬件上市时间 | 2026年底/2027年 | 已量产 | 已量产 |
NVLink 5.0提供的单连接带宽超过UALink 1.0的3倍(2,538 GB/s对800 GB/s)。然而,UALink支持近2倍的最大集群规模(1,024对576 GPU),并可跨多个供应商运行。
设计理念差异
NVLink针对密集、同构GPU集群进行优化,在这种场景下,紧密排列的加速器之间的最大带宽至关重要。该技术在所有组件均来自Nvidia的DGX系统和NVL72机架中表现出色。
UALink面向模块化机架级架构,适用于混合使用不同供应商加速器或需要更大逻辑集群的组织。开放标准使AMD MI系列、Intel Gaudi及未来的加速器能够通过通用网络进行通信。
AMD的当前定位
AMD的Infinity Fabric可将最多8个MI300X或MI355X GPU以全连接网格方式互连。每个MI300X配备7条Infinity Fabric链路,每链路16通道,提供约1.075 TB/s的点对点带宽。
其局限在于:扩展超过8个GPU需要以太网网络。AMD的路线图包括通过PCIe Gen7链路运行的AFL(加速织构链路),以及采用UALink实现多供应商互操作性。
CXL 4.0:无边界内存
内存墙问题
AI工作负载越来越多地在达到计算极限之前就遇到内存瓶颈。大语言模型在推理过程中需要TB级内存用于KV缓存,而训练运行需要更多内存用于激活值和优化器状态。
传统服务器架构将内存直接连接到CPU,当工作负载变化时会造成容量闲置。CXL将内存与计算解耦,实现跨节点动态分配。
CXL 4.0规格
CXL联盟于2025年11月18日在Supercomputing 2025大会上发布了CXL 4.0。
| 规格 | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| 信号速率 | 64 GT/s | 128 GT/s |
| PCIe代数 | PCIe 6.0 | PCIe 7.0 |
| 带宽 | 256 GB/s(x16) | 512 GB/s(x16) |
| 中继器数量 | 2 | 4 |
| 链路宽度 | x16、x8、x4、x1 | x16、x8、x4、x2、x1 |
| 拓扑结构 | 单机架 | 跨机架 |
CXL 4.0关键特性
端口捆绑:CXL 4.0引入端口聚合功能,允许主机和设备将多个物理端口组合成单一逻辑连接。这在提供更高带宽的同时,保持了简单的软件模型——系统只看到一个设备。
扩展距离:四个中继器支持跨机架配置而不牺牲信号质量。CXL 3.x将部署限制在单机架拓扑;CXL 4.0将内存池化扩展到数据中心走廊。
内存容量:CXL内存池化可使单个CPU连接100+ TB内存,对于挖掘大型数据集或运行内存密集型AI工作负载的组织极具价值。
原生x2链路:新增的x2链路宽度选项降低了中等带宽需求应用的成本,改善了边缘部署的CXL经济性。
CXL内存池化性能
CXL DevCon 2025的演示展示了两台配备NVIDIA H100 GPU的服务器运行OPT-6.7B模型:
| 配置 | 性能 |
|---|---|
| CXL内存池 | 基准 |
| 200G RDMA | 慢3.8倍 |
| 100G RDMA | 慢6.5倍 |
CXL提供内存语义访问,延迟在200-500 ns范围内,相比之下NVMe约100 µs,基于存储的内存共享超过10 ms。
功耗与效率提升
研究表明,CXL可[将内存功耗降低20-30%](https://computeexpresslink.org/blog/over
[内容因翻译需要而截断]