UALink与CXL 4.0:重塑GPU集群架构的开放标准

UALink 1.0以1,024 GPU扩展能力挑战NVLink。CXL 4.0将带宽翻倍至128 GT/s。面向AI基础设施的开放互连标准技术指南。

UALink与CXL 4.0:重塑GPU集群架构的开放标准

UALink与CXL 4.0:重塑GPU集群架构的开放标准

2025年4月发布的UALink 1.0规范支持在单一网络架构中扩展至1,024个加速器,直接挑战Nvidia专有的NVLink和NVSwitch生态系统。七个月后,CXL联盟于2025年11月18日发布了CXL 4.0,将带宽翻倍至128 GT/s,并实现跨机架内存池化。这两项开放标准共同构成了自2016年Nvidia推出NVLink以来,对其互连主导地位最重大的挑战。

要点速览

UALink 1.0每通道提供200 GT/s速率,支持多达1,024个加速器,而NVLink最多仅支持576个GPU。CXL 4.0将内存带宽翻倍至128 GT/s,并为需要TB级共享内存的AI工作负载引入端口捆绑功能。支持UALink的硬件将于2026年底由AMD、Intel和Astera Labs推出,而CXL 4.0跨机架部署预计在2027年实现。对于规划下一代GPU集群的基础设施团队而言,这些规范标志着向厂商中立架构的转变,在减少供应商锁定的同时实现前所未有的扩展规模。


2025年互连技术格局

GPU互连决定了AI集群的扩展效率。加速器之间的数据交换速度越快,能够训练的模型规模就越大,推理请求的处理效率也越高。

当前互连技术

技术 所有者 带宽 最大规模 状态
NVLink 5.0 Nvidia 每GPU 1.8 TB/s 576 GPU 量产中(Blackwell)
NVLink 4.0 Nvidia 每GPU 900 GB/s 256 GPU 量产中(Hopper)
Infinity Fabric AMD 每卡约1.075 TB/s 8 GPU(直连网格) 量产中(MI300X)
UALink 1.0 联盟 800 GB/s(4通道) 1,024加速器 规范于2025年4月发布
CXL 4.0 联盟 128 GT/s 跨机架 规范于2025年11月发布

Nvidia的NVLink主导着生产环境部署,但GB200 NVL72系统既展示了其强大能力,也暴露了其局限性:72个Blackwell GPU通过130 TB/s的聚合带宽互连,但完全局限于Nvidia的专有生态系统。


联盟成立

Ultra Accelerator Link联盟于2024年10月正式注册成立,创始成员包括AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta和Microsoft。该项目建立在AMD和Broadcom于2023年12月宣布的工作基础之上。

到2025年1月,阿里云、Apple和Synopsys以董事会级别加入,使成员总数达到75个组织。

技术规格

UALink 200G 1.0规范定义了一种低延迟、高带宽的互连技术,用于AI计算集群中加速器与交换机之间的通信。

规格 UALink 1.0
单通道数据速率 200 GT/s双向
信号速率 212.5 GT/s(含FEC开销)
链路宽度 x1、x2、x4
最大带宽 800 GB/s(x4配置)
最大规模 1,024加速器
线缆长度 优化至<4米
延迟目标 <1 µs往返(64B/640B负载)

UALink交换机为每个加速器分配一个端口,并使用10位唯一标识符实现整个网络的精确路由。

指标 UALink 1.0 NVLink 4.0(Hopper) NVLink 5.0(Blackwell)
每GPU带宽 800 GB/s 900 GB/s 1.8 TB/s
每GPU链路数 4 18 18
最大GPU数量 1,024 256 576
供应商锁定 开放标准 仅限Nvidia 仅限Nvidia
硬件上市时间 2026年底/2027年 已量产 已量产

NVLink 5.0提供的单连接带宽超过UALink 1.0的3倍(2,538 GB/s对800 GB/s)。然而,UALink支持近2倍的最大集群规模(1,024对576 GPU),并可跨多个供应商运行。

设计理念差异

NVLink针对密集、同构GPU集群进行优化,在这种场景下,紧密排列的加速器之间的最大带宽至关重要。该技术在所有组件均来自Nvidia的DGX系统和NVL72机架中表现出色。

UALink面向模块化机架级架构,适用于混合使用不同供应商加速器或需要更大逻辑集群的组织。开放标准使AMD MI系列、Intel Gaudi及未来的加速器能够通过通用网络进行通信。

AMD的当前定位

AMD的Infinity Fabric可将最多8个MI300X或MI355X GPU以全连接网格方式互连。每个MI300X配备7条Infinity Fabric链路,每链路16通道,提供约1.075 TB/s的点对点带宽。

其局限在于:扩展超过8个GPU需要以太网网络。AMD的路线图包括通过PCIe Gen7链路运行的AFL(加速织构链路),以及采用UALink实现多供应商互操作性。


CXL 4.0:无边界内存

内存墙问题

AI工作负载越来越多地在达到计算极限之前就遇到内存瓶颈。大语言模型在推理过程中需要TB级内存用于KV缓存,而训练运行需要更多内存用于激活值和优化器状态。

传统服务器架构将内存直接连接到CPU,当工作负载变化时会造成容量闲置。CXL将内存与计算解耦,实现跨节点动态分配

CXL 4.0规格

CXL联盟于2025年11月18日在Supercomputing 2025大会上发布了CXL 4.0

规格 CXL 3.0/3.1 CXL 4.0
信号速率 64 GT/s 128 GT/s
PCIe代数 PCIe 6.0 PCIe 7.0
带宽 256 GB/s(x16) 512 GB/s(x16)
中继器数量 2 4
链路宽度 x16、x8、x4、x1 x16、x8、x4、x2、x1
拓扑结构 单机架 跨机架

CXL 4.0关键特性

端口捆绑:CXL 4.0引入端口聚合功能,允许主机和设备将多个物理端口组合成单一逻辑连接。这在提供更高带宽的同时,保持了简单的软件模型——系统只看到一个设备。

扩展距离:四个中继器支持跨机架配置而不牺牲信号质量。CXL 3.x将部署限制在单机架拓扑;CXL 4.0将内存池化扩展到数据中心走廊。

内存容量:CXL内存池化可使单个CPU连接100+ TB内存,对于挖掘大型数据集或运行内存密集型AI工作负载的组织极具价值。

原生x2链路:新增的x2链路宽度选项降低了中等带宽需求应用的成本,改善了边缘部署的CXL经济性。

CXL内存池化性能

CXL DevCon 2025的演示展示了两台配备NVIDIA H100 GPU的服务器运行OPT-6.7B模型:

配置 性能
CXL内存池 基准
200G RDMA 慢3.8倍
100G RDMA 慢6.5倍

CXL提供内存语义访问,延迟在200-500 ns范围内,相比之下NVMe约100 µs,基于存储的内存共享超过10 ms。

功耗与效率提升

研究表明,CXL可[将内存功耗降低20-30%](https://computeexpresslink.org/blog/over

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中