UALink та CXL 4.0: Відкриті стандарти, що змінюють архітектуру GPU-кластерів

UALink 1.0 кидає виклик NVLink із масштабуванням до 1024 GPU. CXL 4.0 подвоює пропускну здатність до 128 GT/s. Технічний посібник з відкритих стандартів міжз'єднань для AI-інфраструктури.

Blake Crosley

Feb 06, 2026 5 min read Disclaimer

UALink та CXL 4.0: Відкриті стандарти, що змінюють архітектуру GPU-кластерів

Специфікація UALink 1.0, опублікована у квітні 2025 року, забезпечує масштабування до 1024 прискорювачів в єдиній фабриці, безпосередньо кидаючи виклик пропрієтарній екосистемі Nvidia NVLink та NVSwitch. Через сім місяців, 18 листопада 2025 року, консорціум CXL випустив CXL 4.0, подвоївши пропускну здатність до 128 GT/s та забезпечивши об'єднання пам'яті між стійками. Разом ці відкриті стандарти представляють найсерйознішу загрозу домінуванню Nvidia у сфері міжз'єднань з моменту, коли компанія представила NVLink у 2016 році.

Коротко про головне

UALink 1.0 забезпечує 200 GT/s на лінію з підтримкою до 1024 прискорювачів, порівняно з максимумом у 576 GPU для NVLink. CXL 4.0 подвоює пропускну здатність пам'яті до 128 GT/s та впроваджує об'єднані порти для AI-навантажень, що вимагають спільної пам'яті терабайтного масштабу. Обладнання з підтримкою UALink з'явиться наприкінці 2026 року від AMD, Intel та Astera Labs, тоді як багатостійкові розгортання CXL 4.0 заплановані на 2027 рік. Для інфраструктурних команд, що планують GPU-кластери наступного покоління, ці специфікації сигналізують про перехід до вендор-нейтральних архітектур, які зменшують залежність від постачальника та водночас забезпечують безпрецедентний масштаб.

Ландшафт міжз'єднань у 2025 році

GPU-міжз'єднання визначають, наскільки ефективно масштабуються AI-кластери. Чим швидше прискорювачі можуть обмінюватися даними, тим більші моделі вони можуть навчати і тим ефективніше обслуговувати запити на інференс.

Поточні технології міжз'єднань

Технологія	Власник	Пропускна здатність	Макс. масштаб	Статус
NVLink 5.0	Nvidia	1,8 ТБ/с на GPU	576 GPU	Продакшн (Blackwell)
NVLink 4.0	Nvidia	900 ГБ/с на GPU	256 GPU	Продакшн (Hopper)
Infinity Fabric	AMD	~1,075 ТБ/с на карту	8 GPU (пряма сітка)	Продакшн (MI300X)
UALink 1.0	Консорціум	800 ГБ/с (4 лінії)	1024 прискорювачі	Специфікація опублікована у квітні 2025
CXL 4.0	Консорціум	128 GT/s	Багатостійкові	Специфікація опублікована у листопаді 2025

NVLink від Nvidia домінує у продакшн-розгортаннях, але система GB200 NVL72 демонструє як її потужність, так і обмеження: 72 GPU Blackwell, з'єднаних із сукупною пропускною здатністю 130 ТБ/с, але виключно в межах пропрієтарної екосистеми Nvidia.

UALink 1.0: Звільнення від залежності від постачальника

Формування консорціуму

Консорціум Ultra Accelerator Link був зареєстрований у жовтні 2024 року із засновниками AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta та Microsoft. Ця робота ґрунтується на напрацюваннях, анонсованих AMD та Broadcom у грудні 2023 року.

До січня 2025 року Alibaba Cloud, Apple та Synopsys приєдналися на рівні ради директорів, довівши загальну кількість членів до 75 організацій.

Технічні специфікації

Специфікація UALink 200G 1.0 визначає низьколатентне, високопропускне міжз'єднання для комунікації між прискорювачами та комутаторами в обчислювальних подах для штучного інтелекту.

Специфікація	UALink 1.0
Швидкість передачі на лінію	200 GT/s двонаправлена
Швидкість сигналізації	212,5 GT/s (з накладними витратами FEC)
Ширина лінії	x1, x2, x4
Максимальна пропускна здатність	800 ГБ/с (конфігурація x4)
Максимальний масштаб	1024 прискорювачі
Довжина кабелю	<4 метри оптимізовано
Цільова латентність	<1 мкс туди-назад (корисне навантаження 64B/640B)

Комутатори UALink призначають один порт на прискорювач та використовують 10-бітні унікальні ідентифікатори для точної маршрутизації по фабриці.

UALink проти NVLink: Пряме порівняння

Метрика	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Пропускна здатність на GPU	800 ГБ/с	900 ГБ/с	1,8 ТБ/с
Лінії на GPU	4	18	18
Максимум GPU	1024	256	576
Залежність від постачальника	Відкритий стандарт	Тільки Nvidia	Тільки Nvidia
Доступність обладнання	Кінець 2026/2027	Продакшн	Продакшн

NVLink 5.0 забезпечує більш ніж у 3 рази вищу пропускну здатність на з'єднання порівняно з UALink 1.0 (2538 ГБ/с проти 800 ГБ/с). Однак UALink підтримує майже вдвічі більший максимальний розмір кластера (1024 проти 576 GPU) і працює з кількома постачальниками.

Різниця у філософії проектування

NVLink оптимізований для щільних, однорідних GPU-кластерів, де найбільше значення має максимальна пропускна здатність між щільно упакованими прискорювачами. Технологія відмінно працює в системах DGX та стійках NVL72, де всі компоненти походять від Nvidia.

UALink орієнтований на модульні архітектури масштабу стійки, де організації комбінують прискорювачі від різних постачальників або потребують більших логічних кластерів. Відкритий стандарт дозволяє AMD серії MI, Intel Gaudi та майбутнім прискорювачам комунікувати через спільну фабрику.

Поточна позиція AMD

Infinity Fabric від AMD з'єднує до восьми GPU MI300X або MI355X у повністю зв'язаній сітці. Кожен MI300X має сім ліній Infinity Fabric з 16 смугами на лінію, забезпечуючи приблизно 1,075 ТБ/с пропускної здатності peer-to-peer.

Обмеження: масштабування понад 8 GPU вимагає Ethernet-мереж. Дорожня карта AMD включає AFL (Accelerated Fabric Link), що працює через лінії PCIe Gen7, плюс впровадження UALink для мультивендорної сумісності.

CXL 4.0: Пам'ять без обмежень

Проблема «стіни пам'яті»

AI-навантаження все частіше досягають вузьких місць пам'яті раніше, ніж обчислювальних лімітів. Великі мовні моделі вимагають терабайтів пам'яті для KV-кешів під час інференсу, тоді як навчальні запуски потребують ще більше для активацій та станів оптимізатора.

Традиційні серверні архітектури підключають пам'ять безпосередньо до процесорів, створюючи «застряглу» ємність при варіюванні навантажень. CXL відокремлює пам'ять від обчислень, забезпечуючи динамічний розподіл між вузлами.

Специфікації CXL 4.0

Консорціум CXL випустив CXL 4.0 на Supercomputing 2025 18 листопада 2025 року.

Специфікація	CXL 3.0/3.1	CXL 4.0
Швидкість сигналізації	64 GT/s	128 GT/s
Покоління PCIe	PCIe 6.0	PCIe 7.0
Пропускна здатність	256 ГБ/с (x16)	512 ГБ/с (x16)
Ретаймери	2	4
Ширина лінії	x16, x8, x4, x1	x16, x8, x4, x2, x1
Топологія	Одна стійка	Багатостійкова

Ключові функції CXL 4.0

Об'єднані порти: CXL 4.0 впроваджує агрегацію портів, що дозволяє хостам та пристроям об'єднувати кілька фізичних портів в одне логічне з'єднання. Це забезпечує вищу пропускну здатність, зберігаючи просту програмну модель, де система бачить один пристрій.

Розширена досяжність: Чотири ретаймери забезпечують багатостійкові конфігурації без втрати якості сигналу. CXL 3.x обмежував розгортання топологіями в межах однієї стійки; CXL 4.0 розширює об'єднання пам'яті на проходи дата-центру.

Ємність пам'яті: Об'єднання пам'яті CXL забезпечує понад 100 терабайт пам'яті, підключеної до одного процесора, що цінно для організацій, які аналізують великі набори даних або виконують пам'яткоємні AI-навантаження.

Нативні лінії x2: Новий варіант ширини лінії x2 знижує вартість для застосунків, що вимагають помірної пропускної здатності, покращуючи економіку CXL для периферійних розгортань.

Продуктивність об'єднання пам'яті CXL

Демонстрації на CXL DevCon 2025 показали два сервери з GPU NVIDIA H100, що виконують модель OPT-6.7B:

Конфігурація	Продуктивність
Пул пам'яті CXL	Базова
200G RDMA	У 3,8 рази повільніше
100G RDMA	У 6,5 разів повільніше

CXL забезпечує доступ до пам'яті з семантикою пам'яті з латентністю в діапазоні 200-500 нс, порівняно з ~100 мкс для NVMe та >10 мс для обміну пам'яттю на основі сховищ.

Підвищення енергоефективності

Дослідження показують, що CXL може [знизити енергоспоживання пам'яті на 20-30%](https://computeexpresslink.org/blog/over

[Контент скорочено для перекладу]

UALink та CXL 4.0: Відкриті стандарти, що змінюють архітектуру GPU-кластерів

Коротко про головне

Ландшафт міжз'єднань у 2025 році

Поточні технології міжз'єднань

UALink 1.0: Звільнення від залежності від постачальника

Формування консорціуму

Технічні специфікації

UALink проти NVLink: Пряме порівняння

Різниця у філософії проектування

Поточна позиція AMD

CXL 4.0: Пам'ять без обмежень

Проблема «стіни пам'яті»

Специфікації CXL 4.0

Ключові функції CXL 4.0

Продуктивність об'єднання пам'яті CXL

Підвищення енергоефективності

You Might Also Like

Калькулятор ROI занурювального охолодження: окупність 2-4 ро...

Коридор ШІ Великобританії: Лондон як новий обчислювальний ха...

Ефективність використання води: охолодження ЦОД для ШІ без к...

Запросити пропозицію_

Запит отримано_