UALink та CXL 4.0: Відкриті стандарти, що змінюють архітектуру GPU-кластерів
Специфікація UALink 1.0, опублікована у квітні 2025 року, забезпечує масштабування до 1024 прискорювачів в єдиній фабриці, безпосередньо кидаючи виклик пропрієтарній екосистемі Nvidia NVLink та NVSwitch. Через сім місяців, 18 листопада 2025 року, консорціум CXL випустив CXL 4.0, подвоївши пропускну здатність до 128 GT/s та забезпечивши об'єднання пам'яті між стійками. Разом ці відкриті стандарти представляють найсерйознішу загрозу домінуванню Nvidia у сфері міжз'єднань з моменту, коли компанія представила NVLink у 2016 році.
Коротко про головне
UALink 1.0 забезпечує 200 GT/s на лінію з підтримкою до 1024 прискорювачів, порівняно з максимумом у 576 GPU для NVLink. CXL 4.0 подвоює пропускну здатність пам'яті до 128 GT/s та впроваджує об'єднані порти для AI-навантажень, що вимагають спільної пам'яті терабайтного масштабу. Обладнання з підтримкою UALink з'явиться наприкінці 2026 року від AMD, Intel та Astera Labs, тоді як багатостійкові розгортання CXL 4.0 заплановані на 2027 рік. Для інфраструктурних команд, що планують GPU-кластери наступного покоління, ці специфікації сигналізують про перехід до вендор-нейтральних архітектур, які зменшують залежність від постачальника та водночас забезпечують безпрецедентний масштаб.
Ландшафт міжз'єднань у 2025 році
GPU-міжз'єднання визначають, наскільки ефективно масштабуються AI-кластери. Чим швидше прискорювачі можуть обмінюватися даними, тим більші моделі вони можуть навчати і тим ефективніше обслуговувати запити на інференс.
Поточні технології міжз'єднань
| Технологія | Власник | Пропускна здатність | Макс. масштаб | Статус |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 ТБ/с на GPU | 576 GPU | Продакшн (Blackwell) |
| NVLink 4.0 | Nvidia | 900 ГБ/с на GPU | 256 GPU | Продакшн (Hopper) |
| Infinity Fabric | AMD | ~1,075 ТБ/с на карту | 8 GPU (пряма сітка) | Продакшн (MI300X) |
| UALink 1.0 | Консорціум | 800 ГБ/с (4 лінії) | 1024 прискорювачі | Специфікація опублікована у квітні 2025 |
| CXL 4.0 | Консорціум | 128 GT/s | Багатостійкові | Специфікація опублікована у листопаді 2025 |
NVLink від Nvidia домінує у продакшн-розгортаннях, але система GB200 NVL72 демонструє як її потужність, так і обмеження: 72 GPU Blackwell, з'єднаних із сукупною пропускною здатністю 130 ТБ/с, але виключно в межах пропрієтарної екосистеми Nvidia.
UALink 1.0: Звільнення від залежності від постачальника
Формування консорціуму
Консорціум Ultra Accelerator Link був зареєстрований у жовтні 2024 року із засновниками AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta та Microsoft. Ця робота ґрунтується на напрацюваннях, анонсованих AMD та Broadcom у грудні 2023 року.
До січня 2025 року Alibaba Cloud, Apple та Synopsys приєдналися на рівні ради директорів, довівши загальну кількість членів до 75 організацій.
Технічні специфікації
Специфікація UALink 200G 1.0 визначає низьколатентне, високопропускне міжз'єднання для комунікації між прискорювачами та комутаторами в обчислювальних подах для штучного інтелекту.
| Специфікація | UALink 1.0 |
|---|---|
| Швидкість передачі на лінію | 200 GT/s двонаправлена |
| Швидкість сигналізації | 212,5 GT/s (з накладними витратами FEC) |
| Ширина лінії | x1, x2, x4 |
| Максимальна пропускна здатність | 800 ГБ/с (конфігурація x4) |
| Максимальний масштаб | 1024 прискорювачі |
| Довжина кабелю | <4 метри оптимізовано |
| Цільова латентність | <1 мкс туди-назад (корисне навантаження 64B/640B) |
Комутатори UALink призначають один порт на прискорювач та використовують 10-бітні унікальні ідентифікатори для точної маршрутизації по фабриці.
UALink проти NVLink: Пряме порівняння
| Метрика | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Пропускна здатність на GPU | 800 ГБ/с | 900 ГБ/с | 1,8 ТБ/с |
| Лінії на GPU | 4 | 18 | 18 |
| Максимум GPU | 1024 | 256 | 576 |
| Залежність від постачальника | Відкритий стандарт | Тільки Nvidia | Тільки Nvidia |
| Доступність обладнання | Кінець 2026/2027 | Продакшн | Продакшн |
NVLink 5.0 забезпечує більш ніж у 3 рази вищу пропускну здатність на з'єднання порівняно з UALink 1.0 (2538 ГБ/с проти 800 ГБ/с). Однак UALink підтримує майже вдвічі більший максимальний розмір кластера (1024 проти 576 GPU) і працює з кількома постачальниками.
Різниця у філософії проектування
NVLink оптимізований для щільних, однорідних GPU-кластерів, де найбільше значення має максимальна пропускна здатність між щільно упакованими прискорювачами. Технологія відмінно працює в системах DGX та стійках NVL72, де всі компоненти походять від Nvidia.
UALink орієнтований на модульні архітектури масштабу стійки, де організації комбінують прискорювачі від різних постачальників або потребують більших логічних кластерів. Відкритий стандарт дозволяє AMD серії MI, Intel Gaudi та майбутнім прискорювачам комунікувати через спільну фабрику.
Поточна позиція AMD
Infinity Fabric від AMD з'єднує до восьми GPU MI300X або MI355X у повністю зв'язаній сітці. Кожен MI300X має сім ліній Infinity Fabric з 16 смугами на лінію, забезпечуючи приблизно 1,075 ТБ/с пропускної здатності peer-to-peer.
Обмеження: масштабування понад 8 GPU вимагає Ethernet-мереж. Дорожня карта AMD включає AFL (Accelerated Fabric Link), що працює через лінії PCIe Gen7, плюс впровадження UALink для мультивендорної сумісності.
CXL 4.0: Пам'ять без обмежень
Проблема «стіни пам'яті»
AI-навантаження все частіше досягають вузьких місць пам'яті раніше, ніж обчислювальних лімітів. Великі мовні моделі вимагають терабайтів пам'яті для KV-кешів під час інференсу, тоді як навчальні запуски потребують ще більше для активацій та станів оптимізатора.
Традиційні серверні архітектури підключають пам'ять безпосередньо до процесорів, створюючи «застряглу» ємність при варіюванні навантажень. CXL відокремлює пам'ять від обчислень, забезпечуючи динамічний розподіл між вузлами.
Специфікації CXL 4.0
Консорціум CXL випустив CXL 4.0 на Supercomputing 2025 18 листопада 2025 року.
| Специфікація | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Швидкість сигналізації | 64 GT/s | 128 GT/s |
| Покоління PCIe | PCIe 6.0 | PCIe 7.0 |
| Пропускна здатність | 256 ГБ/с (x16) | 512 ГБ/с (x16) |
| Ретаймери | 2 | 4 |
| Ширина лінії | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Топологія | Одна стійка | Багатостійкова |
Ключові функції CXL 4.0
Об'єднані порти: CXL 4.0 впроваджує агрегацію портів, що дозволяє хостам та пристроям об'єднувати кілька фізичних портів в одне логічне з'єднання. Це забезпечує вищу пропускну здатність, зберігаючи просту програмну модель, де система бачить один пристрій.
Розширена досяжність: Чотири ретаймери забезпечують багатостійкові конфігурації без втрати якості сигналу. CXL 3.x обмежував розгортання топологіями в межах однієї стійки; CXL 4.0 розширює об'єднання пам'яті на проходи дата-центру.
Ємність пам'яті: Об'єднання пам'яті CXL забезпечує понад 100 терабайт пам'яті, підключеної до одного процесора, що цінно для організацій, які аналізують великі набори даних або виконують пам'яткоємні AI-навантаження.
Нативні лінії x2: Новий варіант ширини лінії x2 знижує вартість для застосунків, що вимагають помірної пропускної здатності, покращуючи економіку CXL для периферійних розгортань.
Продуктивність об'єднання пам'яті CXL
Демонстрації на CXL DevCon 2025 показали два сервери з GPU NVIDIA H100, що виконують модель OPT-6.7B:
| Конфігурація | Продуктивність |
|---|---|
| Пул пам'яті CXL | Базова |
| 200G RDMA | У 3,8 рази повільніше |
| 100G RDMA | У 6,5 разів повільніше |
CXL забезпечує доступ до пам'яті з семантикою пам'яті з латентністю в діапазоні 200-500 нс, порівняно з ~100 мкс для NVMe та >10 мс для обміну пам'яттю на основі сховищ.
Підвищення енергоефективності
Дослідження показують, що CXL може [знизити енергоспоживання пам'яті на 20-30%](https://computeexpresslink.org/blog/over
[Контент скорочено для перекладу]