CXL 4.0 та війни інтерконектів: як пам'ять для ШІ змінює архітектуру центрів обробки даних
12 грудня 2025 року
Оновлення грудня 2025: Консорціум CXL випустив CXL 4.0 18 листопада, подвоївши пропускну здатність до 128 GT/s з PCIe 7.0 та представивши об'єднані порти для з'єднань 1,5 ТБ/с. Panmnesia почала надавати зразки першого в галузі комутатора fabric CXL 3.2 з маршрутизацією на основі портів. Тим часом UALink націлюється на розгортання наприкінці 2026 року, а Huawei опублікувала UB-Mesh як відкритий код в якості альтернативи.
Резюме
CXL 4.0 представляє наступне покоління технології міжз'єднання пам'яті, що дозволяє понад 100 терабайт об'єднаної пам'яті з когерентністю кешу по всій інфраструктурі ШІ. Функція об'єднаних портів специфікації дозволяє агрегувати кілька фізичних портів в єдині логічні з'єднання, що забезпечують загальну пропускну здатність 1,5 ТБ/с. Комутатор fabric CXL 3.2 від Panmnesia є першим апаратним забезпеченням, що реалізує маршрутизацію на основі портів для багатостійкових кластерів ШІ. Ширший ландшафт інтерконектів продовжує фрагментуватися, оскільки UALink, Ultra Ethernet та UB-Mesh від Huawei конкурують за різні ніші.
Що сталося
Консорціум CXL випустив специфікацію Compute Express Link 4.0 18 листопада 2025 року на SC25.1 Специфікація переходить з PCIe 6.x (64 GT/s) на PCIe 7.0 (128 GT/s), подвоюючи доступну пропускну здатність, зберігаючи формат FLIT 256 байт, введений з CXL 3.x.2
"Випуск специфікації CXL 4.0 встановлює новий етап у розвитку когерентного підключення пам'яті, подвоюючи пропускну здатність порівняно з попереднім поколінням з потужними новими функціями," заявив Дерек Роде, президент Консорціуму CXL та головний інженер NVIDIA.3
Чотири дні раніше, 12 листопада, корейський стартап Panmnesia оголосив про доступність зразків свого комутатора Fabric PCIe 6.0/CXL 3.2: першого кремнію, що реалізує маршрутизацію на основі портів (PBR) для fabric CXL.4
Ландшафт інтерконектів продовжує фрагментуватися. UALink націлюється на розгортання в дата-центрах наприкінці 2026 року. Huawei оголосила, що опублікує свій протокол UB-Mesh як відкритий код, розроблений для заміни PCIe, CXL, NVLink та TCP/IP єдиним стандартом.5
Чому це важливо для інфраструктури
Пам'ять стає компонованою: CXL 4.0 забезпечує об'єднання пам'яті в масштабі. Робочі навантаження виведення ШІ, що вимагають сотень терабайт, тепер можуть отримувати доступ до спільних пулів пам'яті через стійки з когерентністю кешу, а не лише в межах одного сервера.
Пропускна здатність відповідає попиту ШІ: Об'єднаний порт CXL 4.0 з лінками x16 на 128 GT/s забезпечує 768 ГБ/с у кожному напрямку (1,536 ТБ/с загальної пропускної здатності між пристроєм та CPU).6 Обслуговування виведення LLM безпосередньо виграє від цієї ємності.
Багатостійкові кластери ШІ: Маршрутизація на основі портів у CXL 3.2/4.0 дозволяє комутаторам fabric з'єднувати тисячі пристроїв через кілька стійок без виникнення великої затримки мережі. Panmnesia заявляє про "двозначну наносекундну затримку" для доступу до пам'яті.7
Ризик фрагментації стандартів: Чотири конкуруючі екосистеми інтерконектів (CXL/PCIe, UALink, Ultra Ethernet, NVLink) змушують планувальників інфраструктури робити ставки на переможців. Обладнання, придбане сьогодні, може зіткнутися з проблемами сумісності у 2027 році.
Технічні деталі
Специфікація CXL 4.0
| Функція | CXL 3.x | CXL 4.0 |
|---|---|---|
| Базовий протокол | PCIe 6.x | PCIe 7.0 |
| Швидкість передачі | 64 GT/s | 128 GT/s |
| Розмір FLIT | 256B | 256B |
| Підтримувані ретаймери | 2 | 4 |
| Варіанти ширини лінку | Стандартний | Додано нативний x2 |
| Об'єднані порти | Ні | Так |
Архітектура об'єднаних портів
Об'єднані порти CXL 4.0 агрегують кілька фізичних портів пристроїв CXL в єдину логічну сутність:8
- Хост та пристрої Type 1/2 можуть об'єднувати кілька фізичних портів
- Системне програмне забезпечення бачить один пристрій, незважаючи на кілька фізичних з'єднань
- Оптимізовано для режиму FLIT 256B, усуваючи накладні витрати застарілого FLIT 68B
- Забезпечує 1,5+ ТБ/с загальної пропускної здатності на логічне з'єднання
Комутатор Fabric CXL 3.2 від Panmnesia
Перший кремній комутатора CXL 3.2 включає:9
| Специфікація | Деталі |
|---|---|
| Підтримка протоколу | Гібрид PCIe Gen 6.0 + CXL 3.2 |
| Швидкість даних | 64 GT/s |
| Режими маршрутизації | PBR (на основі портів) та HBR (на основі ієрархії) |
| Підпротоколи CXL | CXL.cache, CXL.mem, CXL.io |
| Кількість ліній | 256 ліній з високим fan-out |
| Затримка | Двозначні наносекунди |
| Зворотна сумісність | Усі попередні покоління PCIe/CXL |
Цільові застосування включають DLRM (моделі рекомендацій глибокого навчання), виведення LLM, робочі навантаження RAG та симуляції HPC на основі MPI.
Конкуруючі стандарти інтерконектів
| Стандарт | Власник | Призначення | Пропускна здатність | Масштаб | Часові рамки |
|---|---|---|---|---|---|
| CXL 4.0 | Консорціум | Когерентність пам'яті | 128 GT/s | Багатостійковий | Кінець 2026-2027 |
| NVLink 5 | NVIDIA | GPU-GPU | 1,8 ТБ/с | 576 GPU | Доступний |
| UALink 1.0 | Консорціум на чолі з AMD | Прискорювач-прискорювач | 200 Гб/с/лінія | 1024 пристрої | Кінець 2026 |
| Ultra Ethernet | UEC | Масштабована мережа | На основі Ethernet | 10000+ кінцевих точок | 2026+ |
| UB-Mesh | Huawei | Уніфікований інтерконект | 1+ ТБ/с/пристрій | 1М процесорів | Відкритий код |
Фреймворк прийняття рішень щодо інтерконектів
Коли використовувати який стандарт:
| Варіант використання | Найкращий вибір | Чому |
|---|---|---|
| GPU-до-GPU в межах вузла | NVLink | Найвища пропускна здатність (1,8 ТБ/с), найнижча затримка |
| GPU-до-GPU між вузлами | UALink | Альтернатива відкритого стандарту до NVLink |
| Розширення пам'яті | CXL | Когерентність кешу з CPU, об'єднання пам'яті |
| Масштабована мережа | Ultra Ethernet / InfiniBand | Розроблено для кластерів 10000+ кінцевих точок |
| Уніфікована екосистема Китаю | UB-Mesh | Уникає обмежень західної інтелектуальної власності |
Позиціонування UALink проти CXL
UALink не конкурує безпосередньо з CXL. Вони служать різним цілям:10
- UALink: Масштабування GPU-до-GPU для кластерів прискорювачів (масштабування вгору)
- CXL: Когерентність CPU-пам'яті та об'єднання пам'яті (розширення пам'яті)
- Ultra Ethernet: Масштабована мережа через дата-центри
"UALink працює разом з PCIe та CXL, але тільки UALink має ефект об'єднання виділених ресурсів. UALink розроблено для з'єднання ваших основних GPU-блоків для масштабування GPU-до-GPU," пояснив Майкл Познер, віце-президент з управління продуктами в Synopsys.11
UB-Mesh від Huawei
Альтернативний підхід Huawei спрямований на заміну всіх існуючих інтерконектів:12
- Націлюється на 1 ТБ/с+ пропускну здатність на пристрій
- ~150 нс затримка на перехід (покращення від мікросекунд до наносекунд)
- Синхронна семантика завантаження/збереження проти пакетної
- Ліцензія відкритого коду оголошена у вересні 2025
- Масштабується до 1 мільйона процесорів в архітектурі "SuperNode"
Прийняття галуззю залишається невизначеним з огляду на геополітичні занепокоєння та інерцію існуючих стандартів.
Що далі
Кінець 2026: Комутатори UALink досягають дата-центрів; продукти CXL 4.0 починають надаватися як зразки.
Кінець 2026-2027: Багатостійкові системи CXL 4.0 досягають виробничого розгортання.13
Q4 2026: Upscale AI націлюється на поставку комутатора UALink.14
Триває: Органи стандартизації координують співіснування CXL, UALink та Ultra Ethernet. UB-Mesh від Huawei шукає прийняття за межами західних ринків.
Ландшафт інтерконектів залишатиметься фрагментованим щонайменше до 2027 року. Жоден окремий стандарт не охоплює всі варіанти використання: об'єднання пам'яті (CXL), масштабування прискорювачів (UALink/NVLink) та мережевий fabric (Ultra Ethernet/InfiniBand).
Ключові висновки
Для планувальників інфраструктури: - CXL 4.0 забезпечує пули пам'яті 100+ ТБ з когерентністю кешу між стійками - Panmnesia надає зразки першого комутатора fabric CXL 3.2 з маршрутизацією на основі портів - Плануйте співіснування стандартів: CXL + UALink + Ultra Ethernet/InfiniBand - Часові рамки розгортання кінець 2026-2027 для виробничих систем CXL 4.0
Для операційних команд: - CXL підтримує зворотну сумісність з попередніми поколіннями - Маршрутизація на основі портів спрощує управління багатостійковим fabric - Двозначна наносекундна затримка для доступу до пам'яті через комутатори - Моніторте Panmnesia, XConn та інших постачальників комутаторів CXL щодо доступності
Для стратегічного планування: - Жоден окремий стандарт інтерконекту не "переможе", оскільки різні рівні служать різним цілям - Об'єднання пам'яті стає життєздатним для виведення ШІ в масштабі - UB-Mesh від Huawei створює паралельну екосистему переважно для китайського ринку - Рішення щодо обладнання у 2025-2026 вплинуть на сумісність до 2030 року
Посилання
Для розгортання інфраструктури ШІ з передовими архітектурами інтерконектів зверніться до Introl.
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." 18 листопада 2025. ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." Листопад 2025. ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." 18 листопада 2025. ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." 12 листопада 2025. ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." Серпень 2025. ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." Листопад 2025. ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." Листопад 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." 24 листопада 2025. ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." Листопад 2025. ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025. ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025. ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." Серпень 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." Листопад 2025. ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." 2 грудня 2025. ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." Листопад 2025. ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." Листопад 2025. ↩
-
CXL Consortium. "CXL 4.0 White Paper." Листопад 2025. ↩