Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

Повний посібник з впровадження CXL 4.0, що охоплює об'єднані порти, об'єднання пам'яті в багатьох стійках, розвантаження KV кешу, екосистему постачальників та планування на 2026-2027 роки.

Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

13 грудня 2025

Оновлення грудень 2025: Консорціум CXL випустив CXL 4.0 18 листопада 2025 року, подвоївши пропускну здатність до 128 GT/s через PCIe 7.0 та представивши об'єднані порти для з'єднань 1.5 TB/s. Цей посібник охоплює планування впровадження для організацій, що готуються до впровадження об'єднання пам'яті на базі CXL у своїй AI інфраструктурі.


Коротко

CXL 4.0 дозволяє об'єднання пам'яті в безпрецедентному масштабі, дозволяючи робочим навантаженням AI inference отримувати доступ до 100+ терабайт спільної пам'яті з когерентністю кешу у кількох стійках. Об'єднані порти специфікації агрегують кілька фізичних з'єднань в одне логічне підключення, забезпечуючи пропускну здатність 1.5 TB/s. Для планувальників інфраструктури ключові рішення включають розуміння того, коли впроваджувати CXL (2026-2027 для виробництва), які продукти оцінювати зараз (перемикачі CXL 2.0/3.0 поставляються), та як CXL доповнює, а не замінює NVLink та UALink. Цей посібник надає технічну глибину та рамки прийняття рішень, необхідні для планування впровадження CXL.


Проблема стіни пам'яті

Великі мовні моделі стикаються з фундаментальним обмеженням: ємністю пам'яті GPU. Сучасні робочі навантаження AI inference регулярно перевищують 80-120 GB на GPU, і key-value (KV) кеш зростає з довжиною контексту.[^1] Один запит inference з вікном контексту 128K може споживати десятки гігабайт лише для зберігання KV кешу.

Проблема посилюється в масштабі. Ваги моделей для передових LLM споживають сотні гігабайт. Вимоги до KV кешу зростають лінійно як з розміром пакету, так і з довжиною послідовності. GPU VRAM залишається фіксованою на 80GB (H100) або 192GB (B200).[^2]

Традиційні рішення не справляються:

Підхід Обмеження
Додати більше GPU Лінійне зростання вартості, пам'ять все ще ізольована на GPU
Розвантаження NVMe ~100 μs затримка, у 100 разів повільніше за DRAM
Спільне використання на базі RDMA Все ще 10-20 μs затримка, складна мережа
Більша пам'ять GPU Обмежена поставка, дорога

CXL змінює це рівняння, дозволяючи об'єднання пам'яті з затримкою, схожою на DRAM (200-500 ns), по всьому центру обробки даних.[^3]


Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

CXL швидко дозрівав з моменту свого впровадження в 2019 році. Кожне покоління розширювало можливості:

Покоління Випуск Базовий PCIe Швидкість Ключове досягнення
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Базове когерентне підключення пам'яті
CXL 2.0 2022 PCIe 5.0 32 GT/s Перемикання, об'єднання пам'яті, кілька пристроїв
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Підтримка fabric, peer-to-peer, 4,096 вузлів
CXL 4.0 Листопад 2025 PCIe 7.0 128 GT/s Об'єднані порти, кілька стійок, покращений RAS

CXL 2.0 представив фундаментальну концепцію об'єднання пам'яті. Кілька пристроїв пам'яті типу 3 підключаються до перемикача, формуючи спільний пул, з якого перемикач динамічно виділяє ресурси різним хостам.[^4] Це дозволяє покращити використання пам'яті з типових 50-60% до 85%+ по кластеру.

CXL 3.0 додав можливості fabric, що підтримують багаторівневе перемикання та до 4,096 вузлів з маршрутизацією на основі портів (PBR).[^5] Перехід на 256-байтні FLIT та 64 GT/s PCIe 6.0 подвоїв доступну пропускну здатність.

CXL 4.0 знову подвоює пропускну здатність, впроваджуючи функції, критичні для впровадження AI у кількох стійках.

Архітектура об'єднаних портів

Найважливіша функція CXL 4.0 для високопродуктивних обчислень: об'єднані порти агрегують кілька фізичних портів пристрою CXL в одну логічну сутність.[^6]

Як працюють об'єднані порти:

  1. Хост та пристрій типу 1/2 поєднують кілька фізичних портів
  2. Системне програмне забезпечення бачить один пристрій попри кілька фізичних з'єднань
  3. Пропускна здатність агрегується через всі об'єднані порти
  4. Оптимізовано для режиму 256-байтних FLIT, усуваючи legacy накладні витрати

Розрахунки пропускної здатності:

Конфігурація Напрямок Пропускна здатність
Один порт x16 @ 128 GT/s Односпрямований 256 GB/s
Один порт x16 @ 128 GT/s Двоспрямований 512 GB/s
3 об'єднаних порти x16 @ 128 GT/s Односпрямований 768 GB/s
3 об'єднаних порти x16 @ 128 GT/s Двоспрямований 1,536 GB/s

Для контексту, пам'ять HBM3e на H200 забезпечує 4.8 TB/s пропускної здатності.[^7] Об'єднане з'єднання CXL 4.0 на 1.5 TB/s становить приблизно 30% цієї пропускної здатності—достатньо для багатьох випадків розширення пам'яті, де ємність важливіша за пікову пропускну здатність.

Основа PCIe 7.0

CXL 4.0 будується на покращеннях фізичного рівня PCIe 7.0:[^8]

  • Швидкість передачі 128 GT/s: Подвоєння 64 GT/s PCIe 6.0
  • Сигналізація PAM4: Та ж схема кодування, що і в PCIe 6.0
  • Покращена FEC: Корекція помилок для цілісності сигналу
  • Підтримка оптики: Дозволяє з'єднання на більшу відстань

Специфікація зберігає формат 256-байтних FLIT з CXL 3.x, додаючи варіант, оптимізований за затримкою, для часочутливих операцій.[^9]

Можливості fabric кількох стійок

CXL 4.0 розширює досяжність через два механізми:

Підтримка чотирьох retimer: Попередні покоління дозволяли два retimer. Чотири retimer дозволяють довші фізичні з'єднання, що охоплюють кілька стійок без деградації сигналу.[^10]

Нативна ширина x2: Раніше це був деградований режим відмови, тепер лінки x2 працюють на повній продуктивності. Це дозволяє конфігурації з вищим розгалуженням, де багато з'єднань з меншою пропускною здатністю обслуговують більше кінцевих точок.[^11]

Ці функції поєднуються, щоб дозволити "об'єднання пам'яті кількох стійок"—можливість, яку Консорціум CXL явно націлює на виробниче впровадження наприкінці 2026-2027.[^12]


Випадки використання CXL для AI інфраструктури

Розвантаження KV кешу для LLM inference

Найвпливовіший короткостроковий випадок використання: розвантаження KV кешу з GPU VRAM до пам'яті, підключеної через CXL.

Проблема: LLM inference з довгими контекстами генерує величезні KV кеші. Модель з 70B параметрами з контекстом 128K та розміром пакету 32 може вимагати 150+ GB лише для KV кешу.[^13] Це перевищує VRAM H100, змушуючи до дорогих зменшень розміру пакету або кількох GPU.

Рішення CXL: Зберігати KV кеш в об'єднаному пулі пам'яті CXL, зберігаючи гарячі шари в GPU VRAM. XConn та MemVerge продемонстрували це на SC25 та OCP 2025:[^14]

  • Два GPU H100 (по 80GB кожен), що працюють з OPT-6.7B
  • KV кеш розвантажений до спільного пулу пам'яті CXL
  • Прискорення в 3.8 рази проти 200G RDMA
  • Прискорення в 6.5 разів проти 100G RDMA
  • Покращення більше ніж в 5 разів проти KV кешу на базі SSD

Дослідження з академії підтверджують можливості. PNM-KV (Processing-Near-Memory для KV кешу) досягає покращення пропускної здатності до 21.9x, розвантажуючи вибір сторінок токенів на прискорювачі всередині пам'яті CXL.[^15]

Розширення пам'яті для навчання

Робочі навантаження навчання отримують користь від розширеної ємності пам'яті для:

  • Більших розмірів пакетів: Більше зразків на ітерацію без накопичення градієнтів
  • Зменшення checkpoint активацій: Зберігати більше активацій у пам'яті проти повторного обчислення
  • Стан оптимізатора: Оптимізатор Adam потребує 2x параметрів для momentum/variance

Розширення пам'яті CXL дозволяє конфігурації навчання, що раніше потребували розподілу на кількох вузлах, працювати на одному вузлі, зменшуючи накладні витрати на комунікацію.

Наукові та HPC робочі навантаження

Проект Crete від PNNL використовує пули CXL для високопропускного спільного використання пам'яті між обчислювальними вузлами в наукових симуляціях.[^16] Випадки використання включають:

  • Молекулярна динаміка з великими списками сусідів
  • Аналітика графів на наборах даних з трильйонами ребер
  • Бази даних в пам'яті, що перевищують ємність одного сервера

Ландшафт взаємозв'язків

Розуміння того, де підходить CXL, вимагає визнання того, що ці технології служать різним цілям:

Стандарт Основна ціль Найкраще для
CXL Когерентність пам'яті + об'єднання Розширення CPU-пам'яті, спільні пули пам'яті
NVLink Масштабування GPU-до-GPU Комунікація GPU всередині вузла
UALink Взаємозв'язок прискорювачів Відкритий стандарт, альтернатива NVLink
Ultra Ethernet Мережа масштабування Кілька стійок, 10,000+ кінцевих точок

CXL працює на PCIe SerDes: нижча частота помилок, менша затримка, але менша пропускна здатність ніж SerDes в стилі Ethernet NVLink/UALink.[^17] NVLink 5 забезпечує 1.8 TB/s на GPU—значно перевищуючи 512 GB/s на порт x16 CXL 4.0.[^18]

Технології доповнюють, а не конкурують:

  • Всередині вузла GPU: NVLink з'єднує GPU
  • Між вузлами: UALink або InfiniBand/Ethernet
  • Розширення пам'яті: CXL додає ємність до CPU та прискорювачів
  • Пули пам'яті fabric: Перемикачі CXL дозволяють спільне використання між хостами

Panmnesia пропонує архітектури "CXL-over-XLink", що інтегрують всі три, повідомляючи про навчання AI в 5.3x швидше та зменшення затримки inference в 6x проти базових показників PCIe/RDMA.[^19]

Рамка прийняття рішень: Коли використовувати що

Сценарій Рекомендований взаємозв'язок Обґрунтування
Навчання кількох GPU всередині сервера NVLink Найвища пропускна здатність, найменша затримка
Под inference кількох GPU (не-NVIDIA) UALink Відкритий стандарт, висока пропускна здатність
Розширення пам'яті понад VRAM CXL Когерентність кешу, затримка як у DRAM
Кластер GPU кількох стійок InfiniBand або Ultra Ethernet Розроблений для масштабування
Спільний пул пам'яті між серверами Перемикачі CXL Об'єднання пам'яті з когерентністю
Китай/обмежені ринки Розглянути UB-Mesh Уникає залежностей від західної IP

Екосистема CXL: Постачальники та продукти

Розширювачі пам'яті

Три основні виробники DRAM постачають розширювачі пам'яті CXL:

Постачальник Продукт Ємність Інтерфейс Статус
Samsung CMM-D 256 GB CXL 2.0 Масове виробництво 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Масове виробництво кінець 2024[^21]
Micron CZ120 256 GB CXL 2.0 Семплування[^22]
SK Hynix CMS 512 GB CXL (з обчислювальними можливостями) Оголошено[^23]

CMS (Computational Memory Solution) від SK Hynix додає обчислювальні можливості безпосередньо в модуль пам'яті—рання реалізація processing-near-memory для CXL.

Постачальники перемикачів

Перемикачі CXL дозволяють об'єднання пам'яті між кількома хостами:

Постачальник Продукт Покоління Статус Ключова особливість
XConn XC50256 CXL 2.0 Поставляється 256-lane перемикач, перший на ринку[^24]
XConn Apollo CXL 2.0 Поставляється Демонстрації об'єднання пам'яті на SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Семплування листопад 2025 Перша реалізація PBR[^26]
Astera Labs Leo CXL 2.0 Поставляється Розумний контролер пам'яті[^27]
Microchip SMC 2000 CXL 2.0 Поставляється Контролер розширення пам'яті[^28]

Fabric Switch CXL 3.2 від Panmnesia представляє стрибок покоління: перший кремній, що реалізує маршрутизацію на основі портів для справжніх архітектур fabric з до 4,096 вузлами.[^29]

Постачальники контролерів

Контролери пам'яті CXL перекладають між протоколом CXL та DRAM:

Постачальник Роль Ключові продукти
Marvell Контролер Контролери Structera CXL[^30]
Montage Контролер Чіпи буферу пам'яті CXL
Astera Labs Контролер Розумний контролер пам'яті Leo
Microchip Контролер Серія SMC 2000

Structera від Marvell завершив тестування сумісності з усіма трьома основними постачальниками пам'яті (Samsung, Micron, SK Hynix) на платформах Intel та AMD.[^31]


Посібник з планування впровадження

Часова лінія

Період Покоління CXL Очікувана можливість Рекомендація
Зараз-Q2 2026 CXL 2.0 Розширення пам'яті, базове об'єднання Виробнича оцінка
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K вузлів Раннє впровадження для AI
2027+ CXL 4.0 Об'єднання кількох стійок, 1.5 TB/s Планування починається зараз

ABI Research очікує рішення CXL 3.0/3.1 з достатньою підтримкою програмного забезпечення для комерційного впровадження до 2027 року.[^32]

Що оцінювати зараз

Негайно (2025): 1. Тестувати розширювачі пам'яті CXL 2.0 на існуючих серверах Intel Sapphire Rapids або AMD EPYC Genoa 2. Оцінити перемикачі XConn або Astera Labs для об'єднання пам'яті

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ