Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

Повний посібник з впровадження CXL 4.0, що охоплює об'єднані порти, об'єднання пам'яті в багатьох стійках, розвантаження KV кешу, екосистему постачальників та планування на 2026-2027 роки.

Madison Kersh

Apr 27, 2026 8 min read Disclaimer

Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

13 грудня 2025

Оновлення грудень 2025: Консорціум CXL випустив CXL 4.0 18 листопада 2025 року, подвоївши пропускну здатність до 128 GT/s через PCIe 7.0 та представивши об'єднані порти для з'єднань 1.5 TB/s. Цей посібник охоплює планування впровадження для організацій, що готуються до впровадження об'єднання пам'яті на базі CXL у своїй AI інфраструктурі.

Коротко

CXL 4.0 дозволяє об'єднання пам'яті в безпрецедентному масштабі, дозволяючи робочим навантаженням AI inference отримувати доступ до 100+ терабайт спільної пам'яті з когерентністю кешу у кількох стійках. Об'єднані порти специфікації агрегують кілька фізичних з'єднань в одне логічне підключення, забезпечуючи пропускну здатність 1.5 TB/s. Для планувальників інфраструктури ключові рішення включають розуміння того, коли впроваджувати CXL (2026-2027 для виробництва), які продукти оцінювати зараз (перемикачі CXL 2.0/3.0 поставляються), та як CXL доповнює, а не замінює NVLink та UALink. Цей посібник надає технічну глибину та рамки прийняття рішень, необхідні для планування впровадження CXL.

Проблема стіни пам'яті

Великі мовні моделі стикаються з фундаментальним обмеженням: ємністю пам'яті GPU. Сучасні робочі навантаження AI inference регулярно перевищують 80-120 GB на GPU, і key-value (KV) кеш зростає з довжиною контексту.[^1] Один запит inference з вікном контексту 128K може споживати десятки гігабайт лише для зберігання KV кешу.

Проблема посилюється в масштабі. Ваги моделей для передових LLM споживають сотні гігабайт. Вимоги до KV кешу зростають лінійно як з розміром пакету, так і з довжиною послідовності. GPU VRAM залишається фіксованою на 80GB (H100) або 192GB (B200).[^2]

Традиційні рішення не справляються:

Підхід	Обмеження
Додати більше GPU	Лінійне зростання вартості, пам'ять все ще ізольована на GPU
Розвантаження NVMe	~100 μs затримка, у 100 разів повільніше за DRAM
Спільне використання на базі RDMA	Все ще 10-20 μs затримка, складна мережа
Більша пам'ять GPU	Обмежена поставка, дорога

CXL змінює це рівняння, дозволяючи об'єднання пам'яті з затримкою, схожою на DRAM (200-500 ns), по всьому центру обробки даних.[^3]

Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

CXL швидко дозрівав з моменту свого впровадження в 2019 році. Кожне покоління розширювало можливості:

Покоління	Випуск	Базовий PCIe	Швидкість	Ключове досягнення
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Базове когерентне підключення пам'яті
CXL 2.0	2022	PCIe 5.0	32 GT/s	Перемикання, об'єднання пам'яті, кілька пристроїв
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Підтримка fabric, peer-to-peer, 4,096 вузлів
CXL 4.0	Листопад 2025	PCIe 7.0	128 GT/s	Об'єднані порти, кілька стійок, покращений RAS

CXL 2.0 представив фундаментальну концепцію об'єднання пам'яті. Кілька пристроїв пам'яті типу 3 підключаються до перемикача, формуючи спільний пул, з якого перемикач динамічно виділяє ресурси різним хостам.[^4] Це дозволяє покращити використання пам'яті з типових 50-60% до 85%+ по кластеру.

CXL 3.0 додав можливості fabric, що підтримують багаторівневе перемикання та до 4,096 вузлів з маршрутизацією на основі портів (PBR).[^5] Перехід на 256-байтні FLIT та 64 GT/s PCIe 6.0 подвоїв доступну пропускну здатність.

CXL 4.0 знову подвоює пропускну здатність, впроваджуючи функції, критичні для впровадження AI у кількох стійках.

Архітектура об'єднаних портів

Найважливіша функція CXL 4.0 для високопродуктивних обчислень: об'єднані порти агрегують кілька фізичних портів пристрою CXL в одну логічну сутність.[^6]

Як працюють об'єднані порти:

Хост та пристрій типу 1/2 поєднують кілька фізичних портів
Системне програмне забезпечення бачить один пристрій попри кілька фізичних з'єднань
Пропускна здатність агрегується через всі об'єднані порти
Оптимізовано для режиму 256-байтних FLIT, усуваючи legacy накладні витрати

Розрахунки пропускної здатності:

Конфігурація	Напрямок	Пропускна здатність
Один порт x16 @ 128 GT/s	Односпрямований	256 GB/s
Один порт x16 @ 128 GT/s	Двоспрямований	512 GB/s
3 об'єднаних порти x16 @ 128 GT/s	Односпрямований	768 GB/s
3 об'єднаних порти x16 @ 128 GT/s	Двоспрямований	1,536 GB/s

Для контексту, пам'ять HBM3e на H200 забезпечує 4.8 TB/s пропускної здатності.[^7] Об'єднане з'єднання CXL 4.0 на 1.5 TB/s становить приблизно 30% цієї пропускної здатності—достатньо для багатьох випадків розширення пам'яті, де ємність важливіша за пікову пропускну здатність.

Основа PCIe 7.0

CXL 4.0 будується на покращеннях фізичного рівня PCIe 7.0:[^8]

Швидкість передачі 128 GT/s: Подвоєння 64 GT/s PCIe 6.0
Сигналізація PAM4: Та ж схема кодування, що і в PCIe 6.0
Покращена FEC: Корекція помилок для цілісності сигналу
Підтримка оптики: Дозволяє з'єднання на більшу відстань

Специфікація зберігає формат 256-байтних FLIT з CXL 3.x, додаючи варіант, оптимізований за затримкою, для часочутливих операцій.[^9]

Можливості fabric кількох стійок

CXL 4.0 розширює досяжність через два механізми:

Підтримка чотирьох retimer: Попередні покоління дозволяли два retimer. Чотири retimer дозволяють довші фізичні з'єднання, що охоплюють кілька стійок без деградації сигналу.[^10]

Нативна ширина x2: Раніше це був деградований режим відмови, тепер лінки x2 працюють на повній продуктивності. Це дозволяє конфігурації з вищим розгалуженням, де багато з'єднань з меншою пропускною здатністю обслуговують більше кінцевих точок.[^11]

Ці функції поєднуються, щоб дозволити "об'єднання пам'яті кількох стійок"—можливість, яку Консорціум CXL явно націлює на виробниче впровадження наприкінці 2026-2027.[^12]

Випадки використання CXL для AI інфраструктури

Розвантаження KV кешу для LLM inference

Найвпливовіший короткостроковий випадок використання: розвантаження KV кешу з GPU VRAM до пам'яті, підключеної через CXL.

Проблема: LLM inference з довгими контекстами генерує величезні KV кеші. Модель з 70B параметрами з контекстом 128K та розміром пакету 32 може вимагати 150+ GB лише для KV кешу.[^13] Це перевищує VRAM H100, змушуючи до дорогих зменшень розміру пакету або кількох GPU.

Рішення CXL: Зберігати KV кеш в об'єднаному пулі пам'яті CXL, зберігаючи гарячі шари в GPU VRAM. XConn та MemVerge продемонстрували це на SC25 та OCP 2025:[^14]

Два GPU H100 (по 80GB кожен), що працюють з OPT-6.7B
KV кеш розвантажений до спільного пулу пам'яті CXL
Прискорення в 3.8 рази проти 200G RDMA
Прискорення в 6.5 разів проти 100G RDMA
Покращення більше ніж в 5 разів проти KV кешу на базі SSD

Дослідження з академії підтверджують можливості. PNM-KV (Processing-Near-Memory для KV кешу) досягає покращення пропускної здатності до 21.9x, розвантажуючи вибір сторінок токенів на прискорювачі всередині пам'яті CXL.[^15]

Розширення пам'яті для навчання

Робочі навантаження навчання отримують користь від розширеної ємності пам'яті для:

Більших розмірів пакетів: Більше зразків на ітерацію без накопичення градієнтів
Зменшення checkpoint активацій: Зберігати більше активацій у пам'яті проти повторного обчислення
Стан оптимізатора: Оптимізатор Adam потребує 2x параметрів для momentum/variance

Розширення пам'яті CXL дозволяє конфігурації навчання, що раніше потребували розподілу на кількох вузлах, працювати на одному вузлі, зменшуючи накладні витрати на комунікацію.

Наукові та HPC робочі навантаження

Проект Crete від PNNL використовує пули CXL для високопропускного спільного використання пам'яті між обчислювальними вузлами в наукових симуляціях.[^16] Випадки використання включають:

Молекулярна динаміка з великими списками сусідів
Аналітика графів на наборах даних з трильйонами ребер
Бази даних в пам'яті, що перевищують ємність одного сервера

Ландшафт взаємозв'язків

CXL проти NVLink проти UALink

Розуміння того, де підходить CXL, вимагає визнання того, що ці технології служать різним цілям:

Стандарт	Основна ціль	Найкраще для
CXL	Когерентність пам'яті + об'єднання	Розширення CPU-пам'яті, спільні пули пам'яті
NVLink	Масштабування GPU-до-GPU	Комунікація GPU всередині вузла
UALink	Взаємозв'язок прискорювачів	Відкритий стандарт, альтернатива NVLink
Ultra Ethernet	Мережа масштабування	Кілька стійок, 10,000+ кінцевих точок

CXL працює на PCIe SerDes: нижча частота помилок, менша затримка, але менша пропускна здатність ніж SerDes в стилі Ethernet NVLink/UALink.[^17] NVLink 5 забезпечує 1.8 TB/s на GPU—значно перевищуючи 512 GB/s на порт x16 CXL 4.0.[^18]

Технології доповнюють, а не конкурують:

Всередині вузла GPU: NVLink з'єднує GPU
Між вузлами: UALink або InfiniBand/Ethernet
Розширення пам'яті: CXL додає ємність до CPU та прискорювачів
Пули пам'яті fabric: Перемикачі CXL дозволяють спільне використання між хостами

Panmnesia пропонує архітектури "CXL-over-XLink", що інтегрують всі три, повідомляючи про навчання AI в 5.3x швидше та зменшення затримки inference в 6x проти базових показників PCIe/RDMA.[^19]

Рамка прийняття рішень: Коли використовувати що

Сценарій	Рекомендований взаємозв'язок	Обґрунтування
Навчання кількох GPU всередині сервера	NVLink	Найвища пропускна здатність, найменша затримка
Под inference кількох GPU (не-NVIDIA)	UALink	Відкритий стандарт, висока пропускна здатність
Розширення пам'яті понад VRAM	CXL	Когерентність кешу, затримка як у DRAM
Кластер GPU кількох стійок	InfiniBand або Ultra Ethernet	Розроблений для масштабування
Спільний пул пам'яті між серверами	Перемикачі CXL	Об'єднання пам'яті з когерентністю
Китай/обмежені ринки	Розглянути UB-Mesh	Уникає залежностей від західної IP

Екосистема CXL: Постачальники та продукти

Розширювачі пам'яті

Три основні виробники DRAM постачають розширювачі пам'яті CXL:

Постачальник	Продукт	Ємність	Інтерфейс	Статус
Samsung	CMM-D	256 GB	CXL 2.0	Масове виробництво 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Масове виробництво кінець 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Семплування[^22]
SK Hynix	CMS	512 GB	CXL (з обчислювальними можливостями)	Оголошено[^23]

CMS (Computational Memory Solution) від SK Hynix додає обчислювальні можливості безпосередньо в модуль пам'яті—рання реалізація processing-near-memory для CXL.

Постачальники перемикачів

Перемикачі CXL дозволяють об'єднання пам'яті між кількома хостами:

Постачальник	Продукт	Покоління	Статус	Ключова особливість
XConn	XC50256	CXL 2.0	Поставляється	256-lane перемикач, перший на ринку[^24]
XConn	Apollo	CXL 2.0	Поставляється	Демонстрації об'єднання пам'яті на SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Семплування листопад 2025	Перша реалізація PBR[^26]
Astera Labs	Leo	CXL 2.0	Поставляється	Розумний контролер пам'яті[^27]
Microchip	SMC 2000	CXL 2.0	Поставляється	Контролер розширення пам'яті[^28]

Fabric Switch CXL 3.2 від Panmnesia представляє стрибок покоління: перший кремній, що реалізує маршрутизацію на основі портів для справжніх архітектур fabric з до 4,096 вузлами.[^29]

Постачальники контролерів

Контролери пам'яті CXL перекладають між протоколом CXL та DRAM:

Постачальник	Роль	Ключові продукти
Marvell	Контролер	Контролери Structera CXL[^30]
Montage	Контролер	Чіпи буферу пам'яті CXL
Astera Labs	Контролер	Розумний контролер пам'яті Leo
Microchip	Контролер	Серія SMC 2000

Structera від Marvell завершив тестування сумісності з усіма трьома основними постачальниками пам'яті (Samsung, Micron, SK Hynix) на платформах Intel та AMD.[^31]

Посібник з планування впровадження

Часова лінія

Період	Покоління CXL	Очікувана можливість	Рекомендація
Зараз-Q2 2026	CXL 2.0	Розширення пам'яті, базове об'єднання	Виробнича оцінка
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K вузлів	Раннє впровадження для AI
2027+	CXL 4.0	Об'єднання кількох стійок, 1.5 TB/s	Планування починається зараз

ABI Research очікує рішення CXL 3.0/3.1 з достатньою підтримкою програмного забезпечення для комерційного впровадження до 2027 року.[^32]

Що оцінювати зараз

Негайно (2025): 1. Тестувати розширювачі пам'яті CXL 2.0 на існуючих серверах Intel Sapphire Rapids або AMD EPYC Genoa 2. Оцінити перемикачі XConn або Astera Labs для об'єднання пам'яті

Посібник з планування інфраструктури CXL 4.0: Об'єднання пам'яті для AI у масштабі

Коротко

Проблема стіни пам'яті

Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

Архітектура об'єднаних портів

Основа PCIe 7.0

Можливості fabric кількох стійок

Випадки використання CXL для AI інфраструктури

Розвантаження KV кешу для LLM inference

Розширення пам'яті для навчання

Наукові та HPC робочі навантаження

Ландшафт взаємозв'язків

CXL проти NVLink проти UALink

Рамка прийняття рішень: Коли використовувати що

Екосистема CXL: Постачальники та продукти

Розширювачі пам'яті

Постачальники перемикачів

Постачальники контролерів

Посібник з планування впровадження

Часова лінія

Що оцінювати зараз

You Might Also Like

Планування AI робочих навантажень: Оптимізація використання ...

Операції безпеки AI інфраструктури: вимоги SOC для GPU класт...

Розбудова AI інфраструктури на $600 млрд: CapEx гіперскейлер...

Запросити пропозицію_

Запит отримано_