Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

Повний посібник з розгортання CXL 4.0, що охоплює об'єднані порти, багатостійкове об'єднання пам'яті, вивантаження KV-кешу, екосистему постачальників та графік планування на 2026-2027 роки.

Blake Crosley

Mar 29, 2026 8 min read Disclaimer

Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

13 грудня 2025 року

Оновлення грудня 2025: Консорціум CXL випустив CXL 4.0 18 листопада 2025 року, подвоївши пропускну здатність до 128 GT/s через PCIe 7.0 та впровадивши об'єднані порти для з'єднань на 1,5 ТБ/с. Цей посібник охоплює планування розгортання для організацій, які готуються впровадити об'єднання пам'яті на основі CXL у своїй інфраструктурі ШІ.

Коротко

CXL 4.0 забезпечує об'єднання пам'яті в безпрецедентному масштабі, дозволяючи робочим навантаженням виведення ШІ отримувати доступ до понад 100 терабайтів спільної пам'яті з когерентністю кешу між кількома стійками. Об'єднані порти специфікації агрегують кілька фізичних з'єднань в єдині логічні підключення, забезпечуючи пропускну здатність 1,5 ТБ/с. Для планувальників інфраструктури ключові рішення включають розуміння того, коли переходити на CXL (2026-2027 для промислової експлуатації), які продукти оцінювати зараз (комутатори CXL 2.0/3.0 вже постачаються), та як CXL доповнює, а не замінює NVLink і UALink. Цей посібник надає технічну глибину та рамки прийняття рішень, необхідні для планування розгортання CXL.

Проблема стіни пам'яті

Великі мовні моделі стикаються з фундаментальним обмеженням: ємністю пам'яті GPU. Сучасні робочі навантаження виведення ШІ регулярно перевищують 80-120 ГБ на GPU, а кеш ключів-значень (KV) зростає з довжиною контексту.[^1] Один запит виведення з контекстним вікном 128K може споживати десятки гігабайтів лише для зберігання KV-кешу.

Проблема загострюється в масштабі. Ваги моделей для передових LLM споживають сотні гігабайтів. Вимоги до KV-кешу зростають лінійно як з розміром пакета, так і з довжиною послідовності. VRAM GPU залишається фіксованим на рівні 80 ГБ (H100) або 192 ГБ (B200).[^2]

Традиційні рішення недостатні:

Підхід	Обмеження
Додати більше GPU	Лінійне зростання вартості, пам'ять все ще ізольована на кожному GPU
Вивантаження на NVMe	Затримка ~100 мкс, у 100 разів повільніше за DRAM
Спільний доступ на основі RDMA	Все ще затримка 10-20 мкс, складна мережа
Більший обсяг пам'яті GPU	Обмежена пропозиція, дорого

CXL змінює це рівняння, забезпечуючи об'єднання пам'яті із затримкою, подібною до DRAM (200-500 нс), по всьому центру обробки даних.[^3]

Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

CXL швидко розвинувся з моменту свого представлення в 2019 році. Кожне покоління розширювало можливості:

Покоління	Реліз	Базова версія PCIe	Швидкість	Ключове вдосконалення
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Базове когерентне підключення пам'яті
CXL 2.0	2022	PCIe 5.0	32 GT/s	Комутація, об'єднання пам'яті, багатопристрійність
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Підтримка фабрики, peer-to-peer, 4096 вузлів
CXL 4.0	листопад 2025	PCIe 7.0	128 GT/s	Об'єднані порти, багатостійковість, покращений RAS

CXL 2.0 представив фундаментальну концепцію об'єднання пам'яті. Кілька пристроїв пам'яті Type 3 підключаються до комутатора, формуючи спільний пул, з якого комутатор динамічно розподіляє ресурси різним хостам.[^4] Це дозволяє підвищити використання пам'яті з типових 50-60% до 85%+ по всьому кластеру.

CXL 3.0 додав можливості фабрики, що підтримують багаторівневу комутацію та до 4096 вузлів з маршрутизацією на основі портів (PBR).[^5] Перехід на 256-байтові FLIT та 64 GT/s PCIe 6.0 подвоїв доступну пропускну здатність.

CXL 4.0 знову подвоює пропускну здатність, одночасно впроваджуючи функції, критичні для багатостійкових розгортань ШІ.

Архітектура об'єднаних портів

Найважливіша функція CXL 4.0 для високопродуктивних обчислень: об'єднані порти агрегують кілька фізичних портів пристроїв CXL в єдину логічну сутність.[^6]

Як працюють об'єднані порти:

Хост і пристрій Type 1/2 об'єднують кілька фізичних портів
Системне програмне забезпечення бачить один пристрій, незважаючи на кілька фізичних з'єднань
Пропускна здатність агрегується по всіх об'єднаних портах
Оптимізовано для режиму 256-байтових FLIT, усуваючи застарілі накладні витрати

Розрахунки пропускної здатності:

Конфігурація	Напрямок	Пропускна здатність
Один порт x16 @ 128 GT/s	Односпрямована	256 ГБ/с
Один порт x16 @ 128 GT/s	Двоспрямована	512 ГБ/с
3 об'єднаних порти x16 @ 128 GT/s	Односпрямована	768 ГБ/с
3 об'єднаних порти x16 @ 128 GT/s	Двоспрямована	1536 ГБ/с

Для порівняння, пам'ять HBM3e на H200 забезпечує пропускну здатність 4,8 ТБ/с.[^7] Об'єднане з'єднання CXL 4.0 на 1,5 ТБ/с становить приблизно 30% цієї пропускної здатності — достатньо для багатьох випадків використання розширення пам'яті, де ємність важливіша за пікову пропускну здатність.

Основа PCIe 7.0

CXL 4.0 базується на вдосконаленнях фізичного рівня PCIe 7.0:[^8]

Швидкість передачі 128 GT/s: вдвічі більше за 64 GT/s PCIe 6.0
Сигналізація PAM4: та сама схема кодування, що й у PCIe 6.0
Покращений FEC: пряме виправлення помилок для цілісності сигналу
Оптична підтримка: забезпечує з'єднання більшої дальності

Специфікація зберігає формат 256-байтових FLIT з CXL 3.x, додаючи оптимізований за затримкою варіант для чутливих до часу операцій.[^9]

Можливості багатостійкової фабрики

CXL 4.0 розширює охоплення через два механізми:

Підтримка чотирьох ретаймерів: попередні покоління дозволяли два ретаймери. Чотири ретаймери забезпечують довші фізичні з'єднання, що охоплюють кілька стійок без погіршення сигналу.[^10]

Нативна ширина x2: раніше це був режим деградації. Тепер канали x2 працюють на повній продуктивності. Це дозволяє конфігурації з вищим розгалуженням, де багато з'єднань з нижчою пропускною здатністю обслуговують більше кінцевих точок.[^11]

Ці функції в поєднанні забезпечують «багатостійкове об'єднання пам'яті» — можливість, яку Консорціум CXL явно планує для промислового розгортання наприкінці 2026-2027 років.[^12]

Варіанти використання CXL для інфраструктури ШІ

Вивантаження KV-кешу для виведення LLM

Найвпливовіший варіант використання в найближчій перспективі: вивантаження KV-кешу з VRAM GPU до пам'яті, підключеної через CXL.

Проблема: Виведення LLM з довгими контекстами генерує масивні KV-кеші. Модель з 70 мільярдами параметрів з контекстом 128K та розміром пакета 32 може вимагати понад 150 ГБ лише для KV-кешу.[^13] Це перевищує VRAM H100, змушуючи дорого зменшувати розмір пакета або використовувати кілька GPU.

Рішення CXL: Зберігати KV-кеш в об'єднаній пам'яті CXL, тримаючи гарячі шари в VRAM GPU. XConn та MemVerge продемонстрували це на SC25 та OCP 2025:[^14]

Два GPU H100 (по 80 ГБ кожен), що виконують OPT-6.7B
KV-кеш вивантажено до спільного пулу пам'яті CXL
Прискорення у 3,8 рази порівняно з 200G RDMA
Прискорення у 6,5 рази порівняно з 100G RDMA
Покращення більш ніж у 5 разів порівняно з KV-кешем на SSD

Академічні дослідження підтверджують цю можливість. PNM-KV (Processing-Near-Memory для KV-кешу) досягає до 21,9-кратного покращення пропускної здатності шляхом вивантаження вибору сторінок токенів на прискорювачі всередині пам'яті CXL.[^15]

Розширення пам'яті для навчання

Робочі навантаження навчання виграють від розширеної ємності пам'яті для:

Більших розмірів пакетів: більше зразків за ітерацію без накопичення градієнтів
Зменшення контрольних точок активації: зберігання більшої кількості активацій у пам'яті замість перерахунку
Стану оптимізатора: оптимізатор Adam вимагає 2x параметрів для моменту/дисперсії

Розширення пам'яті CXL дозволяє конфігураціям навчання, які раніше вимагали багатовузлового розподілу, працювати на одиночних вузлах, зменшуючи накладні витрати на комунікацію.

Наукові та HPC робочі навантаження

Проект Crete від PNNL використовує пули CXL для високопропускного спільного використання пам'яті між обчислювальними вузлами в наукових симуляціях.[^16] Варіанти використання включають:

Молекулярну динаміку з великими списками сусідів
Графову аналітику на наборах даних з трильйонами ребер
Бази даних в пам'яті, що перевищують ємність одного сервера

Ландшафт інтерконектів

CXL проти NVLink проти UALink

Розуміння місця CXL вимагає усвідомлення того, що ці технології служать різним цілям:

Стандарт	Основна мета	Найкраще для
CXL	Когерентність пам'яті + об'єднання	Розширення пам'яті CPU, спільні пули пам'яті
NVLink	Масштабування GPU-до-GPU	Комунікація GPU всередині вузла
UALink	Інтерконект прискорювачів	Відкрита альтернатива NVLink
Ultra Ethernet	Масштабована мережа	Багатостійкові конфігурації, 10000+ кінцевих точок

CXL працює на PCIe SerDes: нижча частота помилок, нижча затримка, але нижча пропускна здатність, ніж SerDes Ethernet-стилю NVLink/UALink.[^17] NVLink 5 забезпечує 1,8 ТБ/с на GPU — значно перевищуючи 512 ГБ/с CXL 4.0 на порт x16.[^18]

Ці технології доповнюють одна одну, а не конкурують:

Всередині вузла GPU: NVLink з'єднує GPU
Між вузлами: UALink або InfiniBand/Ethernet
Розширення пам'яті: CXL додає ємність до CPU та прискорювачів
Пули пам'яті на рівні фабрики: комутатори CXL забезпечують спільний доступ між хостами

Panmnesia пропонує архітектури «CXL-over-XLink», що інтегрують усі три технології, повідомляючи про 5,3-кратне прискорення навчання ШІ та 6-кратне зменшення затримки виведення порівняно з базовими лініями PCIe/RDMA.[^19]

Рамка прийняття рішень: коли що використовувати

Сценарій	Рекомендований інтерконект	Обґрунтування
Навчання на кількох GPU всередині сервера	NVLink	Найвища пропускна здатність, найнижча затримка
Pod виведення на кількох GPU (не NVIDIA)	UALink	Відкритий стандарт, висока пропускна здатність
Розширення пам'яті за межі VRAM	CXL	Когерентність кешу, затримка рівня DRAM
Багатостійковий кластер GPU	InfiniBand або Ultra Ethernet	Спроектовано для масштабування
Спільний пул пам'яті між серверами	Комутатори CXL	Об'єднання пам'яті з когерентністю
Китай/ринки з обмеженнями	Розгляньте UB-Mesh	Уникає залежності від західної ІВ

Екосистема CXL: постачальники та продукти

Розширювачі пам'яті

Усі три основні виробники DRAM постачають розширювачі пам'яті CXL:

Постачальник	Продукт	Ємність	Інтерфейс	Статус
Samsung	CMM-D	256 ГБ	CXL 2.0	Масове виробництво 2025[^20]
SK Hynix	CMM-DDR5	128 ГБ	CXL 2.0	Масове виробництво кінець 2024[^21]
Micron	CZ120	256 ГБ	CXL 2.0	Семплінг[^22]
SK Hynix	CMS	512 ГБ	CXL (з можливістю обчислень)	Анонсовано[^23]

CMS (Computational Memory Solution) від SK Hynix додає обчислювальні можливості безпосередньо в модуль пам'яті — рання реалізація processing-near-memory для CXL.

Постачальники комутаторів

Комутатори CXL забезпечують об'єднання пам'яті між кількома хостами:

Постачальник	Продукт	Покоління	Статус	Ключова особливість
XConn	XC50256	CXL 2.0	Постачається	256-лінійний комутатор, перший на ринку[^24]
XConn	Apollo	CXL 2.0	Постачається	Демонстрації об'єднання пам'яті на SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Семплінг листопад 2025	Перша реалізація PBR[^26]
Astera Labs	Leo	CXL 2.0	Постачається	Інтелектуальний контролер пам'яті[^27]
Microchip	SMC 2000	CXL 2.0	Постачається	Контролер розширення пам'яті[^28]

Комутатор фабрики CXL 3.2 від Panmnesia представляє покоління наступного рівня: перший кремній, що реалізує маршрутизацію на основі портів для справжніх фабричних архітектур з до 4096 вузлів.[^29]

Постачальники контролерів

Контролери пам'яті CXL перекладають між протоколом CXL та DRAM:

Постачальник	Роль	Ключові продукти
Marvell	Контролер	Контролери Structera CXL[^30]
Montage	Контролер	Чіпи буфера пам'яті CXL
Astera Labs	Контролер	Інтелектуальний контролер пам'яті Leo
Microchip	Контролер	Серія SMC 2000

Structera від Marvell завершив тестування сумісності з усіма трьома основними постачальниками пам'яті (Samsung, Micron, SK Hynix) на платформах як Intel, так і AMD.[^31]

Посібник з планування розгортання

Графік

Період	Покоління CXL	Очікувані можливості	Рекомендація
Зараз-Q2 2026	CXL 2.0	Розширення пам'яті, базове об'єднання	Виробнича оцінка
Q3 2026-Q4 2026	CXL 3.0/3.1	Фабрика, peer-to-peer, 4K вузлів	Раннє впровадження для ШІ
2027+	CXL 4.0	Багатостійкове об'єднання, 1,5 ТБ/с	Планування починається зараз

ABI Research очікує рішень CXL 3.0/3.1 з достатньою програмною підтримкою для комерційного впровадження до 2027 року.[^32]

Що оцінювати зараз

Негайно (2025): 1. Тестуйте розширювачі пам'яті CXL 2.0 на існуючих серверах Intel Sapphire Rapids або AMD EPYC Genoa 2. Оцінюйте комутатори XConn або Astera Labs для об'єднання пам

[Вміст скорочено для перекладу]

Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

Коротко

Проблема стіни пам'яті

Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

Архітектура об'єднаних портів

Основа PCIe 7.0

Можливості багатостійкової фабрики

Варіанти використання CXL для інфраструктури ШІ

Вивантаження KV-кешу для виведення LLM

Розширення пам'яті для навчання

Наукові та HPC робочі навантаження

Ландшафт інтерконектів

CXL проти NVLink проти UALink

Рамка прийняття рішень: коли що використовувати

Екосистема CXL: постачальники та продукти

Розширювачі пам'яті

Постачальники комутаторів

Постачальники контролерів

Посібник з планування розгортання

Графік

Що оцінювати зараз

You Might Also Like

Бум AI-інфраструктури в Сінгапурі на $27 млрд: можливості дл...

Малайзія та Таїланд: нові центри ШІ-дата-центрів у Південно-...

Резервне копіювання та відновлення для AI: Захист навчальних...

Запросити пропозицію_

Запит отримано_