Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

Повний посібник з розгортання CXL 4.0, що охоплює об'єднані порти, багатостійкове об'єднання пам'яті, вивантаження KV-кешу, екосистему постачальників та графік планування на 2026-2027 роки.

Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

Посібник з планування інфраструктури CXL 4.0: об'єднання пам'яті для ШІ у великому масштабі

13 грудня 2025 року

Оновлення грудня 2025: Консорціум CXL випустив CXL 4.0 18 листопада 2025 року, подвоївши пропускну здатність до 128 GT/s через PCIe 7.0 та впровадивши об'єднані порти для з'єднань на 1,5 ТБ/с. Цей посібник охоплює планування розгортання для організацій, які готуються впровадити об'єднання пам'яті на основі CXL у своїй інфраструктурі ШІ.


Коротко

CXL 4.0 забезпечує об'єднання пам'яті в безпрецедентному масштабі, дозволяючи робочим навантаженням виведення ШІ отримувати доступ до понад 100 терабайтів спільної пам'яті з когерентністю кешу між кількома стійками. Об'єднані порти специфікації агрегують кілька фізичних з'єднань в єдині логічні підключення, забезпечуючи пропускну здатність 1,5 ТБ/с. Для планувальників інфраструктури ключові рішення включають розуміння того, коли переходити на CXL (2026-2027 для промислової експлуатації), які продукти оцінювати зараз (комутатори CXL 2.0/3.0 вже постачаються), та як CXL доповнює, а не замінює NVLink і UALink. Цей посібник надає технічну глибину та рамки прийняття рішень, необхідні для планування розгортання CXL.


Проблема стіни пам'яті

Великі мовні моделі стикаються з фундаментальним обмеженням: ємністю пам'яті GPU. Сучасні робочі навантаження виведення ШІ регулярно перевищують 80-120 ГБ на GPU, а кеш ключів-значень (KV) зростає з довжиною контексту.[^1] Один запит виведення з контекстним вікном 128K може споживати десятки гігабайтів лише для зберігання KV-кешу.

Проблема загострюється в масштабі. Ваги моделей для передових LLM споживають сотні гігабайтів. Вимоги до KV-кешу зростають лінійно як з розміром пакета, так і з довжиною послідовності. VRAM GPU залишається фіксованим на рівні 80 ГБ (H100) або 192 ГБ (B200).[^2]

Традиційні рішення недостатні:

Підхід Обмеження
Додати більше GPU Лінійне зростання вартості, пам'ять все ще ізольована на кожному GPU
Вивантаження на NVMe Затримка ~100 мкс, у 100 разів повільніше за DRAM
Спільний доступ на основі RDMA Все ще затримка 10-20 мкс, складна мережа
Більший обсяг пам'яті GPU Обмежена пропозиція, дорого

CXL змінює це рівняння, забезпечуючи об'єднання пам'яті із затримкою, подібною до DRAM (200-500 нс), по всьому центру обробки даних.[^3]


Технічний огляд CXL 4.0

Еволюція від CXL 1.0 до 4.0

CXL швидко розвинувся з моменту свого представлення в 2019 році. Кожне покоління розширювало можливості:

Покоління Реліз Базова версія PCIe Швидкість Ключове вдосконалення
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Базове когерентне підключення пам'яті
CXL 2.0 2022 PCIe 5.0 32 GT/s Комутація, об'єднання пам'яті, багатопристрійність
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Підтримка фабрики, peer-to-peer, 4096 вузлів
CXL 4.0 листопад 2025 PCIe 7.0 128 GT/s Об'єднані порти, багатостійковість, покращений RAS

CXL 2.0 представив фундаментальну концепцію об'єднання пам'яті. Кілька пристроїв пам'яті Type 3 підключаються до комутатора, формуючи спільний пул, з якого комутатор динамічно розподіляє ресурси різним хостам.[^4] Це дозволяє підвищити використання пам'яті з типових 50-60% до 85%+ по всьому кластеру.

CXL 3.0 додав можливості фабрики, що підтримують багаторівневу комутацію та до 4096 вузлів з маршрутизацією на основі портів (PBR).[^5] Перехід на 256-байтові FLIT та 64 GT/s PCIe 6.0 подвоїв доступну пропускну здатність.

CXL 4.0 знову подвоює пропускну здатність, одночасно впроваджуючи функції, критичні для багатостійкових розгортань ШІ.

Архітектура об'єднаних портів

Найважливіша функція CXL 4.0 для високопродуктивних обчислень: об'єднані порти агрегують кілька фізичних портів пристроїв CXL в єдину логічну сутність.[^6]

Як працюють об'єднані порти:

  1. Хост і пристрій Type 1/2 об'єднують кілька фізичних портів
  2. Системне програмне забезпечення бачить один пристрій, незважаючи на кілька фізичних з'єднань
  3. Пропускна здатність агрегується по всіх об'єднаних портах
  4. Оптимізовано для режиму 256-байтових FLIT, усуваючи застарілі накладні витрати

Розрахунки пропускної здатності:

Конфігурація Напрямок Пропускна здатність
Один порт x16 @ 128 GT/s Односпрямована 256 ГБ/с
Один порт x16 @ 128 GT/s Двоспрямована 512 ГБ/с
3 об'єднаних порти x16 @ 128 GT/s Односпрямована 768 ГБ/с
3 об'єднаних порти x16 @ 128 GT/s Двоспрямована 1536 ГБ/с

Для порівняння, пам'ять HBM3e на H200 забезпечує пропускну здатність 4,8 ТБ/с.[^7] Об'єднане з'єднання CXL 4.0 на 1,5 ТБ/с становить приблизно 30% цієї пропускної здатності — достатньо для багатьох випадків використання розширення пам'яті, де ємність важливіша за пікову пропускну здатність.

Основа PCIe 7.0

CXL 4.0 базується на вдосконаленнях фізичного рівня PCIe 7.0:[^8]

  • Швидкість передачі 128 GT/s: вдвічі більше за 64 GT/s PCIe 6.0
  • Сигналізація PAM4: та сама схема кодування, що й у PCIe 6.0
  • Покращений FEC: пряме виправлення помилок для цілісності сигналу
  • Оптична підтримка: забезпечує з'єднання більшої дальності

Специфікація зберігає формат 256-байтових FLIT з CXL 3.x, додаючи оптимізований за затримкою варіант для чутливих до часу операцій.[^9]

Можливості багатостійкової фабрики

CXL 4.0 розширює охоплення через два механізми:

Підтримка чотирьох ретаймерів: попередні покоління дозволяли два ретаймери. Чотири ретаймери забезпечують довші фізичні з'єднання, що охоплюють кілька стійок без погіршення сигналу.[^10]

Нативна ширина x2: раніше це був режим деградації. Тепер канали x2 працюють на повній продуктивності. Це дозволяє конфігурації з вищим розгалуженням, де багато з'єднань з нижчою пропускною здатністю обслуговують більше кінцевих точок.[^11]

Ці функції в поєднанні забезпечують «багатостійкове об'єднання пам'яті» — можливість, яку Консорціум CXL явно планує для промислового розгортання наприкінці 2026-2027 років.[^12]


Варіанти використання CXL для інфраструктури ШІ

Вивантаження KV-кешу для виведення LLM

Найвпливовіший варіант використання в найближчій перспективі: вивантаження KV-кешу з VRAM GPU до пам'яті, підключеної через CXL.

Проблема: Виведення LLM з довгими контекстами генерує масивні KV-кеші. Модель з 70 мільярдами параметрів з контекстом 128K та розміром пакета 32 може вимагати понад 150 ГБ лише для KV-кешу.[^13] Це перевищує VRAM H100, змушуючи дорого зменшувати розмір пакета або використовувати кілька GPU.

Рішення CXL: Зберігати KV-кеш в об'єднаній пам'яті CXL, тримаючи гарячі шари в VRAM GPU. XConn та MemVerge продемонстрували це на SC25 та OCP 2025:[^14]

  • Два GPU H100 (по 80 ГБ кожен), що виконують OPT-6.7B
  • KV-кеш вивантажено до спільного пулу пам'яті CXL
  • Прискорення у 3,8 рази порівняно з 200G RDMA
  • Прискорення у 6,5 рази порівняно з 100G RDMA
  • Покращення більш ніж у 5 разів порівняно з KV-кешем на SSD

Академічні дослідження підтверджують цю можливість. PNM-KV (Processing-Near-Memory для KV-кешу) досягає до 21,9-кратного покращення пропускної здатності шляхом вивантаження вибору сторінок токенів на прискорювачі всередині пам'яті CXL.[^15]

Розширення пам'яті для навчання

Робочі навантаження навчання виграють від розширеної ємності пам'яті для:

  • Більших розмірів пакетів: більше зразків за ітерацію без накопичення градієнтів
  • Зменшення контрольних точок активації: зберігання більшої кількості активацій у пам'яті замість перерахунку
  • Стану оптимізатора: оптимізатор Adam вимагає 2x параметрів для моменту/дисперсії

Розширення пам'яті CXL дозволяє конфігураціям навчання, які раніше вимагали багатовузлового розподілу, працювати на одиночних вузлах, зменшуючи накладні витрати на комунікацію.

Наукові та HPC робочі навантаження

Проект Crete від PNNL використовує пули CXL для високопропускного спільного використання пам'яті між обчислювальними вузлами в наукових симуляціях.[^16] Варіанти використання включають:

  • Молекулярну динаміку з великими списками сусідів
  • Графову аналітику на наборах даних з трильйонами ребер
  • Бази даних в пам'яті, що перевищують ємність одного сервера

Ландшафт інтерконектів

Розуміння місця CXL вимагає усвідомлення того, що ці технології служать різним цілям:

Стандарт Основна мета Найкраще для
CXL Когерентність пам'яті + об'єднання Розширення пам'яті CPU, спільні пули пам'яті
NVLink Масштабування GPU-до-GPU Комунікація GPU всередині вузла
UALink Інтерконект прискорювачів Відкрита альтернатива NVLink
Ultra Ethernet Масштабована мережа Багатостійкові конфігурації, 10000+ кінцевих точок

CXL працює на PCIe SerDes: нижча частота помилок, нижча затримка, але нижча пропускна здатність, ніж SerDes Ethernet-стилю NVLink/UALink.[^17] NVLink 5 забезпечує 1,8 ТБ/с на GPU — значно перевищуючи 512 ГБ/с CXL 4.0 на порт x16.[^18]

Ці технології доповнюють одна одну, а не конкурують:

  • Всередині вузла GPU: NVLink з'єднує GPU
  • Між вузлами: UALink або InfiniBand/Ethernet
  • Розширення пам'яті: CXL додає ємність до CPU та прискорювачів
  • Пули пам'яті на рівні фабрики: комутатори CXL забезпечують спільний доступ між хостами

Panmnesia пропонує архітектури «CXL-over-XLink», що інтегрують усі три технології, повідомляючи про 5,3-кратне прискорення навчання ШІ та 6-кратне зменшення затримки виведення порівняно з базовими лініями PCIe/RDMA.[^19]

Рамка прийняття рішень: коли що використовувати

Сценарій Рекомендований інтерконект Обґрунтування
Навчання на кількох GPU всередині сервера NVLink Найвища пропускна здатність, найнижча затримка
Pod виведення на кількох GPU (не NVIDIA) UALink Відкритий стандарт, висока пропускна здатність
Розширення пам'яті за межі VRAM CXL Когерентність кешу, затримка рівня DRAM
Багатостійковий кластер GPU InfiniBand або Ultra Ethernet Спроектовано для масштабування
Спільний пул пам'яті між серверами Комутатори CXL Об'єднання пам'яті з когерентністю
Китай/ринки з обмеженнями Розгляньте UB-Mesh Уникає залежності від західної ІВ

Екосистема CXL: постачальники та продукти

Розширювачі пам'яті

Усі три основні виробники DRAM постачають розширювачі пам'яті CXL:

Постачальник Продукт Ємність Інтерфейс Статус
Samsung CMM-D 256 ГБ CXL 2.0 Масове виробництво 2025[^20]
SK Hynix CMM-DDR5 128 ГБ CXL 2.0 Масове виробництво кінець 2024[^21]
Micron CZ120 256 ГБ CXL 2.0 Семплінг[^22]
SK Hynix CMS 512 ГБ CXL (з можливістю обчислень) Анонсовано[^23]

CMS (Computational Memory Solution) від SK Hynix додає обчислювальні можливості безпосередньо в модуль пам'яті — рання реалізація processing-near-memory для CXL.

Постачальники комутаторів

Комутатори CXL забезпечують об'єднання пам'яті між кількома хостами:

Постачальник Продукт Покоління Статус Ключова особливість
XConn XC50256 CXL 2.0 Постачається 256-лінійний комутатор, перший на ринку[^24]
XConn Apollo CXL 2.0 Постачається Демонстрації об'єднання пам'яті на SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Семплінг листопад 2025 Перша реалізація PBR[^26]
Astera Labs Leo CXL 2.0 Постачається Інтелектуальний контролер пам'яті[^27]
Microchip SMC 2000 CXL 2.0 Постачається Контролер розширення пам'яті[^28]

Комутатор фабрики CXL 3.2 від Panmnesia представляє покоління наступного рівня: перший кремній, що реалізує маршрутизацію на основі портів для справжніх фабричних архітектур з до 4096 вузлів.[^29]

Постачальники контролерів

Контролери пам'яті CXL перекладають між протоколом CXL та DRAM:

Постачальник Роль Ключові продукти
Marvell Контролер Контролери Structera CXL[^30]
Montage Контролер Чіпи буфера пам'яті CXL
Astera Labs Контролер Інтелектуальний контролер пам'яті Leo
Microchip Контролер Серія SMC 2000

Structera від Marvell завершив тестування сумісності з усіма трьома основними постачальниками пам'яті (Samsung, Micron, SK Hynix) на платформах як Intel, так і AMD.[^31]


Посібник з планування розгортання

Графік

Період Покоління CXL Очікувані можливості Рекомендація
Зараз-Q2 2026 CXL 2.0 Розширення пам'яті, базове об'єднання Виробнича оцінка
Q3 2026-Q4 2026 CXL 3.0/3.1 Фабрика, peer-to-peer, 4K вузлів Раннє впровадження для ШІ
2027+ CXL 4.0 Багатостійкове об'єднання, 1,5 ТБ/с Планування починається зараз

ABI Research очікує рішень CXL 3.0/3.1 з достатньою програмною підтримкою для комерційного впровадження до 2027 року.[^32]

Що оцінювати зараз

Негайно (2025): 1. Тестуйте розширювачі пам'яті CXL 2.0 на існуючих серверах Intel Sapphire Rapids або AMD EPYC Genoa 2. Оцінюйте комутатори XConn або Astera Labs для об'єднання пам

[Вміст скорочено для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ