Розширення пам'яті CXL: Подолання бар'єру пам'яті в AI-центрах обробки даних

Microsoft запускає перші хмарні інстанси з підтримкою CXL у листопаді 2025 року. Специфікація CXL 4.0 подвоює пропускну здатність до 128GT/s. Прогнозований обсяг ринку CXL — $15 млрд до 2028 року ($12+ млрд — DRAM за CXL). KV-кеш з підтримкою CXL забезпечує 21.9x покращення пропускної здатності, 60x нижче енергоспоживання на токен. Комерційні пули пам'яті CXL досягнуть 100TiB у 2025 році.

Розширення пам'яті CXL: Подолання бар'єру пам'яті в AI-центрах обробки даних

Розширення пам'яті CXL: Подолання бар'єру пам'яті в AI-центрах обробки даних

Оновлено 11 грудня 2025 року

Оновлення за грудень 2025: Microsoft запускає перші хмарні інстанси з підтримкою CXL у листопаді 2025 року. Специфікація CXL 4.0 подвоює пропускну здатність до 128GT/s. Прогнозований обсяг ринку CXL — $15 млрд до 2028 року ($12+ млрд — DRAM за CXL). KV-кеш з підтримкою CXL забезпечує 21.9x покращення пропускної здатності, 60x нижче енергоспоживання на токен. Комерційні пули пам'яті CXL досягнуть 100TiB у 2025 році.

Вузькі місця пам'яті вбивають продуктивність AI. Великі мовні моделі регулярно потребують від 80 до 120 ГБ на GPU лише для KV-кешу, перевантажуючи навіть найдорожчі прискорювачі з HBM.¹ Технологія розширення пам'яті Compute Express Link (CXL) безпосередньо вирішує кризу ємності пам'яті, дозволяючи серверам отримувати доступ до пулів пам'яті за межами обмежень DRAM, підключеної до CPU. З запуском Microsoft перших у галузі хмарних інстансів з підтримкою CXL у листопаді 2025 року та специфікацією CXL 4.0, що подвоює пропускну здатність до 128GT/s, дезагреговані архітектури пам'яті переходять від дослідницької концепції до промислової реальності.²

Ринок відображає терміновість потреби. Прогнози доходів ринку CXL сягають $15 мільярдів до 2028 року, при цьому очікується, що DRAM за CXL становитиме понад $12 мільярдів від цієї суми.³ Для організацій, які розгортають AI-інфраструктуру у великих масштабах, розуміння можливостей розширення пам'яті CXL визначає, чи зможуть системи справлятися з навантаженнями наступного покоління без постійних оновлень обладнання.

Як насправді працює розширення пам'яті CXL

CXL функціонує як протокол міжз'єднання з когерентністю кешу, що працює поверх стандартних фізичних рівнів PCIe. Технологія підтримує повну когерентність між кешами CPU та зовнішніми пристроями пам'яті, дозволяючи застосункам отримувати доступ до пам'яті, підключеної через CXL, з тією ж програмною моделлю, що й до локальної DRAM.⁴ Три підтипи протоколу обробляють різні взаємодії пристроїв: CXL.io керує транзакціями в стилі PCIe, CXL.cache дозволяє пристроям кешувати пам'ять хоста, а CXL.mem дозволяє хостам отримувати доступ до пам'яті, підключеної до пристрою.⁵

Пристрої розширення пам'яті, позначені як CXL Type-3, підключають модулі DDR5 до серверів через слоти PCIe або форм-фактори EDSFF. Сучасні контролери CXL додають приблизно 70 наносекунд затримки порівняно з безпосередньо підключеною DRAM.⁶ Хоча це суттєво, затримка пам'яті CXL у 20-50 разів швидша за NVMe-сховище, заповнюючи критичний рівень продуктивності між швидкою пам'яттю хоста та повільним доступом до диска.⁷

Еволюція специфікації прискорилася швидко. CXL 2.0 представив пулінг пам'яті, дозволяючи кільком хостам отримувати доступ до спільних пристроїв пам'яті з окремими виділеннями.⁸ CXL 3.0 забезпечив справжню спільну пам'ять, де кілька хостів одночасно отримують доступ до одного сегмента пам'яті з узгодженим представленням даних.⁹ Реліз CXL 4.0 у листопаді 2025 року подвоїв пропускну здатність з 64GT/s до 128GT/s, зберігаючи формат FLIT 256 байтів, що дозволяє досягти загальної двонаправленої пропускної здатності до 1.536TB/s на з'єднаннях x16 завдяки новій функції об'єднаних портів.¹⁰

Пулінг пам'яті трансформує економіку серверів

Традиційні серверні архітектури змушують операторів йти на складні компроміси. Вимоги до пам'яті різко варіюються між навантаженнями, але сервери постачаються з фіксованими конфігураціями DRAM. У 2022 році пам'ять становила в середньому близько 30% вартості сервера, а прогнози штовхають цей показник вище 40% до 2025 року.¹¹ Організації регулярно надлишково виділяють пам'ять для обробки пікових навантажень, залишаючи дорогу DRAM незадіяною в періоди середньої утилізації.

Пулінг пам'яті CXL фундаментально змінює рівняння. Кілька серверів спільно використовують доступ до централізованих пулів пам'яті, динамічно виділяючи ємність на основі вимог навантаження в реальному часі. Microsoft виявив, що впровадження пулінгу пам'яті на основі CXL може скоротити загальну потребу в пам'яті приблизно на 10%, забезпечуючи 5% зниження загальної вартості сервера.¹² SMART Modular Technologies оцінює, що поєднання дешевших DIMM з картами розширення CXL забезпечує до 40% економії для конфігурацій пам'яті 1TB порівняно з оновленням до CPU, які підтримують більше RAM.¹³

Гібридні системи DRAM-CXL досягають 95-100% пропускної здатності чистих DRAM-систем, скорочуючи витрати на пам'ять на 50% завдяки стисненню та ефективному пулінгу.¹⁴ Економічне обґрунтування посилюється, оскільки ціни на пам'ять залишаються підвищеними через те, що попит на HBM поглинає виробничі потужності DRAM. Зростання цін на DRAM штовхає підприємства до програмного забезпечення для ефективності пам'яті та рішень розширення на основі CXL як альтернативи дорогим оновленням пам'яті.¹⁵

AI-інференс навантаження стимулюють впровадження CXL

Інференс великих мовних моделей створює найбільш нагальний попит на розширену ємність пам'яті. Вимоги до зберігання KV-кешу масштабуються лінійно з довжиною контексту, і сучасні моделі, що підтримують контексти з мільйонами токенів, генерують розміри кешу, які повністю перевищують пам'ять GPU. Дослідження демонструють, що керування KV-кешем з підтримкою CXL забезпечує до 21.9x покращення пропускної здатності, 60x нижче енергоспоживання на токен та 7.3x кращу загальну економічну ефективність порівняно з базовими реалізаціями.¹⁶

XConn Technologies та MemVerge продемонстрували на Supercomputing 2025, як AI-інференс навантаження можуть вивантажувати та спільно використовувати масивні ресурси KV-кешу динамічно між GPU та CPU. Демонстрація досягла понад 5x покращення продуктивності порівняно з кешуванням на основі SSD або вивантаженням KV-кешу на основі RDMA.¹⁷ Порівняно з мережевими альтернативами, пул пам'яті CXL досяг 3.8x прискорення порівняно з 200G RDMA та 6.5x прискорення порівняно з 100G RDMA для інференс-навантажень.¹⁸

Комерційні пули пам'яті CXL ємністю 100TiB стали доступними у 2025 році, з планами ще більших розгортань на 2026 рік.¹⁹ Astera Labs продемонструвала на OCP Global Summit 2025, як Leo CXL Smart Memory Controllers усувають вузькі місця AI-інфраструктури, досягаючи 3x одночасних інстансів LLM з вищою пропускною здатністю та 3x нижчою затримкою з CXL.²⁰ SK Hynix представила машину AI з центром на пам'яті, що з'єднує кілька серверів та GPU без традиційної мережі, підтримуючи розподілені задачі інференсу через технологію пулінгу пам'яті CXL.²¹

Крім інференсу, розширення пам'яті CXL приносить користь рекомендаційним системам, in-memory базам даних та аналітиці графів. Система дезагрегованої пам'яті H3 Falcon на основі CXL від Micron забезпечує до 20x приросту продуктивності для графових баз даних.²² Контролери Leo CXL у поєднанні з процесорами AMD EPYC 5-го покоління забезпечують 70% приросту продуктивності для моделей глибокого навчання для рекомендацій.²³

Ландшафт контролерів CXL

Три вендори домінують у виробництві контролерів пам'яті CXL: Astera Labs, Montage Technology та Microchip. Їхні контролери живлять модулі пам'яті від кожного великого виробника DRAM.

Astera Labs лідирує на ринку з Leo CXL Smart Memory Controllers, що підтримують CXL 2.0 з ємністю до 2TB пам'яті на контролер.²⁴ Leo реалізує протоколи CXL.mem, CXL.cache та CXL.io, виконує апаратне чергування для представлення агрегованої пам'яті операційним системам та забезпечує функції RAS через пакет управління COSMOS.²⁵ Карти розширення A-Series забезпечують розгортання plug-and-play, тоді як реалізації E-Series та P-Series підтримують кастомну інтеграцію. Попередній перегляд пам'яті CXL від Microsoft Azure у листопаді 2025 року використовує контролери Leo, що є першим у галузі публічним хмарним розгортанням пам'яті, підключеної через CXL.²⁶

Montage Technology поставила перший у світі CXL Memory eXpander Controller (MXC) і наразі постачає контролери Samsung, SK Hynix та іншим великим виробникам пам'яті.²⁷ Контролер CXL 3.1 компанії (M88MX6852) від вересня 2025 року досягає швидкостей передачі даних до 64GT/s на конфігураціях x8, інтегрує двоканальний DDR5 на швидкостях 8000MT/s і додає лише 70нс затримки.²⁸ Корпус 25мм x 25мм підтримує як форм-фактори EDSFF E3.S, так і карти розширення PCIe.²⁹ Samsung та SK Hynix обидві пройшли тестування на відповідність CXL 2.0 з використанням чіпів Montage MXC.³⁰

Microchip вийшла на ринок CXL з контролером SMC 1000 8x25G, що підтримує застосування розширення та пулінгу пам'яті. Компанія інтегрує можливості CXL у своє ширше портфоліо підключення пам'яті разом із чіпами буферів пам'яті та контролерами SPD hub.

Продукти модулів пам'яті від провідних вендорів

Серія CMM-D (CXL Memory Module - DDR5) від Samsung представляє виробничу лінійку CXL компанії. CMM-D 2.0 пропонує ємності 128GB та 256GB з пропускною здатністю до 36GB/s, відповідністю CXL 2.0 та підтримкою PCIe Gen 5.³¹ Samsung позиціонує CMM-D як доповнення до існуючих локальних DIMM, заявляючи про розширення ємності пам'яті до 50% та збільшення пропускної здатності до 100% при зниженні загальної вартості володіння.³² Зразки для клієнтів були відвантажені у 2025 році, з варіантами CXL 3.1, запланованими на кінець року.³³

SK Hynix продемонструвала кілька продуктів пам'яті CXL на Supercomputing 2025. CMM-DDR5 працює в парі з контролерами Montage для розширення ємності пам'яті, тоді як CMM-Ax (CXL Memory Module Accelerator) інтегрує обчислювальні можливості безпосередньо в пам'ять.³⁴ AI Cloud Petasus від SK Telecom розгорнула CMM-Ax, демонструючи практичні застосування AI-інфраструктури.³⁵ SK Hynix готується до виробництва власних контролерів CXL для CXL 3.0 та 3.1, зменшуючи залежність від кремнію третіх сторін.³⁶

Micron випустила модулі розширення пам'яті на основі CXL 2.0 з ємностями DDR5 96GB.³⁷ Компанія позиціонує пам'ять CXL як критичну технологію для скорочення розриву з Samsung та SK Hynix у високомаржинальному сегменті серверної пам'яті. Система H3 Falcon від Micron поєднує дезагреговану пам'ять на основі CXL з файловою системою FAMFS, що підтримується Linux, для прискорення графових баз даних.³⁸

Підтримка серверних платформ від Intel та AMD

Процесори AMD EPYC Genoa з'явилися у 2022 році з нативною підтримкою пристроїв CXL Type-3, даючи AMD багаторічну перевагу над Intel.³⁹ Поточні процесори EPYC 9005 Turin підтримують сумісність з CXL у всій лінійці. Тести продуктивності демонструють суттєві покращення: контролери Leo CXL з AMD EPYC 5-го покоління забезпечують 70% покращення продуктивності для рекомендаційних моделей та дозволяють гібридним архітектурам пам'яті досягати 95-100% продуктивності нативної DRAM.⁴⁰

Шлях Intel до CXL виявився більш складним. Xeon Scalable 4-го покоління "Sapphire Rapids" запущено без підтримки пристроїв CXL Type-3, незважаючи на реалізацію базового протоколу CXL.⁴¹ Офіційна підтримка Type-3 з'явилася з 5-м поколінням "Emerald Rapids" приблизно рік тому. Процесори Intel Xeon 6 включають CXL Flat Memory Mode, унікальну можливість, що підвищує гнучкість співвідношення обчислення-пам'ять без втрати продуктивності.⁴² Microsoft спеціально виділив можливості Flat Memory Mode при оголошенні попереднього перегляду CXL в Azure.⁴³

Сервери Lenovo ThinkSystem V4 з процесорами Intel Xeon 6 підтримують пам'ять CXL 2.0 у форм-факторі E3.S 2T.⁴⁴ Лідери галузі, включаючи Dell Technologies, HPE, ASUS та Inventec, будують платформи, узгоджені з CXL 3.0, готуючись до ширшого впровадження екосистеми.⁴⁵ Прогнози DRAM за CXL сягають приблизно 10% серверної DRAM до 2029 року.⁴⁶

CXL 4.0 визначає майбутнє багатостійкових систем

Реліз специфікації CXL 4.0 у листопаді 2025 року закладає основу для справді дезагрегованих архітектур центрів обробки даних. Подвоєння пропускної здатності до 128GT/s через фізичні рівні PCIe 7.0 вирішує проблеми продуктивності, які обмежували раніше впровадження.⁴⁷ Об'єднані порти агрегують кілька фізичних з'єднань в єдині логічні підключення, забезпечуючи пропускну здатність 768GB/s у кожному напрямку (загалом 1.536TB/s) на конфігураціях x16 при збереженні простих програмних моделей.⁴⁸

Нативна підтримка ширини з'єднання x2 збільшує можливості розгалуження для топологій пулінгу пам'яті. Попередні версії CXL підтримували x2 лише як резервний режим для відмов ліній; CXL 4.0 повністю оптимізує x2 для продуктивності, як і ширини x4 до x16.⁴⁹ Підтримка розширеного охоплення через до чотирьох ретаймерів дозволяє багатостійкові конфігурації без деградації сигналу.⁵⁰

Багатостійкові системи CXL 4.0 можуть бути розгорнуті наприкінці 2026 — у 2027 році.⁵¹ Специфікація підтримує зворотну сумісність з усіма попередніми версіями CXL, захищаючи інвестиції в існуюче обладнання CXL 2.0 та 3.x.⁵² З очікуваною зрілістю екосистеми CXL 3.0 протягом 2025 року, центри обробки даних почнуть впроваджувати архітектури, де пам'ять і обчислення дезагрегуються, об'єднуються в пули та динамічно перерозподіляються до 2026 року.⁵³

Побудова інфраструктурного стеку CXL

Розгортання розширення пам'яті CXL вимагає координації екосистеми за межами

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ