Дезагреговані обчислення для ШІ: архітектура композитної інфраструктури
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025: CXL-пулінг пам'яті досягає 3,8-кратного прискорення порівняно з 200G RDMA та 6,5-кратного прискорення порівняно з 100G RDMA для інференсу LLM. Дженсен Хуанг: «Коли ви можете розмістити прискорювачі будь-де в дата-центрі та компонувати й переналаштовувати їх для конкретних робочих навантажень — це революція». Композитна інфраструктура руйнує фіксовані співвідношення серверів, динамічно підлаштовуючись під точні вимоги робочих навантажень ШІ.
CXL-пулінг пам'яті досягає 3,8-кратного прискорення порівняно з 200G RDMA та 6,5-кратного прискорення порівняно з 100G RDMA при спільному використанні пам'яті між GPU-серверами, що виконують інференс великих мовних моделей.[^1] Демонстрація використовувала два сервери з GPU NVIDIA H100, що запускали модель OPT-6.7B, показавши, як спільна CXL-пам'ять прискорює робочі навантаження ШІ понад можливості традиційних мереж. Як зазначив Дженсен Хуанг з NVIDIA: «Коли ви можете дезагрегувати конвергентний сервер, коли ви можете розмістити прискорювачі будь-де в дата-центрі, а потім компонувати та переналаштовувати цей дата-центр для конкретного робочого навантаження — це революція».[^2]
Композитна інфраструктура представляє архітектурний підхід, де обчислювальні ресурси, ресурси зберігання та мережеві ресурси існують як абстрактні пули, керовані незалежно через програмно-визначені площини управління.[^3] На відміну від традиційних архітектур, що прив'язують CPU, пам'ять, сховище та мережу до конкретних серверів, композитна інфраструктура розглядає апаратні ресурси як гнучкі пули, що динамічно розподіляються між робочими навантаженнями. Цей підхід обіцяє драматичні покращення в утилізації ресурсів та гнучкості розгортання для ШІ-інфраструктури.
Руйнування серверних меж
Традиційні сервери поєднують фіксовані співвідношення CPU, пам'яті, GPU та сховища. Робочі навантаження ШІ рідко відповідають цим фіксованим співвідношенням. Завдання навчання вимагають максимальної щільності GPU з відносно скромними вимогами до CPU. Робочі навантаження інференсу можуть потребувати більше пам'яті на GPU, ніж забезпечують стандартні конфігурації. Конвеєри попередньої обробки вимагають потужностей CPU та сховища без GPU.
Композитна інфраструктура руйнує серверні межі, дозволяючи організаціям збирати віртуальні системи, що відповідають точним вимогам робочого навантаження.[^4] Робоче навантаження навчання отримує композицію з 8 GPU, мінімального CPU та високопропускного сховища. Робоче навантаження інференсу отримує 2 GPU з розширеною пам'яттю. Ті самі фізичні ресурси обслуговують обидва робочі навантаження в різний час без апаратного переналаштування.
Модель дезагрегації
Дезагреговані архітектури розділяють фізичні вузли на спеціалізовані типи ресурсів: обчислювальні вузли, вузли пам'яті, GPU-вузли та вузли зберігання.[^5] Високошвидкісні фабрики з'єднують вузли, дозволяючи програмному забезпеченню компонувати логічні системи з розподілених фізичних ресурсів. Компонування відбувається програмно без фізичної перекомутації.
Ресурси більше не простоюють в очікуванні конкретних робочих навантажень. GPU-вузол обслуговує завдання навчання в пікові години та завдання інференсу вночі. Вузли пам'яті розширюють ємність для пам'ятємних робочих навантажень без надмірного забезпечення кожного сервера. Гнучкість покращує утилізацію, одночасно зменшуючи загальні вимоги до апаратного забезпечення.
CXL уможливлює пулінг пам'яті
Compute Express Link (CXL) забезпечує кеш-когерентне з'єднання, що уможливлює практичну дезагрегацію пам'яті.[^6] CXL пропонує доступ з семантикою пам'яті із затримкою в діапазоні 200-500 наносекунд, порівняно з приблизно 100 мікросекундами для NVMe та понад 10 мілісекундами для спільного використання пам'яті на базі сховищ.[^7] Покращення затримки уможливлює справді динамічне, дрібногранульоване спільне використання пам'яті між обчислювальними вузлами.
Як працює CXL-пулінг пам'яті
CXL-пули пам'яті створюють новий рівень високошвидкісної дезагрегованої пам'яті, що змінює спосіб побудови ШІ-інфраструктури організаціями.[^8] CPU-вузли отримують доступ до об'єднаної пам'яті так, ніби вона підключена локально, при цьому CXL-фабрика прозоро обробляє когерентність та переміщення даних. Застосунки бачать розширену ємність пам'яті без модифікацій.
CXL Memory Box уможливлює пулінг пам'яті між кількома GPU-серверами, надаючи доступ до більших пулів пам'яті, ніж забезпечують окремі сервери.[^9] Робочі навантаження ШІ, що обробляють набори даних, які перевищують локальну ємність пам'яті, отримують переваги від об'єднаної пам'яті без штрафів продуктивності традиційного віддаленого доступу до пам'яті. Цей підхід уможливлює більші розміри батчів та довші контекстні вікна без оновлення окремих серверів.
Поза межами пам'яті: повний пулінг ресурсів
CXL уможливлює більше, ніж просто пулінг пам'яті. Стандарт підтримує композитні з'єднання між CPU, буферами пам'яті та прискорювачами.[^10] GPU, FPGA, DPU та інші прискорювачі підключаються через CXL-фабрику для динамічного розподілу між робочими навантаженнями.
Бачення поширюється на повну дезагрегацію ресурсів, де жоден ресурс не прив'язаний постійно до будь-якого іншого. Організації будують пули ресурсів, розмір яких відповідає сукупному попиту, а не піковому попиту на одне робоче навантаження. Програмна оркестрація компонує відповідні ресурси для кожного робочого навантаження в реальному часі.
Галузеві рішення
Кілька вендорів пропонують рішення композитної інфраструктури, що відповідають вимогам робочих навантажень ШІ.
Композитна платформа Liqid
Liqid випустила композитні GPU-сервери з CXL 2.0 пулінгом пам'яті, що підтримують до 100 ТБ дезагрегованої композитної пам'яті.[^11] Платформа включає EX-5410P 10-слотовий GPU-бокс, що підтримує 600 Вт GPU, включаючи NVIDIA H200, RTX Pro 6000 та прискорювачі Intel Gaudi 3. Програмне забезпечення Matrix оркеструє композицію ресурсів на апаратній платформі.
Підхід Liqid пакує композитність в інтегровані рішення, замість того щоб вимагати від клієнтів проєктувати дезагреговані системи з компонентів. Організації отримують переваги композитності без необхідності накопичувати експертизу в проєктуванні фабрик та розробці програмного забезпечення для оркестрації.
Композитні системи IBM Research
IBM Research досліджує стандарти CXL для побудови повністю композитних систем через високошвидкісну фабрику з низькою затримкою.[^12] В їхній архітектурі ресурси існують як частина великих пулів, з'єднаних через мережеву фабрику, а не статично згрупованих у серверах. Композитні ресурси групуються разом для відтворення серверних абстракцій, що відповідають конкретним вимогам робочого навантаження.
Дослідницька програма вирішує виклики, включаючи проєктування топології фабрики, оптимізацію затримки та програмну оркестрацію для композитної ШІ-інфраструктури. Ця робота просуває розуміння того, як повинні функціонувати композитні системи виробничого масштабу.
Співпраця GigaIO та Microchip
GigaIO та Microchip розробили композитну дезагреговану інфраструктуру хмарного класу, що поєднує технології PCIe та CXL.[^13] Цей підхід націлений на дата-центри, яким потрібна гнучкість композитних ресурсів з характеристиками продуктивності безпосередньо підключеного обладнання.
Архітектурні міркування
Впровадження композитної інфраструктури вимагає архітектурних рішень, що охоплюють проєктування фабрики, програмне забезпечення оркестрації та управління робочими навантаженнями.
Топологія фабрики
Інтерконект-фабрика визначає досяжну затримку та пропускну здатність між дезагрегованими ресурсами. CXL-фабрики повинні забезпечувати достатню пропускну здатність для патернів доступу зі швидкістю пам'яті, зберігаючи затримку в прийнятних межах. Топологія фабрики впливає як на продуктивність, так і на вартість.
Топології на основі комутаторів пропонують гнучкість, але додають затримку порівняно з прямими з'єднаннями. Компроміс між складністю топології та бюджетом затримки залежить від конкретних вимог робочого навантаження. Пам'ятємні робочі навантаження вимагають нижчої затримки, ніж робочі навантаження, інтенсивні щодо сховища.
Вимоги до оркестрації
Програмна оркестрація управляє композицією ресурсів, обробляючи запити на виділення, відстежуючи стан ресурсів та підтримуючи ізоляцію між композиціями. Рівень оркестрації повинен реагувати достатньо швидко для підтримки динамічних змін робочих навантажень, не стаючи вузьким місцем.
Інтеграція з Kubernetes дозволяє композитним ресурсам обслуговувати контейнеризовані робочі навантаження ШІ, використовуючи знайомі примітиви оркестрації. GPU Operator та подібні розширення управляють ресурсами прискорювачів, а розширення композитності уможливлюють динамічне виділення GPU-пулів.
Міркування щодо доменів відмов
Дезагрегація змінює характеристики доменів відмов. Несправний вузол пам'яті впливає на всі композиції, що використовують цю пам'ять, а не на один сервер. Радіус ураження від відмов компонентів розширюється порівняно з архітектурами конвергентних серверів.
Стратегії резервування повинні враховувати дезагреговані режими відмов. Пули пам'яті вимагають резервування між фізичними вузлами. Політики композиції повинні уникати концентрації критичних робочих навантажень на спільних ресурсах. Моніторинг повинен відстежувати стан усієї фабрики, а не окремих серверів.
Експертиза розгортання інфраструктури
Складність композитної інфраструктури перевищує традиційне розгортання серверів. Встановлення фабрики, валідація продуктивності та налаштування оркестрації вимагають спеціалізованої експертизи, якої більшість організацій не мають внутрішньо.
550 польових інженерів Introl підтримують організації, що впроваджують передові інфраструктурні архітектури, включаючи композитні та дезагреговані системи.[^14] Компанія посіла 14-те місце в рейтингу Inc. 5000 за 2025 рік із 9 594% трирічним зростанням, що відображає попит на професійні інфраструктурні послуги.[^15] Композитні розгортання виграють від досвіду встановлення та валідації високошвидкісних фабрик.
Розгортання інфраструктури в 257 глобальних локаціях вимагає узгоджених практик незалежно від географії.[^16] Introl керує розгортаннями, що охоплюють 100 000 GPU з понад 40 000 миль волоконно-оптичної мережевої інфраструктури, забезпечуючи операційний масштаб для організацій, що будують композитну ШІ-інфраструктуру.[^17]
Композитне майбутнє
Дезагреговані архітектури зі спільним використанням ресурсів уможливлять інфраструктуру для обробки петабайтів даних, необхідних для ШІ, машинного навчання та інших даномістких технологій.[^18] Впровадження CXL прискориться в міру дозрівання стандарту та поширення вендорських рішень.
Організації, що планують інвестиції в ШІ-інфраструктуру, повинні оцінити композитні архітектури для розгортань, де варіативність робочих навантажень робить сервери з фіксованими співвідношеннями неефективними. Переваги гнучкості накопичуються з масштабом: більші розгортання досягають кращих покращень утилізації від пулінгу ресурсів.
Перехід від конвергентної до композитної інфраструктури представляє фундаментальний зсув в архітектурі дата-центрів. Організації, що опанують композитне розгортання, отримують переваги гнучкості, що трансформуються в ефективність витрат та оперативність розгортання. Революція, яку описав Дженсен Хуанг, починається з розуміння того, як дезагрегація змінює економіку інфраструктури.
Ключові висновки
Для інфраструктурних архітекторів: - CXL-пулінг пам'яті досягає 3,8-кратного прискорення порівняно з 200G RDMA та 6,5-кратного порівняно з 100G RDMA для робочих навантажень інференсу LLM - Затримка CXL: 200-500 нс доступ з семантикою пам'яті проти ~100 мкс NVMe проти >10 мс для спільного використання на базі сховищ - Дезагрегація уможливлює: композицію з 8 GPU для навчання, 2 GPU + розширена пам'ять для інференсу, з того самого апаратного пулу
Для команд закупівель: - Liqid EX-5410P: 10-слотовий GPU-бокс, що підтримує 600 Вт GPU (H200, RTX Pro 6000, Gaudi 3) з 100 ТБ CXL-пулінгу пам'яті - Традиційні сервери з фіксованими співвідношеннями марнують ресурси: навчання потребує максимум GPU зі скромним CPU; інференс потребує більше пам'яті на GPU - Композитність зменшує загальну кількість обладнання шляхом пулінгу ресурсів між робочими навантаженнями; GPU-вузли обслуговують навчання вдень, інференс вночі
Для платформних інженерів: - IBM Research досліджує CXL для повністю композитних систем через високошвидкісну фабрику з низькою затримкою - Співпраця GigaIO/Microchip: композитність хмарного класу, що поєднує технології PCIe та CXL - Інтеграція з Kubernetes через розширення GPU Operator уможливлює композитні ресурси зі знайомою оркестрацією
Для операційних команд: - Зміна домену відмов: несправний вузол пам'яті впливає на всі композиції, що його використовують, проти одного сервера в конвергентній архітектурі - Стратегії резервування повинні враховувати дезагреговані режими відмов; уникайте концентрації робочих навантажень на спільних ресурсах - Моніторинг стану фабрики замінює моніторинг окремих серверів; політики композиції запобіга
[Контент скорочено для перекладу]