DPU та SmartNIC: третій стовп обчислень у дата-центрах

Ринок DPU SmartNIC досяг $1,11 млрд у 2024 році, прогноз на 2034 рік — $4,44 млрд (CAGR 15%). 50% хмарних провайдерів вже використовують DPU; 35% навчання ШІ перенесено на DPU. BlueField-3 забезпечує еквівалент 300...

DPU та SmartNIC: третій стовп обчислень у дата-центрах

DPU та SmartNIC: третій стовп обчислень у дата-центрах

Оновлено 11 грудня 2025 року

Оновлення за грудень 2025: Ринок DPU SmartNIC досяг $1,11 млрд у 2024 році, прогноз на 2034 рік — $4,44 млрд (CAGR 14,89%). 50% хмарних провайдерів вже використовують DPU; 35% завдань навчання ШІ перенесено на DPU. BlueField-3 забезпечує еквівалент 300 ядер CPU при розвантаженні сервісів. Анонсовано BlueField-4 з пропускною здатністю 800 Гбіт/с та 6-кратним збільшенням обчислювальної потужності. AMD Pensando Elba постачається з двома портами 200GbE та програмованістю P4.

Ринок DPU SmartNIC досяг $1,11 млрд у 2024 році та зросте до $4,44 млрд до 2034 року із середньорічним темпом зростання 14,89%.¹ Близько 50% хмарних провайдерів вже покладаються на DPU для оптимізації робочих навантажень.² Приблизно 35% завдань навчання моделей ШІ розвантажуються на DPU для підвищення ефективності та продуктивності.³ Лідери галузі все частіше розглядають DPU як третій стовп обчислень поряд із CPU та GPU — спеціалізовані процесори, що безпечно переміщують дані по інфраструктурі.⁴

Кластери ШІ змінили структуру трафіку в дата-центрах. Більша частина трафіку тепер рухається у напрямку схід-захід між GPU під час навчання моделей та створення контрольних точок, а не північ-південь між додатками та інтернетом.⁵ DPU еволюціонував від опціонального прискорювача до необхідної інфраструктури, яка запобігає тому, щоб вузькі місця CPU обмежували використання GPU.⁶ Організації, що будують інфраструктуру ШІ, повинні оцінювати вибір DPU так само ретельно, як і вибір GPU та CPU.

NVIDIA BlueField-3: інфраструктурний стандарт

NVIDIA BlueField-3 представляє третє покоління інфраструктури дата-центрів на одному чіпі, що дозволяє організаціям будувати програмно-визначену, апаратно-прискорену ІТ-інфраструктуру від хмари до основного дата-центру та периферії.⁷ DPU з 22 мільярдами транзисторів розвантажує, прискорює та ізолює програмно-визначені мережеві, сховищні, безпекові та управлінські функції.⁸

Мережева пропускна здатність досягає 400 гігабіт на секунду через Ethernet або NDR InfiniBand.⁹ Конфігурації портів включають 1, 2 або 4 порти з варіантами різних комбінацій пропускної здатності.¹⁰ Вбудована пам'ять включає 16 гігабайт DDR5 з варіантами форм-факторів, включаючи половинної висоти половинної довжини та повної висоти половинної довжини PCIe-карти.¹¹

BlueField-3 забезпечує у 10 разів більшу прискорену обчислювальну потужність порівняно з попереднім поколінням.¹² Процесорний комплекс містить 16 ядер ARM A78 з 4-кратним прискоренням криптографії порівняно з BlueField-2.¹³ Пропускна здатність мережі подвоїлася, обчислювальна потужність зросла в чотири рази, а пропускна здатність пам'яті збільшилася майже в 5 разів.¹⁴

Еквівалент продуктивності говорить сам за себе. Один DPU BlueField-3 забезпечує еквівалент сервісів дата-центру до 300 ядер CPU, звільняючи цінні цикли CPU для критично важливих бізнес-додатків.¹⁵ Коефіцієнт розвантаження виправдовує інвестиції в DPU для організацій, де потужність CPU обмежує розгортання робочих навантажень.

BlueField-3 — це перший DPU, що підтримує п'яте покоління PCIe та пропонує прискорення з синхронізацією часу в дата-центрі.¹⁶ Максимальне споживання енергії не перевищує 150 Вт.¹⁷

Сценарії використання охоплюють весь стек інфраструктури: гіперконвергентна інфраструктура з шифруванням, цілісністю даних, дедуплікацією, декомпресією та кодуванням із виправленням помилок для сховищ; розподілені брандмауери, IDS/IPS, корінь довіри, мікросегментація та захист від DDoS для безпеки; хмарно-нативні суперобчислення з мультиорендністю та прискоренням комунікацій для HPC/AI; а також Cloud RAN, віртуалізовані периферійні шлюзи та прискорення VNF для телекому та периферійних застосунків.¹⁸

NVIDIA анонсувала BlueField-4 як наступника — інфраструктурну платформу на 800 гігабіт на секунду для гігамасштабних фабрик ШІ, що забезпечує 6-кратну обчислювальну потужність BlueField-3 з прискоренням для мереж, сховищ даних та кібербезпеки.¹⁹

AMD Pensando: вибір гіперскейлерів

AMD придбала Pensando Systems у 2022 році, додавши технологію DPU з P4-програмованістю до портфеля рішень AMD для дата-центрів.²⁰ DPU Pensando широко впроваджені, перевірені та протестовані як front-end мережеве рішення в деяких з найбільших гіперскейлерних дата-центрів.²¹

DPU AMD Pensando Elba другого покоління повністю програмований на P4 та оптимізований для високої пропускної здатності, що дозволяє розширене розвантаження мережевих, сховищних та безпекових сервісів на лінійній швидкості dual 200 гігабіт на секунду.²²

SoC Elba містить 16 ядер ARM Cortex-A72, два контролери пам'яті DDR4/DDR5, 32 лінії PCIe Gen3 або Gen4, до двох 200GbE або чотирьох 100GbE мережевих інтерфейсів, а також можливості розвантаження сховищ та криптографії.²³

Архітектура зосереджена на Match-Processing Units (MPU), де програмне забезпечення в кремнії виконується та надає прискорені fast-path сервіси.²⁴ Системна пам'ять підключена як до ARM-ядер загального призначення, так і до доменно-специфічних MPU.²⁵ P4-конвеєр одночасно обробляє мережеві операції, сховища, телеметрію, SDN, безпеку, керування перевантаженням та RDMA без погіршення продуктивності.²⁶

Програмований конвеєр забезпечує на лінійній швидкості: інкапсуляцію та декапсуляцію VxLAN-тунелів, маршрутизацію IPv4/v6, stateless та stateful правила безпеки, трансляцію мережевих адрес, балансування навантаження серверів, сервіси шифрування, відображення VLAN на VPC та пірінг VPC.²⁷

AMD пропонує референсний конвеєр SAI (Switch Abstraction Interface), що працює під SONiC OS на DPU Pensando.²⁸ Інтеграція дозволяє використовувати сервіси SONiC, включаючи стек маршрутизації, інтерфейс керування та моніторинг, одночасно використовуючи повні можливості DPU через SSDK.²⁹

AMD представила Pensando Salina як наступника на 400G, розроблений для прямої конкуренції з NVIDIA BlueField-3 у front-end мережевих застосунках.³⁰ Pensando Pollara 400 AI NIC став комерційно доступним у першій половині 2025 року, оптимізуючи мережі ШІ та HPC через розширені можливості, включаючи RDMA та контроль перевантаження.³¹

Новіший DPU Giglio побудований на основі Elba із сумісністю вихідного коду, що дозволяє існуючим клієнтам переходити на новішу платформу з мінімальними змінами програмного забезпечення.³²

Для підприємств, що використовують VMware, практичний вибір звужується до NVIDIA BlueField-2 або AMD Pensando DSC2.³³ Підтримка екосистеми VMware обмежує варіанти для організацій, відданих цій платформі віртуалізації.

Intel IPU E2100: хмарно-нативний підхід

Адаптер Infrastructure Processing Unit (IPU) E2100 від Intel забезпечує прискорення інфраструктури, підтримку віртуальних сховищ та покращені функції безпеки.³⁴ SoC E2100 — це платформа прискорення інфраструктури, оптимізована для енергоспоживання, продуктивності та масштабування.³⁵

Апаратне забезпечення має багатий конвеєр обробки пакетів з пропускною здатністю 200GbE та включає прискорювачі NVMe, стиснення та криптографії.³⁶ Обчислювальний комплекс ARM Neoverse N1 дозволяє клієнтському програмному забезпеченню виконувати функції від складних конвеєрів обробки пакетів до транспорту сховищ, керування пристроями та телеметрії.³⁷

E2100 містить 16 ядер ARM Neoverse N1 з 32 мегабайтами кешу та 3 канали пам'яті 16GB LPDDR4x загальним обсягом 48 гігабайт.³⁸

Варіанти моделей відповідають різним вимогам розгортання. E2100-CCQDA2 вийшов у Q1 2024 з TDP 150 Вт у двопортовій конфігурації, що підтримує швидкості даних 200/100/50/25/10GbE через PCIe 4.0 у форм-факторі половинної довжини, повної висоти, одного слота.³⁹ E2100-CCQDA2HL вийшов у Q4 2024 зі зниженим TDP 75 Вт у тій же двопортовій конфігурації.⁴⁰

Підключення використовує порти QSFP56, що підтримують DAC, оптику та AOC-кабелі.⁴¹ Підтримка віртуалізації включає Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV та RoCEv2/RDMA.⁴²

Лінійка Intel IPU походить від проекту Mt Evans, розробленого для функціонування подібно до AWS Nitro спеціально для Google Cloud, розвантажуючи NVMe over Fabric та мережеву безпеку.⁴³ E2100 представляє першу ітерацію, доступну для клієнтів поза Google.⁴⁴

Сценарії використання включають розділення та ізоляцію інфраструктурних робочих навантажень, розвантаження віртуалізованих мереж на IPU, де прискорювачі обробляють завдання ефективніше, та заміну локального дискового сховища на відокремлене віртуалізоване сховище.⁴⁵

Динаміка ринку та патерни впровадження

Ринок DPU поділяється на окремі сегменти за сценаріями використання. Розвантаження дата-центрів лідирує, стимульоване розширенням гіперскейлерних дата-центрів та зростаючими вимогами складних, даномістких обчислювальних навантажень.⁴⁶ Північна Америка має найбільшу частку доходу, що зумовлено зростаючими загрозами кібербезпеці, впровадженням фреймворків безпеки з нульовою довірою та значними інвестиціями в інфраструктуру ШІ та машинного навчання.⁴⁷

Патерни впровадження демонструють чітке узгодження з робочими навантаженнями. Близько 30% розгортань зосереджені на робочих навантаженнях ШІ, тоді як 20% спрямовані на архітектуру безпеки з нульовою довірою.⁴⁸ DPU з апаратним прискоренням безпеки демонструють 30% зростання впровадження, що відображає пріоритет галузі щодо принципів нульової довіри.⁴⁹

Патерни трафіку ШІ зумовлюють необхідність DPU. Трафік схід-захід між GPU під час навчання домінує в комунікації сучасних кластерів ШІ.⁵⁰ Хост-CPU не може обробляти цей трафік на лінійній швидкості, не стаючи вузьким місцем. DPU обробляють мережеві операції, які інакше споживали б цикли CPU, необхідні для оркестрації та функцій площини керування.

Конкурентний ландшафт представлений трьома основними постачальниками з різним позиціонуванням. NVIDIA лідирує з інтеграцією BlueField у ширшу екосистему інфраструктури ШІ та найсильнішою підтримкою InfiniBand.⁵¹ AMD Pensando домінує в гіперскейлерних розгортаннях з доведеним виробничим масштабом та P4-програмованістю.⁵² Intel націлюється на хмарно-нативні архітектури з дизайном IPU, натхненним Nitro.⁵³

OCTEON 10 від Marvell представляє претендента наступного покоління — перший у галузі 5-нм DPU з ядрами ARM Neoverse N2, що забезпечує 3-кратну обчислювальну продуктивність та на 50% менше енергоспоживання порівняно з попередніми поколіннями.⁵⁴ Інноваційні апаратні прискорювачі для inline ML/AI забезпечують 100-кратне підвищення продуктивності порівняно з програмним інференсом.⁵⁵

Впровадження безпеки з нульовою довірою

DPU дозволяють примусово застосовувати безпеку з нульовою довірою на периферії мережі без залучення хост-CPU.⁵⁶ Архітектура розміщує примусове виконання політик у джерелі даних, а не в точках агрегації мережі.

L4-брандмауери працюють безпосередньо на DPU, примусово застосовуючи політику до того, як трафік досягне хоста.⁵⁷ DPU NVIDIA BlueField підтримує мікросегментацію, дозволяючи операторам застосовувати принципи нульової довіри до робочих навантажень GPU без участі хост-CPU.⁵⁸

Модель безпеки особливо важлива для мультиорендної інфраструктури ШІ. Коли кілька клієнтів спільно використовують кластери GPU, DPU забезпечує ізоляцію між орендарями на мережевому рівні.⁵⁹ Хост-операційна система ніколи не бачить трафік, призначений для інших орендарів, що зменшує поверхню атаки.

Корінь довіри встановлює криптографічну верифікацію компонентів інфраструктури.⁶⁰ DPU перевіряє прошивку, операційні системи та додатки перед наданням мережевого доступу. Скомпрометовані хости не можуть комунікувати в мережі без проходження верифікації, що примусово застосовується DPU.

DPU забезпечують моніторинг мережі, телеметрію та функції спостережуваності у високорозподілених середовищах з нульовою довірою через хмарні та периферійні інстанси.⁶¹ Видимість поширюється на зашифрований трафік через апаратно-прискорену TLS-інспекцію без втрати продуктивності від програмного дешифрування.

Інтеграція інфраструктури ШІ

Кластери ШІ представляють специфічні вимоги до DPU, що відрізняються від загальних робочих навантажень дата-центрів. Патерн трафіку схід-захід між GPU під час розподіленого навчання створює стійкі вимоги до пропускної здатності, які традиційні NIC не можуть задовольнити без допомоги CPU.⁶²

Колективні операції — all-reduce, all-gather та broadcast — формують комунікаційну основу розподіленого навчання.⁶³ DPU можуть прискорювати ці операції через апаратне розвантаження, зменшуючи затримку та звільняючи обчислення GPU для фактичного виконання моделі.

Підтримка RDMA є критично важливою для робочих навантажень ШІ. DPU обробляють RoCEv2 (RDMA over Converged Ethernet) або InfiniBand RDMA в апаратному забезпеченні, повністю обходячи мережевий стек хоста.⁶⁴ Передача даних без копіювання між пам'яттю GPU та мережею мінімізує затримку та максимізує використання пропускної здатності.

Контроль перевантаження стає критичним у масштабі кластерів ШІ. DPU реалізують DCQCN (Data Center Quantized Congestion Notificati

[Контент скорочено для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ