DPU et SmartNIC : le troisième pilier de l'informatique en centre de données
Mis à jour le 11 décembre 2025
Mise à jour décembre 2025 : Le marché des DPU SmartNIC atteint 1,11 milliard de dollars en 2024, avec une projection de 4,44 milliards de dollars d'ici 2034 (TCAC de 14,89 %). 50 % des fournisseurs de services cloud utilisent désormais des DPU pour l'optimisation des charges de travail ; 35 % des tâches d'entraînement de modèles IA sont déchargées vers les DPU pour une meilleure efficacité et performance. Le BlueField-3 offre l'équivalent de 300 cœurs CPU en déchargement de services. Le BlueField-4 annoncé avec 800 Gbps et 6 fois plus de puissance de calcul. L'AMD Pensando Elba est livré avec double 200GbE et programmabilité P4.
Le marché des DPU SmartNIC a atteint 1,11 milliard de dollars en 2024 et croîtra jusqu'à 4,44 milliards de dollars d'ici 2034, avec un taux de croissance annuel composé de 14,89 %.¹ Près de 50 % des fournisseurs de services cloud s'appuient désormais sur les DPU pour l'optimisation des charges de travail.² Environ 35 % des tâches d'entraînement de modèles IA sont déchargées vers les DPU pour une meilleure efficacité et performance.³ Les leaders de l'industrie considèrent de plus en plus les DPU comme le troisième pilier de l'informatique aux côtés des CPU et des GPU—les processeurs dédiés qui déplacent les données de manière sécurisée à travers l'infrastructure.⁴
Les clusters IA ont transformé les schémas de trafic au sein des centres de données. La majeure partie du trafic circule désormais d'est en ouest entre les GPU pendant l'entraînement des modèles et les points de contrôle, plutôt que du nord au sud entre les applications et Internet.⁵ Le DPU est passé d'un accélérateur optionnel à une infrastructure nécessaire qui empêche les goulots d'étranglement CPU de limiter l'utilisation des GPU.⁶ Les organisations qui construisent une infrastructure IA doivent évaluer le choix des DPU aussi soigneusement que les choix de GPU et de CPU.
NVIDIA BlueField-3 : le standard d'infrastructure
NVIDIA BlueField-3 représente la troisième génération d'infrastructure de centre de données sur puce, permettant aux organisations de construire une infrastructure informatique définie par logiciel et accélérée par matériel, du cloud au centre de données central jusqu'à la périphérie.⁷ Le DPU de 22 milliards de transistors décharge, accélère et isole les fonctions de mise en réseau définie par logiciel, de stockage, de sécurité et de gestion.⁸
La connectivité réseau atteint 400 gigabits par seconde via Ethernet ou NDR InfiniBand.⁹ Les configurations de ports vont de 1, 2 ou 4 ports avec des options pour diverses combinaisons de bande passante.¹⁰ La mémoire embarquée comprend 16 gigaoctets de DDR5 avec des options de format incluant des cartes PCIe demi-hauteur demi-longueur et pleine hauteur demi-longueur.¹¹
Le BlueField-3 offre 10 fois la puissance de calcul accélérée de la génération précédente.¹² Le complexe processeur comprend 16 cœurs ARM A78 avec 4 fois l'accélération cryptographique du BlueField-2.¹³ La bande passante réseau a doublé tandis que la puissance de calcul a quadruplé et la bande passante mémoire a augmenté de près de 5 fois.¹⁴
L'équivalence de performance parle d'elle-même. Un DPU BlueField-3 offre l'équivalent en services de centre de données de jusqu'à 300 cœurs CPU, libérant des cycles CPU précieux pour les applications critiques.¹⁵ Le ratio de déchargement justifie l'investissement en DPU pour les organisations où la capacité CPU limite le déploiement des charges de travail.
Le BlueField-3 est le premier DPU à prendre en charge le PCIe de cinquième génération et à offrir une accélération de centre de données synchronisée dans le temps.¹⁶ La consommation électrique maximale ne dépasse pas 150 watts.¹⁷
Les cas d'utilisation couvrent l'ensemble de la pile d'infrastructure : infrastructure hyperconvergée avec chiffrement, intégrité des données, déduplication, décompression et codage d'effacement pour le stockage ; pare-feu distribués, IDS/IPS, racine de confiance, microsegmentation et prévention DDoS pour la sécurité ; supercalcul cloud-native avec multi-location et accélération des communications pour HPC/IA ; et Cloud RAN, passerelles périphériques virtualisées et accélération VNF pour les applications télécoms et périphériques.¹⁸
NVIDIA a annoncé le BlueField-4 comme successeur—une plateforme d'infrastructure à 800 gigabits par seconde pour les usines IA à l'échelle du giga, offrant 6 fois la puissance de calcul du BlueField-3 avec des accélérations pour la mise en réseau, le stockage de données et la cybersécurité.¹⁹
AMD Pensando : le choix des hyperscalers
AMD a acquis Pensando Systems en 2022, intégrant la technologie DPU programmable P4 dans le portefeuille de centres de données d'AMD.²⁰ Les DPU Pensando ont été largement adoptés, validés et testés comme solution de mise en réseau front-end dans certains des plus grands centres de données hyperscale.²¹
Le DPU AMD Pensando Elba de deuxième génération est entièrement programmable en P4 et optimisé pour un haut débit, permettant le déchargement avancé des services de mise en réseau, de stockage et de sécurité à un débit de ligne de 200 gigabits par seconde en double.²²
Le SoC Elba contient 16 cœurs ARM Cortex-A72, des contrôleurs mémoire double DDR4/DDR5, 32 voies de connectivité PCIe Gen3 ou Gen4, jusqu'à double 200GbE ou quadruple 100GbE en réseau, et des capacités de déchargement de stockage et de cryptographie.²³
L'architecture est centrée sur les Match-Processing Units (MPU) où le logiciel intégré au silicium s'exécute et fournit des services accélérés en chemin rapide.²⁴ La mémoire système est connectée à la fois aux cœurs ARM à usage général et aux MPU spécifiques au domaine.²⁵ Le pipeline P4 gère simultanément la mise en réseau, le stockage, la télémétrie, le SDN, la sécurité, la gestion de la congestion et le RDMA sans compromettre les performances.²⁶
Le pipeline programmable fournit l'encapsulation et la décapsulation de tunnels VxLAN, le routage IPv4/v6, les règles de sécurité avec et sans état, la traduction d'adresses réseau, l'équilibrage de charge serveur, les services de chiffrement, le mappage VLAN vers VPC et le peering VPC à débit de ligne.²⁷
AMD propose un pipeline de référence SAI (Switch Abstraction Interface) exécutant SONiC OS sur les DPU Pensando.²⁸ L'intégration permet d'utiliser les services fournis par SONiC, notamment la pile de routage, l'interface de gestion et la surveillance, tout en exploitant pleinement les capacités du DPU via le SSDK.²⁹
AMD a introduit le Pensando Salina comme successeur 400G conçu pour concurrencer directement le NVIDIA BlueField-3 dans les applications réseau front-end.³⁰ La carte réseau IA Pensando Pollara 400 est devenue commercialement disponible au premier semestre 2025, optimisant la mise en réseau IA et HPC grâce à des capacités avancées incluant le RDMA et le contrôle de congestion.³¹
Le nouveau DPU Giglio s'appuie sur Elba avec une compatibilité du code source, permettant aux clients existants d'adopter la nouvelle plateforme avec des modifications logicielles minimales.³²
Pour les entreprises utilisant VMware, les choix pratiques se réduisent au NVIDIA BlueField-2 ou à l'AMD Pensando DSC2.³³ Le support de l'écosystème VMware limite les options pour les organisations engagées dans cette plateforme de virtualisation.
Intel IPU E2100 : l'approche cloud-native
L'adaptateur IPU (Infrastructure Processing Unit) E2100 d'Intel offre une accélération d'infrastructure, une activation du stockage virtuel et des fonctionnalités de sécurité améliorées.³⁴ Le SoC E2100 est une plateforme d'accélération d'infrastructure optimisée pour la puissance, les performances et l'évolutivité.³⁵
Le matériel comprend un pipeline riche de traitement de paquets avec une bande passante de 200GbE et inclut des accélérateurs NVMe, de compression et de cryptographie.³⁶ Le complexe de calcul ARM Neoverse N1 permet au logiciel fourni par le client d'exécuter des fonctionnalités allant des pipelines complexes de traitement de paquets au transport de stockage, à la gestion des périphériques et à la télémétrie.³⁷
L'E2100 contient 16 cœurs ARM Neoverse N1 avec 32 mégaoctets de cache et 3 canaux de mémoire LPDDR4x de 16 Go totalisant 48 gigaoctets.³⁸
Les variantes de modèles répondent à différentes exigences de déploiement. L'E2100-CCQDA2 a été lancé au T1 2024 avec un TDP de 150W dans une configuration double port prenant en charge des débits de données de 200/100/50/25/10GbE sur PCIe 4.0 dans un format demi-longueur, pleine hauteur, simple slot.³⁹ L'E2100-CCQDA2HL a été lancé au T4 2024 avec un TDP réduit de 75W dans la même configuration double port.⁴⁰
La connectivité utilise des ports QSFP56 prenant en charge les câbles DAC, optiques et AOC.⁴¹ Le support de virtualisation inclut les Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV et RoCEv2/RDMA.⁴²
La lignée Intel IPU remonte au projet Mt Evans conçu pour fonctionner comme AWS Nitro spécifiquement pour Google Cloud, déchargeant NVMe over Fabric et la sécurité réseau.⁴³ L'E2100 représente la première itération disponible pour les clients non-Google.⁴⁴
Les cas d'utilisation incluent la séparation et l'isolation des charges de travail d'infrastructure, le déchargement des réseaux virtualisés vers l'IPU où les accélérateurs traitent les tâches plus efficacement, et le remplacement du stockage sur disque local par un stockage virtualisé détaché.⁴⁵
Dynamiques du marché et schémas d'adoption
Le marché des DPU se divise en segments distincts de cas d'utilisation. Le déchargement des centres de données est en tête, propulsé par l'expansion des centres de données hyperscale et les demandes croissantes des charges de travail informatiques complexes et gourmandes en données.⁴⁶ L'Amérique du Nord détient la plus grande part de revenus, portée par l'escalade des menaces de cybersécurité, l'adoption croissante des cadres de sécurité zero-trust et les investissements significatifs dans l'infrastructure IA et d'apprentissage automatique.⁴⁷
Les schémas d'adoption montrent un alignement clair avec les charges de travail. Environ 30 % des déploiements se concentrent sur les charges de travail IA tandis que 20 % ciblent l'architecture de sécurité zero-trust.⁴⁸ Les DPU avec accélération de sécurité basée sur le matériel connaissent une augmentation de 30 % de leur adoption, reflétant la priorité de l'industrie sur les principes zero-trust.⁴⁹
Les schémas de trafic IA rendent les DPU nécessaires. Le trafic est-ouest entre les GPU pendant l'entraînement domine la communication des clusters IA modernes.⁵⁰ Le CPU hôte ne peut pas traiter ce trafic à débit de ligne sans devenir un goulot d'étranglement. Les DPU gèrent le traitement réseau qui consommerait autrement les cycles CPU nécessaires aux fonctions d'orchestration et de plan de contrôle.
Le paysage concurrentiel présente trois fournisseurs principaux avec un positionnement distinct. NVIDIA est en tête avec l'intégration de BlueField dans son écosystème d'infrastructure IA plus large et le support InfiniBand le plus solide.⁵¹ AMD Pensando domine les déploiements hyperscaler avec une échelle de production éprouvée et une programmabilité P4.⁵² Intel cible les architectures cloud-native avec la conception IPU inspirée de Nitro.⁵³
L'OCTEON 10 de Marvell représente le challenger de nouvelle génération—le premier DPU 5nm de l'industrie avec des cœurs ARM Neoverse N2 offrant 3 fois plus de performances de calcul et 50 % de consommation d'énergie en moins que les générations précédentes.⁵⁴ Des accélérateurs matériels innovants pour le ML/IA en ligne fournissent un gain de performance de 100 fois par rapport à l'inférence logicielle.⁵⁵
Mise en œuvre de la sécurité zero-trust
Les DPU permettent l'application de la sécurité zero-trust à la périphérie du réseau sans impliquer les CPU hôtes.⁵⁶ L'architecture place l'application des politiques à la source des données plutôt qu'aux points d'agrégation réseau.
Les pare-feu L4 s'exécutent directement sur le DPU, appliquant les politiques avant que le trafic n'atteigne l'hôte.⁵⁷ Le DPU BlueField de NVIDIA prend en charge la microsegmentation, permettant aux opérateurs d'appliquer les principes zero-trust aux charges de travail GPU sans impliquer le CPU hôte.⁵⁸
Le modèle de sécurité est particulièrement important pour l'infrastructure IA multi-locataire. Lorsque plusieurs clients partagent des clusters GPU, le DPU applique l'isolation entre les locataires au niveau réseau.⁵⁹ Le système d'exploitation hôte ne voit jamais le trafic destiné aux autres locataires, réduisant la surface d'attaque.
La racine de confiance établit la vérification cryptographique des composants d'infrastructure.⁶⁰ Le DPU valide le firmware, les systèmes d'exploitation et les applications avant d'autoriser l'accès réseau. Les hôtes compromis ne peuvent pas communiquer sur le réseau sans passer la vérification appliquée par le DPU.
Les DPU permettent la surveillance réseau, la télémétrie et les fonctions d'observabilité dans des environnements zero-trust hautement distribués à travers les instances cloud et périphériques.⁶¹ La visibilité s'étend au trafic chiffré grâce à l'inspection TLS accélérée par matériel sans la pénalité de performance du déchiffrement logiciel.
Intégration dans l'infrastructure IA
Les clusters IA présentent des exigences DPU spécifiques qui diffèrent des charges de travail générales des centres de données. Le schéma de trafic est-ouest entre les GPU pendant l'entraînement distribué crée des demandes de bande passante soutenues que les NIC traditionnelles ne peuvent pas gérer sans assistance CPU.⁶²
Les opérations collectives—all-reduce, all-gather et broadcast—forment l'épine dorsale de communication de l'entraînement distribué.⁶³ Les DPU peuvent accélérer ces opérations par déchargement matériel, réduisant la latence et libérant le calcul GPU pour l'exécution réelle du modèle.
Le support RDMA s'avère essentiel pour les charges de travail IA. Les DPU gèrent le traitement RoCEv2 (RDMA over Converged Ethernet) ou InfiniBand RDMA en matériel, contournant entièrement la pile réseau hôte.⁶⁴ Le transfert de données zéro-copie entre la mémoire GPU et le réseau minimise la latence et maximise l'utilisation de la bande passante.
Le contrôle de congestion devient critique à l'échelle des clusters IA. Les DPU implémentent DCQCN (Data Center Quantized Congestion Notificati
[Contenu tronqué pour la traduction]