DPU's en SmartNIC's: de derde pijler van datacentercomputing
Bijgewerkt op 11 december 2025
December 2025 Update: DPU SmartNIC-markt bereikt $1,11 miljard in 2024, verwacht $4,44 miljard in 2034 (15% CAGR). 50% van de cloudproviders gebruikt nu DPU's; 35% van AI-trainingstaken wordt naar DPU's uitbesteed. BlueField-3 levert het equivalent van 300 CPU-cores aan services-offload. BlueField-4 aangekondigd met 800Gbps en 6x rekenkracht. AMD Pensando Elba levert met dual 200GbE en P4-programmeerbaarheid.
De DPU SmartNIC-markt bereikte $1,11 miljard in 2024 en zal groeien naar $4,44 miljard in 2034 met een samengesteld jaarlijks groeipercentage van 14,89%.¹ Bijna 50% van de cloudserviceproviders vertrouwt nu op DPU's voor workloadoptimalisatie.² Ongeveer 35% van de AI-modeltrainingstaken wordt uitbesteed aan DPU's voor betere efficiëntie en prestaties.³ Marktleiders beschouwen DPU's steeds meer als de derde pijler van computing naast CPU's en GPU's—de dedicated processors die data veilig door infrastructuur verplaatsen.⁴
AI-clusters hebben verkeerspatronen binnen datacenters getransformeerd. Het meeste verkeer stroomt nu oost-west tussen GPU's tijdens modeltraining en checkpointing in plaats van noord-zuid tussen applicaties en het internet.⁵ De DPU evolueerde van een optionele accelerator naar noodzakelijke infrastructuur die voorkomt dat CPU-bottlenecks de GPU-benutting beperken.⁶ Organisaties die AI-infrastructuur bouwen moeten DPU-selectie net zo zorgvuldig evalueren als GPU- en CPU-keuzes.
NVIDIA BlueField-3: de infrastructuurstandaard
NVIDIA BlueField-3 vertegenwoordigt de derde generatie datacenterinfrastructuur-op-een-chip, waarmee organisaties software-defined, hardware-versnelde IT-infrastructuur kunnen bouwen van cloud tot kern-datacenter tot edge.⁷ De 22 miljard transistor DPU offloadt, versnelt en isoleert software-defined networking-, opslag-, beveiligings- en beheerfuncties.⁸
Netwerkconnectiviteit bereikt 400 gigabit per seconde via Ethernet of NDR InfiniBand.⁹ Poortconfiguraties variëren van 1, 2 of 4 poorten met opties voor verschillende bandbreedtecombinaties.¹⁰ On-board geheugen omvat 16 gigabyte DDR5 met vormfactoropties waaronder half-height half-length en full-height half-length PCIe-kaarten.¹¹
BlueField-3 levert 10 keer de versnelde rekenkracht van de vorige generatie.¹² Het processorcomplex beschikt over 16 ARM A78-cores met 4 keer de cryptografieversnelling van BlueField-2.¹³ Netwerkbandbreedte verdubbelde terwijl rekenkracht verviervoudigde en geheugenbandbreedte bijna 5 keer toenam.¹⁴
De prestatie-equivalentie vertelt het verhaal. Eén BlueField-3 DPU levert de equivalente datacenterservices van tot 300 CPU-cores, waardoor waardevolle CPU-cycles vrijkomen voor bedrijfskritische applicaties.¹⁵ De offload-ratio rechtvaardigt DPU-investeringen voor organisaties waar CPU-capaciteit workloadimplementatie beperkt.
BlueField-3 is de eerste DPU die vijfde-generatie PCIe ondersteunt en tijdgesynchroniseerde datacenterversnelling biedt.¹⁶ Maximaal stroomverbruik overschrijdt niet 150 watt.¹⁷
Toepassingen bestrijken de volledige infrastructuurstack: hyperconverged infrastructure met encryptie, data-integriteit, deduplicatie, decompressie en erasure coding voor opslag; gedistribueerde firewalls, IDS/IPS, root of trust, microsegmentatie en DDoS-preventie voor beveiliging; cloud-native supercomputing met multi-tenancy en communicatieversnelling voor HPC/AI; en Cloud RAN, gevirtualiseerde edge gateways en VNF-versnelling voor telco- en edge-toepassingen.¹⁸
NVIDIA kondigde BlueField-4 aan als opvolger—een 800 gigabit per seconde infrastructuurplatform voor gigascale AI-fabrieken dat 6 keer de rekenkracht van BlueField-3 levert met versnellingen voor networking, dataopslag en cybersecurity.¹⁹
AMD Pensando: de keuze van hyperscalers
AMD verwierf Pensando Systems in 2022, waarmee P4-programmeerbare DPU-technologie in AMD's datacenterportfolio kwam.²⁰ De Pensando DPU's zijn breed geadopteerd, gevalideerd en getest als front-end networkingoplossing in enkele van de grootste hyperscale datacenters.²¹
De tweede-generatie AMD Pensando Elba DPU is volledig P4-programmeerbaar en geoptimaliseerd voor hoge doorvoer, waardoor geavanceerde offload van networking-, opslag- en beveiligingsservices mogelijk is op dual 200 gigabit per seconde line rate.²²
De Elba SoC bevat 16 ARM Cortex-A72-cores, dual DDR4/DDR5-geheugencontrollers, 32 lanes PCIe Gen3 of Gen4-connectiviteit, tot dual 200GbE of quad 100GbE networking, en opslag- en crypto-offloadmogelijkheden.²³
De architectuur centreert zich rond Match-Processing Units (MPU's) waar software-in-silicon uitvoert en versnelde fast-path services biedt.²⁴ Systeemgeheugen verbindt met zowel de general-purpose ARM-cores als de domeinspecifieke MPU's.²⁵ De P4-pipeline verwerkt networking, opslag, telemetrie, SDN, beveiliging, congestiemanagement en RDMA gelijktijdig zonder prestatieverlies.²⁶
De programmeerbare pipeline biedt VxLAN tunnel-encapsulatie en -decapsulatie, IPv4/v6-routing, stateless en stateful beveiligingsregels, network address translation, server load balancing, encryptieservices, VLAN naar VPC mapping en VPC-peering op line rate.²⁷
AMD biedt een SAI (Switch Abstraction Interface) referentiepipeline die SONiC OS draait op Pensando DPU's.²⁸ De integratie maakt SONiC-geleverde services mogelijk waaronder de routing stack, beheerinterface en monitoring terwijl volledige DPU-mogelijkheden via de SSDK worden benut.²⁹
AMD introduceerde de Pensando Salina als de 400G-opvolger, ontworpen om direct te concurreren met NVIDIA BlueField-3 in front-end networktoepassingen.³⁰ De Pensando Pollara 400 AI NIC werd commercieel beschikbaar in de eerste helft van 2025, waarmee AI- en HPC-networking wordt geoptimaliseerd door geavanceerde mogelijkheden waaronder RDMA en congestion control.³¹
De nieuwere Giglio DPU bouwt voort op Elba met source-code compatibiliteit, waardoor bestaande klanten het nieuwere platform kunnen adopteren met minimale softwarewijzigingen.³²
Voor ondernemingen die VMware draaien, beperken de praktische keuzes zich tot NVIDIA BlueField-2 of AMD Pensando DSC2.³³ De VMware-ecosysteemondersteuning beperkt opties voor organisaties die aan dat virtualisatieplatform zijn gecommitteerd.
Intel IPU E2100: de cloud-native aanpak
Intel's Infrastructure Processing Unit (IPU) Adapter E2100 levert infrastructuurversnelling, virtuele opslagondersteuning en verbeterde beveiligingsfuncties.³⁴ De E2100 SoC is een infrastructuurversnellingsplatform geoptimaliseerd voor vermogen, prestaties en schaal.³⁵
De hardware beschikt over een rijke packet-processing pipeline met 200GbE bandbreedte en bevat NVMe-, compressie- en crypto-accelerators.³⁶ Het ARM Neoverse N1-rekencomplex stelt door klanten geleverde software in staat om functies uit te voeren variërend van complexe packet-processing pipelines tot opslagtransport, apparaatbeheer en telemetrie.³⁷
De E2100 bevat 16 ARM Neoverse N1-cores met 32 megabyte cache en 3 kanalen van 16GB LPDDR4x-geheugen met een totaal van 48 gigabyte.³⁸
Modelvarianten adresseren verschillende implementatievereisten. De E2100-CCQDA2 werd gelanceerd in Q1 2024 met 150W TDP in een dual-poort configuratie die 200/100/50/25/10GbE datasnelheden ondersteunt via PCIe 4.0 in een half-length, full-height, single-slot vormfactor.³⁹ De E2100-CCQDA2HL werd gelanceerd in Q4 2024 met gereduceerde 75W TDP in dezelfde dual-poort configuratie.⁴⁰
Connectiviteit gebruikt QSFP56-poorten die DAC, optics en AOC-kabels ondersteunen.⁴¹ Virtualisatie-ondersteuning omvat Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV en RoCEv2/RDMA.⁴²
De Intel IPU-lijn vindt zijn oorsprong in het Mt Evans-project, ontworpen om te functioneren als AWS Nitro specifiek voor Google Cloud, met offloading van NVMe over Fabric en netwerkbeveiliging.⁴³ De E2100 vertegenwoordigt de eerste iteratie beschikbaar voor niet-Google-klanten.⁴⁴
Toepassingen omvatten scheiding en isolatie van infrastructuurworkloads, offloading van gevirtualiseerde netwerken naar de IPU waar accelerators taken efficiënter verwerken, en vervanging van lokale schijfopslag door losgekoppelde gevirtualiseerde opslag.⁴⁵
Marktdynamiek en adoptiepatronen
De DPU-markt verdeelt zich in duidelijke toepassingssegmenten. Datacenter-offload leidt, aangedreven door hyperscale datacenteruitbreiding en groeiende eisen van complexe, data-intensieve computing workloads.⁴⁶ Noord-Amerika heeft het grootste omzetaandeel, gedreven door escalerende cybersecuritydreigingen, groeiende adoptie van zero-trust beveiligingsframeworks en significante investeringen in AI- en machine learning-infrastructuur.⁴⁷
Adoptiepatronen tonen duidelijke workload-afstemming. Ongeveer 30% van de implementaties richt zich op AI-workloads terwijl 20% zich richt op zero-trust beveiligingsarchitectuur.⁴⁸ DPU's met hardware-gebaseerde beveiligingsversnelling zien een toename van 30% in adoptie, wat de prioriteit van de industrie op zero-trust principes weerspiegelt.⁴⁹
AI-verkeerspatronen maken DPU's noodzakelijk. Oost-west verkeer tussen GPU's tijdens training domineert moderne AI-clustercommunicatie.⁵⁰ De host-CPU kan dit verkeer niet op line rate verwerken zonder een bottleneck te worden. DPU's verwerken de netwerkverwerking die anders CPU-cycles zou verbruiken die nodig zijn voor orchestratie en control plane-functies.
Het concurrentielandschap kent drie primaire leveranciers met verschillende positionering. NVIDIA leidt met BlueField-integratie in zijn bredere AI-infrastructuurecosysteem en de sterkste InfiniBand-ondersteuning.⁵¹ AMD Pensando domineert hyperscaler-implementaties met bewezen productieschaal en P4-programmeerbaarheid.⁵² Intel richt zich op cloud-native architecturen met het Nitro-geïnspireerde IPU-ontwerp.⁵³
Marvell's OCTEON 10 vertegenwoordigt de next-generation uitdager—de eerste 5nm DPU in de industrie met ARM Neoverse N2-cores die 3 keer hogere computerprestaties en 50% lager stroomverbruik leveren dan vorige generaties.⁵⁴ Innovatieve hardware-accelerators voor inline ML/AI bieden 100 keer prestatieverbetering ten opzichte van software-gebaseerde inferentie.⁵⁵
Zero-trust beveiligingsimplementatie
DPU's maken zero-trust beveiligingshandhaving aan de netwerkrand mogelijk zonder host-CPU's te betrekken.⁵⁶ De architectuur plaatst beleidshandhaving bij de databron in plaats van bij netwerkaggregatiepunten.
L4-firewalls draaien direct op de DPU en handhaven beleid voordat verkeer de host bereikt.⁵⁷ NVIDIA's BlueField DPU ondersteunt microsegmentatie, waardoor operators zero-trust principes kunnen toepassen op GPU-workloads zonder host-CPU-betrokkenheid.⁵⁸
Het beveiligingsmodel is bijzonder relevant voor multi-tenant AI-infrastructuur. Wanneer meerdere klanten GPU-clusters delen, handhaaft de DPU isolatie tussen tenants op netwerkniveau.⁵⁹ Het host-besturingssysteem ziet nooit verkeer dat bestemd is voor andere tenants, waardoor het aanvalsoppervlak wordt verminderd.
Root of trust vestigt cryptografische verificatie van infrastructuurcomponenten.⁶⁰ De DPU valideert firmware, besturingssystemen en applicaties voordat netwerktoegang wordt verleend. Gecompromitteerde hosts kunnen niet communiceren op het netwerk zonder DPU-afgedwongen verificatie te doorstaan.
DPU's maken netwerkmonitoring, telemetrie en observability-functies mogelijk in sterk gedistribueerde zero-trust omgevingen over cloud- en edge-instanties.⁶¹ De zichtbaarheid strekt zich uit tot versleuteld verkeer door hardware-versnelde TLS-inspectie zonder de prestatiepenalty van software-gebaseerde decryptie.
AI-infrastructuurintegratie
AI-clusters stellen specifieke DPU-vereisten die verschillen van algemene datacenterworkloads. Het oost-west verkeerspatroon tussen GPU's tijdens gedistribueerde training creëert aanhoudende bandbreedtevereisten die traditionele NIC's niet kunnen verwerken zonder CPU-assistentie.⁶²
Collectieve operaties—all-reduce, all-gather en broadcast—vormen de communicatiebackbone van gedistribueerde training.⁶³ DPU's kunnen deze operaties versnellen door hardware-offload, waardoor latentie wordt verminderd en GPU-compute wordt vrijgemaakt voor daadwerkelijke modeluitvoering.
RDMA-ondersteuning blijkt essentieel voor AI-workloads. DPU's verwerken RoCEv2 (RDMA over Converged Ethernet) of InfiniBand RDMA-verwerking in hardware, waarbij de host-netwerkstack volledig wordt omzeild.⁶⁴ De zero-copy datatransfer tussen GPU-geheugen en netwerk minimaliseert latentie en maximaliseert bandbreedtebenutting.
Congestion control wordt kritisch op AI-clusterschaal. DPU's implementeren DCQCN (Data Center Quantized Congestion Notificati
[Inhoud afgekapt voor vertaling]