DPUs und SmartNICs: die dritte Säule des Rechenzentrums-Computing
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: Der DPU-SmartNIC-Markt erreicht 2024 1,11 Mrd. USD, prognostiziert werden 4,44 Mrd. USD bis 2034 (15% CAGR). 50% der Cloud-Anbieter nutzen jetzt DPUs; 35% des KI-Trainings werden auf DPUs ausgelagert. BlueField-3 liefert das Äquivalent von 300 CPU-Kernen bei der Service-Auslagerung. BlueField-4 wurde mit 800 Gbit/s und 6-facher Rechenleistung angekündigt. AMD Pensando Elba wird mit Dual 200GbE und P4-Programmierbarkeit ausgeliefert.
Der DPU-SmartNIC-Markt erreichte 2024 1,11 Milliarden USD und wird bis 2034 bei einer durchschnittlichen jährlichen Wachstumsrate von 14,89% auf 4,44 Milliarden USD anwachsen.¹ Fast 50% der Cloud-Service-Provider setzen mittlerweile auf DPUs zur Workload-Optimierung.² Etwa 35% der KI-Modelltrainings werden für bessere Effizienz und Leistung auf DPUs ausgelagert.³ Branchenführer betrachten DPUs zunehmend als dritte Säule des Computing neben CPUs und GPUs – als dedizierte Prozessoren, die Daten sicher durch die Infrastruktur bewegen.⁴
KI-Cluster haben die Verkehrsmuster innerhalb von Rechenzentren transformiert. Der Großteil des Datenverkehrs fließt heute Ost-West zwischen GPUs während des Modelltrainings und Checkpointing statt Nord-Süd zwischen Anwendungen und Internet.⁵ Die DPU entwickelte sich von einem optionalen Beschleuniger zur notwendigen Infrastruktur, die verhindert, dass CPU-Engpässe die GPU-Auslastung einschränken.⁶ Organisationen, die KI-Infrastruktur aufbauen, müssen die DPU-Auswahl genauso sorgfältig bewerten wie die Wahl von GPU und CPU.
NVIDIA BlueField-3: der Infrastrukturstandard
NVIDIA BlueField-3 repräsentiert die dritte Generation der Rechenzentrums-Infrastruktur-on-a-Chip und ermöglicht es Organisationen, softwaredefinierte, hardwarebeschleunigte IT-Infrastruktur von der Cloud über das Kernrechenzentrum bis zur Edge aufzubauen.⁷ Die DPU mit 22 Milliarden Transistoren lagert softwaredefiniertes Networking, Storage, Sicherheit und Management-Funktionen aus, beschleunigt und isoliert diese.⁸
Die Netzwerkkonnektivität erreicht 400 Gigabit pro Sekunde über Ethernet oder NDR InfiniBand.⁹ Port-Konfigurationen umfassen 1, 2 oder 4 Ports mit Optionen für verschiedene Bandbreitenkombinationen.¹⁰ Der On-Board-Speicher umfasst 16 Gigabyte DDR5 mit Formfaktor-Optionen einschließlich Half-Height-Half-Length- und Full-Height-Half-Length-PCIe-Karten.¹¹
BlueField-3 liefert die 10-fache beschleunigte Rechenleistung der vorherigen Generation.¹² Der Prozessorkomplex verfügt über 16 ARM A78-Kerne mit 4-facher Kryptographie-Beschleunigung gegenüber BlueField-2.¹³ Die Netzwerkbandbreite verdoppelte sich, während sich die Rechenleistung vervierfachte und die Speicherbandbreite fast 5-fach zunahm.¹⁴
Die Leistungsäquivalenz erzählt die Geschichte. Eine BlueField-3 DPU liefert Rechenzentrumsdienste, die dem Äquivalent von bis zu 300 CPU-Kernen entsprechen, und gibt wertvolle CPU-Zyklen für geschäftskritische Anwendungen frei.¹⁵ Das Offload-Verhältnis rechtfertigt DPU-Investitionen für Organisationen, bei denen die CPU-Kapazität den Workload-Einsatz einschränkt.
BlueField-3 ist die erste DPU, die PCIe der fünften Generation unterstützt und zeitsynchronisierte Rechenzentrumsbeschleunigung bietet.¹⁶ Der maximale Stromverbrauch überschreitet 150 Watt nicht.¹⁷
Die Anwendungsfälle erstrecken sich über den gesamten Infrastruktur-Stack: Hyperkonvergente Infrastruktur mit Verschlüsselung, Datenintegrität, Deduplizierung, Dekomprimierung und Erasure Coding für Storage; verteilte Firewalls, IDS/IPS, Root of Trust, Mikrosegmentierung und DDoS-Prävention für Sicherheit; Cloud-natives Supercomputing mit Multi-Tenancy und Kommunikationsbeschleunigung für HPC/KI; sowie Cloud RAN, virtualisierte Edge-Gateways und VNF-Beschleunigung für Telco- und Edge-Anwendungen.¹⁸
NVIDIA kündigte BlueField-4 als Nachfolger an – eine 800-Gigabit-pro-Sekunde-Infrastrukturplattform für Gigascale-KI-Fabriken mit 6-facher Rechenleistung gegenüber BlueField-3 und Beschleunigungen für Networking, Datenspeicherung und Cybersicherheit.¹⁹
AMD Pensando: die Wahl der Hyperscaler
AMD erwarb 2022 Pensando Systems und brachte damit P4-programmierbare DPU-Technologie in AMDs Rechenzentrums-Portfolio ein.²⁰ Die Pensando DPUs wurden weitgehend eingeführt, validiert und als Frontend-Netzwerklösung in einigen der größten Hyperscale-Rechenzentren getestet.²¹
Die AMD Pensando Elba DPU der zweiten Generation ist vollständig P4-programmierbar und für hohen Durchsatz optimiert, was eine fortschrittliche Auslagerung von Netzwerk-, Storage- und Sicherheitsdiensten bei dualer 200-Gigabit-pro-Sekunde-Leitungsrate ermöglicht.²²
Das Elba SoC enthält 16 ARM Cortex-A72-Kerne, duale DDR4/DDR5-Speichercontroller, 32 Lanes PCIe Gen3- oder Gen4-Konnektivität, bis zu Dual 200GbE oder Quad 100GbE Networking sowie Storage- und Krypto-Offloading-Fähigkeiten.²³
Die Architektur konzentriert sich auf Match-Processing Units (MPUs), in denen Software-in-Silicon ausgeführt wird und beschleunigte Fast-Path-Dienste bereitstellt.²⁴ Der Systemspeicher ist sowohl mit den universellen ARM-Kernen als auch mit den domänenspezifischen MPUs verbunden.²⁵ Die P4-Pipeline verarbeitet gleichzeitig Networking, Storage, Telemetrie, SDN, Sicherheit, Staukontrolle und RDMA ohne Leistungseinbußen.²⁶
Die programmierbare Pipeline bietet VxLAN-Tunnel-Kapselung und -Entkapselung, IPv4/v6-Routing, zustandslose und zustandsbehaftete Sicherheitsregeln, Network Address Translation, Server Load Balancing, Verschlüsselungsdienste, VLAN-zu-VPC-Mapping und VPC-Peering bei Leitungsrate.²⁷
AMD bietet eine SAI-Referenz-Pipeline (Switch Abstraction Interface), die SONiC OS auf Pensando DPUs ausführt.²⁸ Die Integration ermöglicht SONiC-bereitgestellte Dienste einschließlich Routing-Stack, Management-Interface und Monitoring bei voller Nutzung der DPU-Fähigkeiten über das SSDK.²⁹
AMD führte den Pensando Salina als 400G-Nachfolger ein, der direkt mit NVIDIA BlueField-3 bei Frontend-Netzwerkanwendungen konkurrieren soll.³⁰ Der Pensando Pollara 400 AI NIC wurde in der ersten Hälfte 2025 kommerziell verfügbar und optimiert KI- und HPC-Networking durch fortschrittliche Fähigkeiten einschließlich RDMA und Staukontrolle.³¹
Die neuere Giglio DPU baut auf Elba mit Quellcode-Kompatibilität auf, sodass bestehende Kunden die neuere Plattform mit minimalen Softwareänderungen übernehmen können.³²
Für Unternehmen, die VMware betreiben, verengen sich die praktischen Optionen auf NVIDIA BlueField-2 oder AMD Pensando DSC2.³³ Die VMware-Ökosystem-Unterstützung begrenzt die Optionen für Organisationen, die sich dieser Virtualisierungsplattform verschrieben haben.
Intel IPU E2100: der Cloud-native Ansatz
Intels Infrastructure Processing Unit (IPU) Adapter E2100 liefert Infrastrukturbeschleunigung, Virtual-Storage-Enablement und erweiterte Sicherheitsfunktionen.³⁴ Das E2100 SoC ist eine Infrastruktur-Beschleunigungsplattform, die für Leistung, Performance und Skalierung optimiert ist.³⁵
Die Hardware bietet eine umfangreiche Paketverarbeitungs-Pipeline mit 200GbE-Bandbreite und beinhaltet NVMe-, Kompressions- und Krypto-Beschleuniger.³⁶ Der ARM Neoverse N1 Compute-Komplex ermöglicht die Ausführung kundenseitig bereitgestellter Software für Funktionen von komplexen Paketverarbeitungs-Pipelines bis hin zu Storage-Transport, Geräteverwaltung und Telemetrie.³⁷
Der E2100 enthält 16 ARM Neoverse N1-Kerne mit 32 Megabyte Cache und 3 Kanäle mit 16GB LPDDR4x-Speicher für insgesamt 48 Gigabyte.³⁸
Modellvarianten adressieren unterschiedliche Deployment-Anforderungen. Der E2100-CCQDA2 wurde in Q1 2024 mit 150W TDP in einer Dual-Port-Konfiguration eingeführt, die Datenraten von 200/100/50/25/10GbE über PCIe 4.0 in einem Half-Length-, Full-Height-, Single-Slot-Formfaktor unterstützt.³⁹ Der E2100-CCQDA2HL wurde in Q4 2024 mit reduziertem 75W TDP in der gleichen Dual-Port-Konfiguration eingeführt.⁴⁰
Die Konnektivität nutzt QSFP56-Ports, die DAC, Optik und AOC-Kabel unterstützen.⁴¹ Die Virtualisierungsunterstützung umfasst Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV und RoCEv2/RDMA.⁴²
Die Intel IPU-Linie geht auf das Mt Evans-Projekt zurück, das als AWS Nitro speziell für Google Cloud funktionieren sollte und NVMe over Fabric sowie Netzwerksicherheit auslagert.⁴³ Der E2100 repräsentiert die erste Iteration, die für Nicht-Google-Kunden verfügbar ist.⁴⁴
Anwendungsfälle umfassen Trennung und Isolation von Infrastruktur-Workloads, Auslagerung virtualisierter Netzwerke auf die IPU, wo Beschleuniger Aufgaben effizienter verarbeiten, und Ersatz von lokalem Festplattenspeicher durch entkoppelten virtualisierten Storage.⁴⁵
Marktdynamik und Adoptionsmuster
Der DPU-Markt teilt sich in verschiedene Anwendungsfallsegmente. Die Rechenzentrums-Auslagerung führt, angetrieben durch die Expansion von Hyperscale-Rechenzentren und die wachsenden Anforderungen komplexer, datenintensiver Computing-Workloads.⁴⁶ Nordamerika hält den größten Umsatzanteil, getrieben durch eskalierende Cybersicherheitsbedrohungen, wachsende Adoption von Zero-Trust-Sicherheitsframeworks und signifikante Investitionen in KI- und Machine-Learning-Infrastruktur.⁴⁷
Adoptionsmuster zeigen klare Workload-Ausrichtung. Etwa 30% der Deployments fokussieren sich auf KI-Workloads, während 20% auf Zero-Trust-Sicherheitsarchitektur abzielen.⁴⁸ DPUs mit hardwarebasierter Sicherheitsbeschleunigung verzeichnen einen 30%igen Anstieg der Adoption, was die Branchenpriorität auf Zero-Trust-Prinzipien widerspiegelt.⁴⁹
KI-Verkehrsmuster treiben die DPU-Notwendigkeit. Ost-West-Verkehr zwischen GPUs während des Trainings dominiert die moderne KI-Cluster-Kommunikation.⁵⁰ Die Host-CPU kann diesen Verkehr nicht bei Leitungsrate verarbeiten, ohne zum Engpass zu werden. DPUs übernehmen die Netzwerkverarbeitung, die sonst CPU-Zyklen verbrauchen würde, die für Orchestrierung und Control-Plane-Funktionen benötigt werden.
Die Wettbewerbslandschaft zeigt drei primäre Anbieter mit unterschiedlicher Positionierung. NVIDIA führt mit der BlueField-Integration in sein breiteres KI-Infrastruktur-Ökosystem und der stärksten InfiniBand-Unterstützung.⁵¹ AMD Pensando dominiert Hyperscaler-Deployments mit bewährter Produktionsskalierung und P4-Programmierbarkeit.⁵² Intel zielt mit dem Nitro-inspirierten IPU-Design auf Cloud-native Architekturen.⁵³
Marvells OCTEON 10 repräsentiert den Herausforderer der nächsten Generation – die branchenweit erste 5nm-DPU mit ARM Neoverse N2-Kernen, die 3-fach höhere Rechenleistung und 50% niedrigeren Stromverbrauch als frühere Generationen liefert.⁵⁴ Innovative Hardware-Beschleuniger für Inline-ML/KI bieten eine 100-fache Leistungssteigerung gegenüber softwarebasierter Inferenz.⁵⁵
Zero-Trust-Sicherheitsimplementierung
DPUs ermöglichen Zero-Trust-Sicherheitsdurchsetzung am Netzwerkrand ohne Beteiligung von Host-CPUs.⁵⁶ Die Architektur platziert die Policy-Durchsetzung an der Datenquelle statt an Netzwerk-Aggregationspunkten.
L4-Firewalls laufen direkt auf der DPU und setzen Policies durch, bevor der Verkehr den Host erreicht.⁵⁷ NVIDIAs BlueField DPU unterstützt Mikrosegmentierung, sodass Betreiber Zero-Trust-Prinzipien auf GPU-Workloads ohne Host-CPU-Beteiligung anwenden können.⁵⁸
Das Sicherheitsmodell ist besonders wichtig für Multi-Tenant-KI-Infrastruktur. Wenn mehrere Kunden GPU-Cluster teilen, setzt die DPU die Isolation zwischen Mandanten auf Netzwerkebene durch.⁵⁹ Das Host-Betriebssystem sieht nie Verkehr, der für andere Mandanten bestimmt ist, was die Angriffsfläche reduziert.
Root of Trust etabliert kryptographische Verifizierung von Infrastrukturkomponenten.⁶⁰ Die DPU validiert Firmware, Betriebssysteme und Anwendungen, bevor sie Netzwerkzugang gewährt. Kompromittierte Hosts können nicht im Netzwerk kommunizieren, ohne die DPU-durchgesetzte Verifizierung zu bestehen.
DPUs ermöglichen Netzwerküberwachung, Telemetrie und Observability-Funktionen in hochverteilten Zero-Trust-Umgebungen über Cloud- und Edge-Instanzen hinweg.⁶¹ Die Sichtbarkeit erstreckt sich auf verschlüsselten Verkehr durch hardwarebeschleunigte TLS-Inspektion ohne die Performance-Einbußen softwarebasierter Entschlüsselung.
KI-Infrastruktur-Integration
KI-Cluster stellen spezifische DPU-Anforderungen, die sich von allgemeinen Rechenzentrums-Workloads unterscheiden. Das Ost-West-Verkehrsmuster zwischen GPUs während des verteilten Trainings erzeugt anhaltende Bandbreitenanforderungen, die traditionelle NICs ohne CPU-Unterstützung nicht bewältigen können.⁶²
Kollektive Operationen – All-Reduce, All-Gather und Broadcast – bilden das Kommunikationsrückgrat des verteilten Trainings.⁶³ DPUs können diese Operationen durch Hardware-Offload beschleunigen, die Latenz reduzieren und GPU-Rechenleistung für die eigentliche Modellausführung freigeben.
RDMA-Unterstützung erweist sich als essentiell für KI-Workloads. DPUs verarbeiten RoCEv2 (RDMA over Converged Ethernet) oder InfiniBand RDMA in Hardware und umgehen den Host-Netzwerkstack vollständig.⁶⁴ Der Zero-Copy-Datentransfer zwischen GPU-Speicher und Netzwerk minimiert Latenz und maximiert die Bandbreitenauslastung.
Staukontrolle wird bei KI-Cluster-Skalierung kritisch. DPUs implementieren DCQCN (Data Center Quantized Congestion Notificati
[Inhalt zur Übersetzung gekürzt]