InfiniBand-Switches: NVIDIA Quantum-X800 und die XDR-Generation als Antrieb für KI-Supercomputer
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: Der InfiniBand-Markt erreicht 25,7 Mrd. USD in 2025 und wird bis 2030 auf 127 Mrd. USD prognostiziert (38% CAGR). Quantum-X800 liefert 144 Ports mit 800 Gbit/s XDR und 14,4 TFLOPS In-Network-Computing (9-fach gegenüber NDR). Port-zu-Port-Latenz unter 100 ns. Stargates 64.000 GB200s und Oracles 131.000-GPU-Zettascale-Supercluster laufen auf InfiniBand.
Die Verkäufe von InfiniBand-Switches stiegen im Q2 2025 sprunghaft an, da NVIDIAs Blackwell-Ultra-Plattform die Nachfrage nach 800-Gbit/s-Netzwerken antrieb.¹ Der InfiniBand-Markt, der 2025 auf 25,74 Mrd. USD geschätzt wird, prognostiziert ein Wachstum auf 126,99 Mrd. USD bis 2030 bei einer durchschnittlichen jährlichen Wachstumsrate von 37,60%.² Während Ethernet insgesamt die Marktführerschaft bei KI-Backend-Netzwerken behauptet, dominiert InfiniBand bei den leistungsstärksten Implementierungen, wo Latenz im Bereich von Hunderten von Nanosekunden die Trainingseffizienz bestimmt.
Die Quantum-X800-Plattform ist NVIDIAs Antwort auf die Anforderungen von Modellen mit Billionen Parametern. Mit 144 Ports mit 800-Gbit/s-Konnektivität, 14,4 Teraflops In-Network-Computing durch SHARP v4 und Port-zu-Port-Latenz unter 100 Nanosekunden verdoppelt die XDR-Generation die Bandbreite und liefert gleichzeitig 9-mal mehr In-Network-Computing als die vorherige NDR-Plattform.³ Große Installationen wie Stargates 64.000 GB200-Systeme und Oracles 131.000-GPU-Zettascale-Supercluster setzen auf NVIDIA InfiniBand, um die enge Synchronisation aufrechtzuerhalten, die verteiltes KI-Training erfordert.⁴
Die Entwicklung von NDR zu XDR
InfiniBand-Generationen entwickeln sich durch standardisierte Geschwindigkeitssteigerungen: QDR (40 Gbit/s), FDR (56 Gbit/s), EDR (100 Gbit/s), HDR (200 Gbit/s), NDR (400 Gbit/s) und jetzt XDR (800 Gbit/s).⁵ Jede Generation verdoppelt die Bandbreite pro Port und behält gleichzeitig die niedrige Latenz und Hardware-basierte Zuverlässigkeit bei, die InfiniBand von Ethernet-Alternativen unterscheiden.
NDR (Next Data Rate), 2021 eingeführt, lieferte 400-Gbit/s-Ports unter Verwendung von vier Lanes PAM-4-kodierter SerDes mit 51,6 GHz.⁶ Die Quantum-2-ASICs, die NDR-Switches antreiben, bieten 256 SerDes-Lanes mit 25,6 Tbit/s unidirektionaler Bandbreite und verarbeiten 66,5 Milliarden Pakete pro Sekunde über 64 Ports mit 400-Gbit/s-Konnektivität.⁷ NDR brachte OSFP-Steckverbinder zu InfiniBand und ermöglichte ein oder zwei Links in 2x- (NDR200) oder 4x-Konfigurationen (NDR400).⁸
Die XDR-Spezifikation (eXtreme Data Rate), die von der InfiniBand Trade Association im Oktober 2023 veröffentlicht wurde, verdoppelt die Bandbreite, um den Anforderungen von KI- und HPC-Rechenzentren gerecht zu werden.⁹ SerDes-Unterstützung bei 200 Gbit/s pro Lane ermöglicht 800-Gbit/s-Ports, wobei Switch-zu-Switch-Verbindungen 1,6 Tbit/s erreichen.¹⁰ XDR führt SHARP der vierten Generation, ultraniedrige Latenzverbesserungen, Selbstheilungsfähigkeiten und die Integration von Silizium-Photonik ein.¹¹
Die Roadmap setzt sich mit GDR-Technologie (Giga Data Rate) fort, die 1,6 Tbit/s pro Port für zukünftige Generationen bietet und sicherstellt, dass InfiniBand seine führende Leistungsposition beibehält.¹²
Architektur der NVIDIA Quantum-X800-Plattform
Die Quantum-X800-Plattform liefert die erste XDR-InfiniBand-Implementierung, speziell entwickelt für KI-Modelle mit Billionen Parametern.¹³ Der Q3400-RA 4U-Switch nutzt 200-Gbit/s-pro-Lane-SerDes-Technologie – das erste Switch-Silizium, das diese Geschwindigkeitsklasse erreicht.¹⁴
Die Portdichte skaliert erheblich. Der Switch bietet 144 Ports mit 800-Gbit/s-Konnektivität, verteilt auf 72 OSFP-Käfige.¹⁵ Hohe Radix-Werte ermöglichen effiziente Fabric-Topologien, wobei ein zweistufiger Fat-Tree bis zu 10.368 ConnectX-8-NICs mit minimaler Latenz und optimaler Job-Lokalität verbinden kann.¹⁶
Die Leistungsspezifikationen zielen auf die anspruchsvollsten KI-Workloads ab. Die Port-zu-Port-Latenz liegt unter 100 Nanosekunden.¹⁷ Adaptives Routing verteilt den Datenverkehr dynamisch über verfügbare Pfade. Telemetrie-basierte Überlastungskontrolle verhindert Netzwerksättigung, bevor sie die GPU-Auslastung beeinträchtigt.¹⁸
Dual-Switch-Gehäuse in Modellen wie dem Q3200-RA bieten 72 Ports mit 800 Gbit/s bei aggregierter Switch-zu-Switch-Bandbreite von 1,6 Tbit/s und ermöglichen die Spine-Leaf-Topologien, die große KI-Cluster erfordern.¹⁹ Optionale Router-Funktionen erleichtern die Erweiterung von InfiniBand-Clustern über mehrere Standorte hinweg und unterstützen verteilte Trainingsumgebungen über geografische Standorte hinweg.²⁰
SHARP In-Network-Computing eliminiert Engpässe
NVIDIAs Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) stellt den entscheidenden technologischen Vorteil von InfiniBand gegenüber Ethernet-Alternativen dar. Durch die Auslagerung kollektiver Operationen wie All-Reduce und Broadcast auf Netzwerk-Switches reduziert SHARP das Datenübertragungsvolumen erheblich und minimiert Server-Jitter während des verteilten Trainings.²¹
Die Entwicklung über vier Generationen erweiterte die SHARP-Fähigkeiten schrittweise:
SHARPv1 konzentrierte sich auf Reduktionsoperationen für kleine Nachrichten für wissenschaftliches Rechnen und demonstrierte erhebliche Leistungsverbesserungen, die von führenden MPI-Bibliotheken übernommen wurden.²²
SHARPv2, eingeführt mit HDR-200-Gbit/s-Quantum-Switches, fügte KI-Workload-Unterstützung hinzu, einschließlich Reduktionsoperationen für große Nachrichten. Benchmarks zeigten eine 17%ige Verbesserung der BERT-Trainingsleistung.²³
SHARPv3 ermöglichte mandantenfähiges In-Network-Computing, das es mehreren KI-Workloads ermöglicht, SHARP-Funktionen gleichzeitig zu nutzen. Microsoft Azure präsentierte einen fast um eine Größenordnung verbesserten Leistungsvorteil für AllReduce-Latenz mit dieser Generation.²⁴
SHARPv4 ist Standard bei Quantum-X800- und Quantum-X-Photonics-Switches und ermöglicht In-Network-Aggregation und -Reduktion, die den GPU-zu-GPU-Kommunikations-Overhead minimiert.²⁵ Kombiniert mit FP8-Präzisionsunterstützung beschleunigt SHARP v4 das Training von Modellen mit Billionen Parametern, indem sowohl Bandbreiten- als auch Rechenanforderungen reduziert werden, was zu schnellerer Konvergenz und höherem Durchsatz führt.²⁶
Die Technologie integriert sich mit der NVIDIA Collective Communication Library (NCCL) und ermöglicht verteilten KI-Trainings-Frameworks die automatische Nutzung von SHARP. Dienstanbieter berichten von 10-20% Leistungsverbesserungen für KI-Workloads durch SHARP-Integration.²⁷ Die Netzwerk-Switches führen Aggregation und Reduktion direkt durch und umgehen CPUs und GPUs für diese Aufgaben, während sie die AllReduce-Bandbreite im Vergleich zu Nicht-SHARP-Konfigurationen verdoppeln.²⁸
ConnectX-8 SuperNIC liefert 800-Gbit/s-Endpunkte
Die Quantum-X800-Plattform wird mit ConnectX-8-SuperNIC-Adaptern kombiniert, um durchgehenden 800-Gbit/s-Durchsatz zu erreichen.²⁹ Die C8180 ist NVIDIAs erste 800-Gbit/s-Dual-Protokoll-SuperNIC, die sowohl InfiniBand als auch Ethernet unterstützt und für KI-Hochleistungsrechner-Cluster, Supercomputing-Netzwerke und Rechenzentrumsarchitekturen der nächsten Generation entwickelt wurde.³⁰
Technische Spezifikationen treiben die Adapterfähigkeiten erheblich voran. Die Single-Port-OSFP-Schnittstelle liefert 800 Gbit/s XDR InfiniBand oder zwei Ports mit 400 Gbit/s Ethernet.³¹ PCIe-Gen6-x16-Konnektivität bietet die Host-Schnittstellenbandbreite, die den Netzwerkgeschwindigkeiten entspricht.³² Auto-Negotiation unterstützt Abwärtskompatibilität über XDR-, NDR-, NDR200-, HDR-, HDR100-, EDR-, FDR- und SDR-InfiniBand-Geschwindigkeiten.³³
Architekturinnovationen gehen über reine Bandbreite hinaus. ConnectX-8 integriert native PCIe-Gen6-Unterstützung mit einem On-Board-PCIe-Switching-Fabric und eliminiert externe PCIe-Switch-Anforderungen.³⁴ Der Adapter enthält 48 Lanes PCIe Gen6 hinter der x16-Steckerschnittstelle.³⁵ Native SHARP-Unterstützung beschleunigt Aggregations- und Reduktionsoperationen direkt in der Adapter-Hardware.³⁶
Socket-Direct-Technologie adressiert Dual-Socket-Server-Architekturen. Direkter Zugriff von jeder CPU auf das Netzwerk über dedizierte PCIe-Schnittstellen verbessert die Leistung in Systemen, bei denen die CPU-zu-Netzwerk-Topologie die Latenz beeinflusst.³⁷ Die GB300 NVL72 ist die erste Implementierung der PCIe-Gen6-SuperNIC-Fähigkeit, die mit Gen5-Geschwindigkeiten an Grace-CPUs angebunden wird, während Gen6-Links zu B300-GPUs beibehalten werden.³⁸
Unified Fabric Manager orchestriert im großen Maßstab
Die UFM-Plattform revolutioniert das InfiniBand-Fabric-Management, indem sie Echtzeit-Netzwerktelemetrie mit KI-gestützter Analytik kombiniert.³⁹ Die hostbasierte Lösung bietet vollständige Transparenz über Fabric-Management, Routing, Bereitstellung und Fehlerbehebung.
Die UFM-Architektur umfasst mehrere Komponenten. Der UFM-Server pflegt vollständige Fabric-Transparenz und verwaltet das Routing über alle Geräte. Verwaltete Switching-Geräte umfassen Fabric-Switches, Gateways und Router unter UFM-Kontrolle. Optionale UFM-Host-Agenten auf Rechenknoten bieten lokale Hostdaten und Geräteverwaltungsfunktionen.⁴⁰
Drei Plattform-Stufen adressieren unterschiedliche betriebliche Anforderungen:
UFM Telemetry sammelt über 120 einzigartige Zähler pro Port, einschließlich Bitfehlerrate, Temperatur, Histogramme und Wiederholungsübertragungen.⁴¹ Die Daten ermöglichen die Vorhersage von marginalen Kabeln, bevor Ausfälle Produktions-Workloads beeinträchtigen.
UFM Enterprise fügt Netzwerküberwachung, -management, Workload-Optimierungen und periodische Konfigurationsvalidierung hinzu.⁴² Die Integration mit Job-Schedulern wie Slurm und Platform LSF ermöglicht automatisierte Netzwerkbereitstellung, die auf die Workload-Planung abgestimmt ist. OpenStack- und Azure-Integrationen unterstützen Cloud-Bereitstellungsmodelle.⁴³
UFM Cyber-AI bietet präventive Wartung und Cybersicherheitsfunktionen zur Senkung der Betriebskosten von Supercomputern.⁴⁴ Die dedizierte Appliance-Bereitstellung ermöglicht KI-gestützte Fabric-Analyse vor Ort.
Das UFM-SDK bietet umfangreiche Drittanbieter-Integrationen, einschließlich Grafana, FluentD, Zabbix und Slurm-Plug-ins über REST-API-Zugriff.⁴⁵ Open-Source-Projekte ermöglichen die SLURM-Integration zur Überwachung von Netzwerkbandbreite, Überlastung, Fehlern und Ressourcennutzung über Job-Rechenknoten hinweg.
Große Supercomputer-Implementierungen validieren die Plattform
Die weltweit größten KI-Systeme standardisieren auf NVIDIA-InfiniBand-Netzwerke. Aktuelle und geplante Implementierungen demonstrieren die Fähigkeiten der Quantum-Plattform im großen Maßstab.
Stargate AI Data Center begann im März 2025 mit der Installation von 64.000 GB200-Systemen, verbunden durch 800-Gbit/s-InfiniBand für Multi-Exaflop-KI-Dienste.⁴⁶ Die Implementierung ist eine der ersten großangelegten XDR-Implementierungen.
xAI Colossus betreibt 100.000 H100-GPUs mit Quantum-2-Switches und hält eine Worst-Case-Latenz von 850 Nanosekunden über drei Netzwerkebenen.⁴⁷ Der Memphis-Cluster trainiert xAIs Grok-Familie großer Sprachmodelle.
Oracle Zetta-scale Supercluster plant 131.000 GB200-GPUs, die über Quantum-InfiniBand-Fabric verbunden sind, und demonstriert das Engagement von Cloud-Anbietern für InfiniBand bei KI-Infrastruktur mit maximaler Leistung.⁴⁸
El Capitan am Lawrence Livermore National Laboratory wird 2 Exaflops mit 200-Gbit/s-InfiniBand überschreiten und zeigt die anhaltende Relevanz von NDR-Klasse-Netzwerken für wissenschaftliches Rechnen.⁴⁹
JUPITER (250 Mio. EUR) und Blue Lion (250 Mio. EUR) in Europa wählten Quantum-2-Fabrics, die strenge Energieeffizienzanforderungen erfüllen und gleichzeitig die Leistung liefern, die wissenschaftliche Workloads erfordern.⁵⁰
NVIDIAs Netzwerkumsatz erreichte jährlich 10 Mrd. USD, fast ausschließlich gebunden an InfiniBand-Fabrics, die kommerzielle KI-Clouds antreiben.⁵¹ Microsoft Azure und Oracle Cloud Infrastructure sind die ersten Quantum-InfiniBand-Anwender unter den Hyperscale-Anbietern.⁵²
InfiniBand versus Ethernet-Positionierung
Marktdynamiken spiegeln die unterschiedliche Positionierung jeder Technologie wider. Als Dell'Oro Group Ende 2023 mit der Berichterstattung über KI-Backend-Netzwerke begann, hielt InfiniBand über 80% Marktanteil.⁵³ Ethernet hat seitdem durch Hyperscaler-Adoption und Kostenvorteile Boden gewonnen und behält 2025 die allgemeine Marktführerschaft.⁵⁴
Leistungsmerkmale differenzieren die Technologien. InfiniBand liefert Sub-Mikrosekunden-Latenz durch hardwarebeschleunigtes RDMA und In-Network-Computing. Ethernet erreicht vergleichbaren Durchsatz bei korrekter Konfiguration mit RoCE, erfordert jedoch sorgfältige verlustfreie Netzwerkkonfiguration und verfügt nicht über vergleichbare In-Network-Computing-Fähigkeiten.
Kostenstrukturen begünstigen Ethernet für viele Implementierungen. Tier-2- und Tier-3-Unternehmen, die Cluster mit 256-1.024 GPUs bereitstellen, stellen typischerweise fest, dass Ethernet mit RoCE akzeptable Leistung bei etwa der Hälfte der Netzwerkkosten liefert.⁵⁵ Das Wertversprechen von InfiniBand verstärkt sich bei größeren Maßstäben, wo SHARP-In-Network-Computing und engere Latenzgrenzen sich umsetzen
[Inhalt für Übersetzung gekürzt]