InfiniBand-switches: NVIDIA Quantum-X800 en de XDR-generatie die AI-supercomputers aandrijft
Bijgewerkt 11 december 2025
December 2025 Update: De InfiniBand-markt bereikt $25,7 miljard in 2025, met een verwachte groei naar $127 miljard in 2030 (38% CAGR). Quantum-X800 levert 144 poorten van 800Gbps XDR met 14,4 TFLOPS in-network compute (9x t.o.v. NDR). Sub-100ns poort-naar-poort latentie. Stargate's 64.000 GB200's en Oracle's 131.000-GPU zetta-scale supercluster draaien op InfiniBand.
De verkoop van InfiniBand-switches steeg in Q2 2025 doordat NVIDIA's Blackwell Ultra-platform de vraag naar 800Gbps-netwerken aanwakkerde.¹ De InfiniBand-markt, gewaardeerd op $25,74 miljard in 2025, projecteert een groei naar $126,99 miljard in 2030 met een samengesteld jaarlijks groeipercentage van 37,60%.² Hoewel Ethernet de algehele marktleider blijft voor AI back-end netwerken, domineert InfiniBand de hoogst presterende implementaties waar latentie gemeten in honderden nanoseconden de trainingsefficiëntie bepaalt.
Het Quantum-X800-platform vertegenwoordigt NVIDIA's antwoord op de vereisten van biljoen-parameter modellen. Met 144 poorten van 800Gbps-connectiviteit, 14,4 teraflops aan in-network computing via SHARP v4, en sub-100 nanoseconde poort-naar-poort latentie, verdubbelt de XDR-generatie de bandbreedte terwijl het 9x meer in-network compute levert dan het vorige NDR-platform.³ Grote installaties waaronder Stargate's 64.000 GB200-systemen en Oracle's 131.000 GPU zetta-scale supercluster vertrouwen op NVIDIA InfiniBand om de strakke synchronisatie te handhaven die gedistribueerde AI-training vereist.⁴
De evolutie van NDR naar XDR
InfiniBand-generaties evolueren via gestandaardiseerde snelheidsverhogingen: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps), en nu XDR (800Gbps).⁵ Elke generatie verdubbelt de bandbreedte per poort terwijl de lage latentie en hardware-level betrouwbaarheid behouden blijven die InfiniBand onderscheiden van Ethernet-alternatieven.
NDR (Next Data Rate), geïntroduceerd in 2021, leverde 400Gbps-poorten met vier lanes PAM-4 gecodeerde SerDes draaiend op 51,6 GHz.⁶ De Quantum-2 ASIC's die NDR-switches aansturen bieden 256 SerDes-lanes met 25,6Tbps unidirectionele bandbreedte, en verwerken 66,5 miljard pakketten per seconde over 64 poorten van 400Gbps-connectiviteit.⁷ NDR bracht OSFP-connectoren naar InfiniBand, waardoor één of twee links mogelijk werden in 2x (NDR200) of 4x (NDR400) configuraties.⁸
De XDR (eXtreme Data Rate) specificatie, uitgebracht door de InfiniBand Trade Association in oktober 2023, verdubbelt de bandbreedte om te voldoen aan de eisen van AI- en HPC-datacenters.⁹ SerDes-ondersteuning op 200Gbps per lane maakt 800Gbps-poorten mogelijk, met switch-naar-switch verbindingen die 1,6Tbps bereiken.¹⁰ XDR introduceert vierde-generatie SHARP, ultra-lage latentie verbeteringen, zelfherstellende mogelijkheden, en silicon photonics-integratie.¹¹
De roadmap gaat verder richting GDR (Giga Data Rate) technologie die 1,6Tbps per poort biedt voor toekomstige generaties, waardoor InfiniBand zijn prestatieleiderschap behoudt.¹²
NVIDIA Quantum-X800 platformarchitectuur
Het Quantum-X800-platform levert de eerste XDR InfiniBand-implementatie, speciaal gebouwd voor AI-modellen op biljoen-parameter schaal.¹³ De Q3400-RA 4U-switch maakt gebruik van 200Gbps-per-lane SerDes-technologie, de eerste switch-silicon die deze snelheidsklasse bereikt.¹⁴
Poortdichtheid schaalt aanzienlijk op. De switch biedt 144 poorten van 800Gbps-connectiviteit verdeeld over 72 OSFP-kooien.¹⁵ Hoge radix maakt efficiënte fabrictopologieën mogelijk, met een twee-level fat-tree die tot 10.368 ConnectX-8 NIC's kan verbinden met minimale latentie en optimale job-localiteit.¹⁶
Prestatiespecificaties richten zich op de meest veeleisende AI-workloads. Poort-naar-poort latentie meet minder dan 100 nanoseconden.¹⁷ Adaptieve routing verdeelt verkeer dynamisch over beschikbare paden. Op telemetrie gebaseerde congestiecontrole voorkomt netwerkverzadiging voordat het GPU-gebruik beïnvloedt.¹⁸
Dual-switch behuizingen in modellen zoals de Q3200-RA bieden 72 poorten van 800Gbps over 1,6Tbps geaggregeerde switch-naar-switch bandbreedte, waardoor de spine-leaf topologieën mogelijk worden die grote AI-clusters vereisen.¹⁹ Optionele routermogelijkheden faciliteren uitbreiding van InfiniBand-clusters over meerdere locaties, ter ondersteuning van gedistribueerde trainingsomgevingen die geografische locaties overspannen.²⁰
SHARP in-network computing elimineert knelpunten
NVIDIA's Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) vertegenwoordigt het bepalende technologische voordeel van InfiniBand boven Ethernet-alternatieven. Door collectieve operaties zoals all-reduce en broadcast naar netwerkswitches te offloaden, vermindert SHARP het datatransfervolume aanzienlijk en minimaliseert server-jitter tijdens gedistribueerde training.²¹
De evolutie door vier generaties breidde SHARP-mogelijkheden progressief uit:
SHARPv1 richtte zich op small-message reductie-operaties voor wetenschappelijk rekenen, met aanzienlijke prestatieverbeteringen die werden overgenomen door toonaangevende MPI-bibliotheken.²²
SHARPv2, geïntroduceerd met HDR 200Gbps Quantum-switches, voegde AI-workload ondersteuning toe inclusief large message reductie-operaties. Benchmarks toonden 17% verbetering in BERT-trainingsprestaties.²³
SHARPv3 maakte multi-tenant in-network computing mogelijk, waardoor meerdere AI-workloads tegelijkertijd SHARP-mogelijkheden kunnen benutten. Microsoft Azure demonstreerde bijna een orde van grootte prestatievoordeel voor AllReduce-latentie met deze generatie.²⁴
SHARPv4 wordt standaard geleverd met Quantum-X800 en Quantum-X Photonics switches, en maakt in-network aggregatie en reductie mogelijk die GPU-naar-GPU communicatie-overhead minimaliseert.²⁵ Gecombineerd met FP8-precisie ondersteuning, versnelt SHARP v4 de training van biljoen-parameter modellen door zowel bandbreedte- als compute-vereisten te verminderen, wat zorgt voor snellere convergentie en hogere throughput.²⁶
De technologie integreert met NVIDIA Collective Communication Library (NCCL), waardoor gedistribueerde AI-trainingsframeworks automatisch SHARP kunnen benutten. Serviceproviders rapporteren 10-20% prestatieverbeteringen voor AI-workloads door SHARP-integratie.²⁷ De netwerkswitches voeren aggregatie en reductie direct uit, waarbij CPU's en GPU's worden omzeild voor deze taken terwijl de AllReduce-bandbreedte verdubbelt vergeleken met non-SHARP configuraties.²⁸
ConnectX-8 SuperNIC levert 800Gbps endpoints
Het Quantum-X800-platform koppelt aan ConnectX-8 SuperNIC-adapters om end-to-end 800Gbps throughput te bereiken.²⁹ De C8180 vertegenwoordigt NVIDIA's eerste 800Gbps dual-protocol SuperNIC die zowel InfiniBand als Ethernet ondersteunt, ontworpen voor AI high-performance computing clusters, supercomputing netwerken en next-generation datacenterarchitecturen.³⁰
Technische specificaties verleggen adaptermogelijkheden aanzienlijk. De single-port OSFP-interface levert 800Gbps XDR InfiniBand of twee poorten van 400Gbps Ethernet.³¹ PCIe Gen6 x16-connectiviteit biedt de host-interface bandbreedte die overeenkomt met netwerksnelheden.³² Auto-negotiation ondersteunt achterwaartse compatibiliteit over XDR, NDR, NDR200, HDR, HDR100, EDR, FDR en SDR InfiniBand-snelheden.³³
Architectuurinnovaties gaan verder dan ruwe bandbreedte. ConnectX-8 integreert native PCIe Gen6-ondersteuning met een on-board PCIe switching fabric, waardoor externe PCIe-switch vereisten worden geëlimineerd.³⁴ De adapter bevat 48 lanes PCIe Gen6 achter de x16-connector interface.³⁵ Native SHARP-ondersteuning versnelt aggregatie- en reductie-operaties direct in de adapterhardware.³⁶
Socket Direct-technologie adresseert dual-socket serverarchitecturen. Directe toegang van elke CPU naar het netwerk via dedicated PCIe-interfaces verbetert prestaties in systemen waar CPU-naar-netwerk topologie de latentie beïnvloedt.³⁷ De GB300 NVL72 vertegenwoordigt de eerste implementatie van PCIe Gen6 SuperNIC-capaciteit, met verbindingen naar Grace CPU's op Gen5-snelheden terwijl Gen6-links naar B300 GPU's behouden blijven.³⁸
Unified Fabric Manager orkestreert op schaal
Het UFM-platform revolutioneert InfiniBand fabric management door real-time netwerktelemetrie te combineren met AI-aangedreven analytics.³⁹ De host-gebaseerde oplossing biedt complete zichtbaarheid over fabricbeheer, routing, provisioning en troubleshooting.
UFM-architectuur omvat meerdere componenten. De UFM Server behoudt complete fabrickzichtbaarheid en beheert routing over alle apparaten. Managed Switching Devices omvatten fabricswitches, gateways en routers onder UFM-beheer. Optionele UFM Host Agents op compute nodes bieden lokale hostgegevens en apparaatbeheerfunctionaliteit.⁴⁰
Drie platformniveaus adresseren verschillende operationele vereisten:
UFM Telemetry verzamelt meer dan 120 unieke tellers per poort inclusief bit error rate, temperatuur, histogrammen en retransmissies.⁴¹ De gegevens maken voorspelling van marginale kabels mogelijk voordat storingen productie-workloads beïnvloeden.
UFM Enterprise voegt netwerkmonitoring, beheer, workload-optimalisaties en periodieke configuratievalidatie toe.⁴² Job scheduler-integratie met Slurm en Platform LSF maakt geautomatiseerde netwerkprovisioning mogelijk afgestemd op workload-scheduling. OpenStack- en Azure-integraties ondersteunen cloud-implementatiemodellen.⁴³
UFM Cyber-AI biedt preventief onderhoud en cybersecuritymogelijkheden voor het verlagen van supercomputing operationele kosten.⁴⁴ De dedicated appliance-implementatie maakt on-premises AI-aangedreven fabricanalyse mogelijk.
De UFM SDK biedt uitgebreide third-party integraties inclusief Grafana, FluentD, Zabbix en Slurm plug-ins via REST API-toegang.⁴⁵ Open-source projecten maken SLURM-integratie mogelijk voor het monitoren van netwerkbandbreedte, congestie, fouten en resource-gebruik over job compute nodes.
Grote supercomputerimplementaties valideren het platform
's Werelds grootste AI-systemen standaardiseren op NVIDIA InfiniBand-netwerken. Huidige en geplande implementaties demonstreren Quantum-platformmogelijkheden op schaal.
Stargate AI Data Center begon met de installatie van 64.000 GB200-systemen in maart 2025, verbonden door 800Gbps InfiniBand voor multi-exaflop AI-diensten.⁴⁶ De implementatie vertegenwoordigt een van de eerste grootschalige XDR-implementaties.
xAI Colossus beheert 100.000 H100 GPU's met Quantum-2 switches, en handhaaft 850-nanoseconde worst-case latentie over drie netwerklagen.⁴⁷ Het Memphis-cluster traint xAI's Grok-familie van large language models.
Oracle Zetta-scale Supercluster plant 131.000 GB200 GPU's verbonden via Quantum InfiniBand fabric, wat de commitment van cloudproviders aan InfiniBand voor maximaal presterende AI-infrastructuur demonstreert.⁴⁸
El Capitan bij Lawrence Livermore National Laboratory zal 2 exaflops overschrijden met 200Gbps InfiniBand, wat de blijvende relevantie van NDR-klasse netwerken voor wetenschappelijk rekenen aantoont.⁴⁹
JUPITER (€250 miljoen) en Blue Lion (€250 miljoen) in Europa selecteerden Quantum-2 fabrics die voldoen aan strikte energie-efficiëntie vereisten terwijl ze de prestaties leveren die wetenschappelijke workloads vereisen.⁵⁰
NVIDIA's netwerkopbrengst bereikte jaarlijks $10 miljard, bijna volledig gekoppeld aan InfiniBand fabrics die commerciële AI-clouds aandrijven.⁵¹ Microsoft Azure en Oracle Cloud Infrastructure vertegenwoordigen de eerste Quantum InfiniBand-adopters onder hyperscale providers.⁵²
InfiniBand versus Ethernet positionering
Marktdynamiek weerspiegelt onderscheidende positionering voor elke technologie. Toen Dell'Oro Group eind 2023 begon met AI back-end netwerk coverage, had InfiniBand meer dan 80% marktaandeel.⁵³ Ethernet heeft sindsdien terrein gewonnen door hyperscaler-adoptie en kostenvoordelen, en behoudt het algehele marktleiderschap in 2025.⁵⁴
Prestatiekenmerken differentiëren de technologieën. InfiniBand levert sub-microseconde latentie door hardware-versnelde RDMA en in-network computing. Ethernet bereikt competitieve throughput wanneer correct geconfigureerd met RoCE, maar vereist zorgvuldige lossless netwerkconfiguratie en mist equivalente in-network compute mogelijkheden.
Kostenstructuren begunstigen Ethernet voor veel implementaties. Tier 2 en tier 3 bedrijven die 256-1.024 GPU-clusters implementeren vinden doorgaans dat Ethernet met RoCE acceptabele prestaties levert tegen ongeveer de helft van de netwerkkosten.⁵⁵ InfiniBand's waardepropositie versterkt op grotere schaal waar SHARP in-network computing en strakkere latentiegrenzen zich vertalen
[Inhoud ingekort voor vertaling]