NVLink en scale-up networking: wanneer 800G Ethernet niet genoeg is
Bijgewerkt op 11 december 2025
Update december 2025: NVLink 5 levert 1,8TB/s per GPU (18 links × 100GB/s)—14x PCIe Gen5 bandbreedte. GB200 NVL72 verbindt 72 GPU's met 130TB/s totale bandbreedte. NVSwitch maakt 576 GPU's mogelijk in een non-blocking fabric met 1PB/s totale bandbreedte. Vijfde generatie NVLink bereikt 12x de bandbreedte van de eerste generatie (2014). Scale-up networking creëert mogelijkheden die scale-out netwerken niet kunnen evenaren.
Een enkele NVIDIA Blackwell GPU ondersteunt tot 18 NVLink-verbindingen van elk 100 gigabyte per seconde, wat een totale bandbreedte van 1,8 terabyte per seconde oplevert—14 keer de bandbreedte van PCIe Gen5.¹ Het GB200 NVL72-systeem verbindt 72 GPU's in een enkel NVLink-domein met 130 terabyte per seconde aan totale bandbreedte.² NVIDIA's NVLink Switch maakt 576 GPU's mogelijk in een non-blocking compute fabric met meer dan 1 petabyte per seconde aan totale bandbreedte.³ Scale-up networking creëert infrastructuurmogelijkheden die scale-out Ethernet- en InfiniBand-netwerken niet kunnen evenaren.
Het onderscheid tussen scale-up en scale-out networking bepaalt de moderne AI-infrastructuurarchitectuur. NVLink en NVSwitch verzorgen communicatie binnen nodes en racks en leveren de bandbreedte en latency die nodig zijn voor tensor parallelisme over grote modellen. InfiniBand en Ethernet verzorgen communicatie tussen racks en bieden het bereik dat nodig is voor data parallelisme over duizenden GPU's. Begrijpen wanneer welke technologie van toepassing is, bepaalt of infrastructuurinvesteringen de verwachte prestaties leveren.
Specificaties vijfde generatie NVLink
Vijfde generatie NVLink verdubbelt de bandbreedte ten opzichte van de vorige generatie.⁴ Elke link werkt op 100 gigabyte per seconde bidirectioneel, waarbij 18 links per Blackwell GPU een totale bandbreedte van 1,8 terabyte per seconde bieden.⁵ De verbetering overtreft de PCIe Gen5 bandbreedte met meer dan 14 keer.⁶
De evolutie over de generaties toont het traject:
| Generatie | Architectuur | Links | Bandbreedte per GPU |
|---|---|---|---|
| 1e (2018) | Volta V100 | 6 | 300 GB/s |
| 2e (2020) | Ampere A100 | 12 | 600 GB/s |
| 3e (2022) | Hopper H100 | 18 | 900 GB/s |
| 4e (2024) | Blackwell B200 | 18 | 1,8 TB/s |
Vijfde generatie NVLink bereikt 12 keer de bandbreedte van eerste generatie NVLink, geïntroduceerd in 2014.⁷ De verdubbeling van Hopper naar Blackwell weerspiegelt de toenemende bandbreedtevereisten van modellen met biljoenen parameters.
De toename in bandbreedte per link van 50 gigabyte per seconde in NVLink 4 naar 100 gigabyte per seconde in NVLink 5 maakt het mogelijk dat dezelfde 18-link configuratie de totale doorvoer verdubbelt.⁸ De architectuur behoudt het aantal links terwijl de signaleringssnelheden verbeteren.
Evolutie van NVSwitch-architectuur
NVIDIA introduceerde NVSwitch met het DGX-2 systeem in 2018 om volledige interconnectiviteit tussen GPU's binnen een enkel systeem mogelijk te maken.⁹ NVSwitch fungeert als een snelle, non-blocking crossbar switch voor NVLink-verkeer, waardoor elke GPU in een systeem met elke andere GPU op volle snelheid kan communiceren.¹⁰
De DGX-2 bevatte 16 V100 GPU's verbonden via eerste generatie NVSwitch.¹¹ Elke NVSwitch-chip bood 18 NVLink-poorten met 900 gigabyte per seconde totale switchcapaciteit.¹² De 100-watt chip, gefabriceerd op TSMC 12nm, bevatte 2 miljard transistors.¹³
Tweede generatie NVSwitch arriveerde met DGX A100 in 2020, met ondersteuning voor NVLink 3.0 op 600 gigabyte per seconde per GPU.¹⁴ Zes NVSwitch-chips creëerden een volledig verbonden netwerktopologie voor acht A100 GPU's.¹⁵
Derde generatie NVSwitch voor Hopper verhoogde naar 25,6 terabit per seconde totale bidirectionele bandbreedte per chip.¹⁶ Vier NVSwitch-chips in elk HGX H100 en HGX H200 systeem bieden 3,6 terabyte per seconde bidirectionele netwerkbandbreedte over acht GPU's.¹⁷ Derde generatie NVSwitch introduceerde SHARP-functionaliteit voor in-network berekeningen, waarbij resultaten worden geaggregeerd en bijgewerkt over meerdere GPU-eenheden zonder dat round trips naar individuele GPU's nodig zijn.¹⁸
Vierde generatie NVSwitch voor Blackwell beschikt over 72 NVLink 5.0-poorten per chip.¹⁹ De NVLink 5 Switch biedt 144 NVLink-poorten met 14,4 terabyte per seconde non-blocking switchcapaciteit.²⁰ Deze generatie introduceerde switching op rack-niveau, waarbij NVSwitch van servers naar dedicated switch trays verhuisde.
GB200 NVL72 scale-up architectuur
De GB200 NVL72 verbindt 36 Grace CPU's en 72 Blackwell GPU's in een rack-scale, vloeistofgekoeld ontwerp.²¹ Het 72-GPU NVLink-domein fungeert als een enkele, enorme GPU en levert 30 keer snellere real-time inferentie voor large language models met biljoenen parameters vergeleken met vorige generaties.²²
De fysieke architectuur verdeelt componenten over compute trays en switch trays.²³ Elke compute tray bevat twee GB200 Superchips, waarbij elke Superchip bestaat uit twee B200 GPU's en één Grace CPU.²⁴ Het systeem bevat 18 compute trays met in totaal 72 GPU's.
Negen NVLink switch trays bieden full-mesh connectiviteit.²⁵ Elke switch tray bevat twee NVLink Switch-chips met in totaal 144 NVLink-poorten.²⁶ De negen switches verbinden elk van de 18 NVLink-poorten op elke Blackwell GPU volledig.²⁷
Er bestaat geen directe GPU-naar-GPU connectiviteit binnen een enkele server of compute tray.²⁸ Alle communicatie verloopt via de externe NVSwitch fabric.²⁹ Deze architectuur maakt alle 72 GPU's equivalent vanuit connectiviteitsperspectief—elke GPU kan met elke andere communiceren op dezelfde bandbreedte en latency.³⁰
De 130 terabyte per seconde totale NVLink-bandbreedte maakt tensor parallelisme mogelijk over alle 72 GPU's.³¹ Grote modellen die de geheugencapaciteit van een enkele GPU overschrijden, kunnen tensors over het hele domein verdelen met minimale communicatie-overhead. De architectuur elimineert de traditionele grens tussen server- en racknetwerking voor scale-up workloads.
Scale-up versus scale-out networking
Scale-up networking (NVLink) en scale-out networking (InfiniBand en Ethernet) dienen fundamenteel verschillende doelen in AI-infrastructuur.³²
NVLink blinkt uit in snelle communicatie tussen GPU's binnen een enkel domein—veel sneller dan InfiniBand, met bandbreedte in de orde van terabytes per seconde voor lokale verbindingen.³³ De lage latency en hoge bandbreedte ondersteunen tensor parallelisme, waarbij modelgewichten over GPU's worden verdeeld en bij elke laag moeten synchroniseren. NVLink's 1,8 terabyte per seconde per GPU maakt deze synchronisatie mogelijk zonder een bottleneck te worden.
NVLink helpt niet zodra communicatie nodegrenzen overschrijdt.³⁴ Inter-node networking vereist InfiniBand of Ethernet, ongeacht de intra-node NVLink-capaciteit. De technologieën opereren op verschillende niveaus van de hiërarchie.
InfiniBand biedt de industriestandaard voor het verbinden van duizenden servernodes.³⁵ Remote Direct Memory Access (RDMA) stelt servers in staat data rechtstreeks tussen geheugenruimtes uit te wisselen, waarbij CPU- en OS-overhead worden omzeild.³⁶ Deze functie is essentieel voor grootschalige gedistribueerde training met data parallelisme, waarbij elke node verschillende batches verwerkt en gradiënten synchroniseert.
InfiniBand blijft de gouden standaard voor AI-training op schaal en verbindt meer dan 270 van 's werelds beste supercomputers.³⁷ De adaptieve routing, congestiecontrole en RDMA-mogelijkheden zijn specifiek ontworpen voor synchrone, high-performance computing.
Ethernet haalt InfiniBand in voor scale-out deployments.³⁸ NVIDIA's Spectrum-X brengt InfiniBand-innovaties naar Ethernet, waaronder telemetrie-gestuurde congestiecontrole, adaptieve load balancing en directe dataplaatsing.³⁹ Grootschalige systemen met Spectrum-X hebben 95% datadoorvoer bereikt zonder applicatielatentiedegradatie, vergeleken met slechts 60% doorvoer van standaard Ethernet fabrics.⁴⁰
Het hiërarchische model combineert deze technologieën op passende wijze. NVLink verzorgt scale-up binnen het rack en levert ongeveer 18 keer de bandbreedte van scale-out networking.⁴¹ InfiniBand of Ethernet verzorgt scale-out tussen racks en biedt bereik over duizenden nodes. Elke GPU-tray in GB200 NVL72-systemen bevat 800 gigabit per seconde RDMA NIC's voor inter-rack communicatie.⁴²
576-GPU domeinen en SuperPOD-architectuur
De NVLink Switch maakt 576 volledig verbonden GPU's mogelijk in een non-blocking compute fabric.⁴³ Acht GB200 NVL72 racks vormen een SuperPOD, wat een supernode creëert van 576 GPU's met meer dan 1 petabyte per seconde totale bandbreedte en 240 terabyte aan snel geheugen.⁴⁴
DGX SuperPOD is gebouwd op schaalbare eenheden (SU), elk bestaande uit acht DGX GB200-systemen.⁴⁵ Het modulaire ontwerp maakt snelle deployment van SuperPODs op elke schaal mogelijk. De referentiearchitectuur bevat specificaties voor InfiniBand, NVLink-netwerk, Ethernet fabric-topologieën, opslagsystemen, rack-indelingen en bekabeling.⁴⁶
Het 576-GPU domein behoudt de volledig verbonden NVLink-topologie over alle racks in de SuperPOD.⁴⁷ Elke GPU kan met elke andere communiceren op 1,8 terabyte per seconde zonder scale-out networking te passeren.⁴⁸ De domeingrootte komt overeen met de vereisten van de grootste foundation models die momenteel worden getraind.
SuperPOD deployment vereist on-premises installatie.⁴⁹ Klanten bezitten en beheren de hardware binnen hun datacenters of co-located commerciële faciliteiten. De architectuur weerspiegelt NVIDIA's interne onderzoeks- en ontwikkelingssystemen, wat betekent dat infrastructuursoftware, applicaties en ondersteuning op identieke configuraties worden getest.⁵⁰
Cloudproviders Microsoft Azure, Oracle Cloud en CoreWeave hebben toegezegd de X800-architectuur te ondersteunen wanneer deze beschikbaar komt in 2025.⁵¹ Cloud deployments breiden SuperPOD-mogelijkheden uit naar organisaties die geen dedicated on-premises infrastructuur kunnen rechtvaardigen.
Enterprise Kubernetes deployment
Multi-Node NVLink (MNNVL) systemen vereisen gespecialiseerde Kubernetes-configuratie.⁵² Kubernetes herkent NVIDIA's MNNVL-architectuur niet native, waardoor workloadbeheer en scheduling complexer zijn dan standaard GPU deployments.⁵³
Deploymentvereisten omvatten Kubernetes 1.32 of later en NVIDIA GPU Operator versie 25.3 of hoger.⁵⁴ De GPU Operator-versie moet de Dynamic Resource Allocation (DRA) driver bevatten, die ondersteuning biedt voor GB200 accelerated networking resources en de ComputeDomain-functie.⁵⁵ NVIDIA Network Operator verzorgt netwerkconfiguratie.
De IMEX-service ondersteunt GPU-geheugenexport en -import over OS-domeinen in NVLink multi-node deployments.⁵⁶ De service maakt NVLink peer-to-peer communicatie en gedeelde geheugenoperaties over het domein mogelijk.
Wanneer gedistribueerde workloads MNNVL node pools targeten, creëert het platform een ComputeDomain Custom Resource Definition (CRD) om NVLink-domeintoewijzingen te beheren.⁵⁷ Een referentie naar het ComputeDomain wordt automatisch gekoppeld aan workloadspecificaties als resource claim, waardoor de scheduler workloads aan specifieke NVLink-domeinen kan binden.⁵⁸
Pod affinity rules gebruiken de MNNVL label key (nvidia.com/gpu.clique) als topology key.⁵⁹ De configuratie zorgt ervoor dat pods binnen gedistribueerde workloads op nodes met NVLink-interconnects terechtkomen, waardoor de topologie behouden blijft die nodig is voor prestaties.⁶⁰
Overwegingen voor infrastructuurplanning
Organisaties die NVLink-infrastructuur evalueren, moeten eerst workloadkenmerken overwegen. Tensor parallelisme over grote modellen profiteert direct van NVLink-bandbreedte. Data parallelisme over veel kleinere modellen vereist mogelijk niet de mogelijkheden van NVLink en kan adequate prestaties bereiken met alleen scale-out networking.
De GB200 NVL72 vertegenwoordigt een significante infrastructuurverplichting. Vloeistofkoelingsvereisten, rack-scale integratie en gespecialiseerde networking overtreffen de complexiteit van luchtgekoelde, server-centrische architecturen. Organisaties moeten valideren dat workloads deze mogelijkheden vereisen voordat ze zich committeren.
Stroom- en koelingsinfrastructuur moet vloeistofkoeling vanaf de initiële deployment accommoderen. De GB200 NVL72 kan niet functioneren met luchtkoeling. Het achteraf aanpassen van faciliteiten voor vloeistofkoeling na deployment is duur en verstorend.
Netwerkplanning moet zowel scale-up als scale-out vereisten adresseren. De NVLink fabric verzorgt intra-rack communicatie, maar inter-rack communicatie vereist InfiniBand of Ethernet scale-out networking.