NVLink und Scale-Up-Netzwerke: Wenn 800G Ethernet nicht ausreicht
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: NVLink 5 liefert 1,8 TB/s pro GPU (18 Links × 100 GB/s) – 14-fache PCIe Gen5-Bandbreite. GB200 NVL72 verbindet 72 GPUs mit 130 TB/s aggregierter Bandbreite. NVSwitch ermöglicht 576 GPUs in einem nicht-blockierenden Fabric mit 1 PB/s Gesamtbandbreite. NVLink der fünften Generation erreicht die 12-fache Bandbreite der ersten Generation (2014). Scale-Up-Netzwerke schaffen Fähigkeiten, die Scale-Out-Netzwerke nicht erreichen können.
Eine einzelne NVIDIA Blackwell GPU unterstützt bis zu 18 NVLink-Verbindungen mit jeweils 100 Gigabyte pro Sekunde und liefert damit eine Gesamtbandbreite von 1,8 Terabyte pro Sekunde – 14-mal so viel wie PCIe Gen5.¹ Das GB200 NVL72-System verbindet 72 GPUs in einer einzigen NVLink-Domäne mit einer aggregierten Bandbreite von 130 Terabyte pro Sekunde.² NVIDIAs NVLink Switch ermöglicht 576 GPUs in einem nicht-blockierenden Compute-Fabric mit über 1 Petabyte pro Sekunde Gesamtbandbreite.³ Scale-Up-Netzwerke schaffen Infrastrukturfähigkeiten, die Scale-Out-Ethernet- und InfiniBand-Netzwerke nicht erreichen können.
Die Unterscheidung zwischen Scale-Up- und Scale-Out-Netzwerken definiert die moderne KI-Infrastrukturarchitektur. NVLink und NVSwitch übernehmen die Kommunikation innerhalb von Nodes und Racks und liefern die für Tensor-Parallelismus bei großen Modellen erforderliche Bandbreite und Latenz. InfiniBand und Ethernet übernehmen die Kommunikation zwischen Racks und bieten die für Daten-Parallelismus über Tausende von GPUs erforderliche Reichweite. Das Verständnis, wann welche Technologie zum Einsatz kommt, entscheidet darüber, ob Infrastrukturinvestitionen die erwartete Leistung liefern.
Spezifikationen von NVLink der fünften Generation
NVLink der fünften Generation verdoppelt die Bandbreite im Vergleich zur vorherigen Generation.⁴ Jeder Link arbeitet mit 100 Gigabyte pro Sekunde bidirektional, wobei 18 Links pro Blackwell GPU eine aggregierte Bandbreite von 1,8 Terabyte pro Sekunde bieten.⁵ Die Verbesserung übertrifft die PCIe Gen5-Bandbreite um mehr als das 14-fache.⁶
Die Entwicklung über die Generationen zeigt die Trajektorie:
| Generation | Architektur | Links | Bandbreite pro GPU |
|---|---|---|---|
| 1. (2018) | Volta V100 | 6 | 300 GB/s |
| 2. (2020) | Ampere A100 | 12 | 600 GB/s |
| 3. (2022) | Hopper H100 | 18 | 900 GB/s |
| 4. (2024) | Blackwell B200 | 18 | 1,8 TB/s |
NVLink der fünften Generation erreicht die 12-fache Bandbreite von NVLink der ersten Generation, das 2014 eingeführt wurde.⁷ Die Verdopplung von Hopper zu Blackwell spiegelt die steigenden Bandbreitenanforderungen von Modellen mit Billionen Parametern wider.
Die Erhöhung der Bandbreite pro Link von 50 Gigabyte pro Sekunde bei NVLink 4 auf 100 Gigabyte pro Sekunde bei NVLink 5 ermöglicht es der gleichen 18-Link-Konfiguration, den Gesamtdurchsatz zu verdoppeln.⁸ Die Architektur behält die Anzahl der Links bei und verbessert gleichzeitig die Signalraten.
Entwicklung der NVSwitch-Architektur
NVIDIA führte NVSwitch mit dem DGX-2-System 2018 ein, um vollständige Interkonnektivität zwischen GPUs innerhalb eines einzelnen Systems zu ermöglichen.⁹ NVSwitch fungiert als Hochgeschwindigkeits-Crossbar-Switch ohne Blockierung für NVLink-Verkehr und ermöglicht es jeder GPU in einem System, mit jeder anderen GPU bei voller Geschwindigkeit zu kommunizieren.¹⁰
Das DGX-2 verfügte über 16 V100 GPUs, die über NVSwitch der ersten Generation verbunden waren.¹¹ Jeder NVSwitch-Chip bot 18 NVLink-Ports mit einer aggregierten Switching-Kapazität von 900 Gigabyte pro Sekunde.¹² Der 100-Watt-Chip, gefertigt in TSMC 12nm, enthielt 2 Milliarden Transistoren.¹³
NVSwitch der zweiten Generation kam 2020 mit DGX A100 und unterstützte NVLink 3.0 mit 600 Gigabyte pro Sekunde pro GPU.¹⁴ Sechs NVSwitch-Chips schufen eine vollständig verbundene Netzwerktopologie für acht A100 GPUs.¹⁵
NVSwitch der dritten Generation für Hopper erhöhte die Gesamtbandbreite auf 25,6 Terabit pro Sekunde bidirektional pro Chip.¹⁶ Vier NVSwitch-Chips in jedem HGX H100- und HGX H200-System bieten 3,6 Terabyte pro Sekunde bidirektionale Netzwerkbandbreite über acht GPUs.¹⁷ NVSwitch der dritten Generation führte SHARP-Funktionalität für In-Network-Berechnung ein, die Ergebnisse über mehrere GPU-Einheiten aggregiert und aktualisiert, ohne Roundtrips zu einzelnen GPUs zu erfordern.¹⁸
NVSwitch der vierten Generation für Blackwell verfügt über 72 NVLink 5.0-Ports pro Chip.¹⁹ Der NVLink 5 Switch bietet 144 NVLink-Ports mit einer nicht-blockierenden Switching-Kapazität von 14,4 Terabyte pro Sekunde.²⁰ Diese Generation führte Rack-Level-Switching ein und verlagerte NVSwitch von Servern in dedizierte Switch-Trays.
GB200 NVL72 Scale-Up-Architektur
Das GB200 NVL72 verbindet 36 Grace CPUs und 72 Blackwell GPUs in einem Rack-Scale-Design mit Flüssigkeitskühlung.²¹ Die 72-GPU-NVLink-Domäne fungiert als eine einzige, massive GPU und liefert 30-mal schnellere Echtzeit-Inferenz für Large Language Models mit Billionen Parametern im Vergleich zu früheren Generationen.²²
Die physische Architektur verteilt Komponenten auf Compute-Trays und Switch-Trays.²³ Jedes Compute-Tray enthält zwei GB200 Superchips, wobei jeder Superchip aus zwei B200 GPUs und einer Grace CPU besteht.²⁴ Das System enthält 18 Compute-Trays mit insgesamt 72 GPUs.
Neun NVLink Switch-Trays bieten Full-Mesh-Konnektivität.²⁵ Jedes Switch-Tray enthält zwei NVLink Switch-Chips mit insgesamt 144 NVLink-Ports.²⁶ Die neun Switches verbinden jeden der 18 NVLink-Ports auf jeder Blackwell GPU vollständig.²⁷
Es existiert keine direkte GPU-zu-GPU-Konnektivität innerhalb eines einzelnen Servers oder Compute-Trays.²⁸ Die gesamte Kommunikation läuft über das externe NVSwitch-Fabric.²⁹ Diese Architektur macht alle 72 GPUs aus Konnektivitätsperspektive gleichwertig – jede GPU kann mit jeder anderen bei gleicher Bandbreite und Latenz kommunizieren.³⁰
Die aggregierte NVLink-Bandbreite von 130 Terabyte pro Sekunde ermöglicht Tensor-Parallelismus über alle 72 GPUs.³¹ Große Modelle, die die Speicherkapazität einer einzelnen GPU überschreiten, können Tensoren über die gesamte Domäne mit minimalem Kommunikations-Overhead verteilen. Die Architektur eliminiert die traditionelle Grenze zwischen Server- und Rack-Netzwerken für Scale-Up-Workloads.
Scale-Up versus Scale-Out-Netzwerke
Scale-Up-Netzwerke (NVLink) und Scale-Out-Netzwerke (InfiniBand und Ethernet) dienen grundlegend unterschiedlichen Zwecken in der KI-Infrastruktur.³²
NVLink zeichnet sich durch schnelle Kommunikation zwischen GPUs innerhalb einer einzelnen Domäne aus – weit schneller als InfiniBand, mit Bandbreiten in der Größenordnung von Terabyte pro Sekunde für lokale Verbindungen.³³ Die niedrige Latenz und hohe Bandbreite unterstützen Tensor-Parallelismus, bei dem Modellgewichte über GPUs verteilt werden und bei jeder Schicht synchronisiert werden müssen. NVLinks 1,8 Terabyte pro Sekunde pro GPU ermöglicht diese Synchronisation, ohne zum Engpass zu werden.
NVLink hilft nicht mehr, sobald die Kommunikation Knotengrenzen überschreitet.³⁴ Inter-Node-Netzwerke erfordern InfiniBand oder Ethernet, unabhängig von der Intra-Node-NVLink-Fähigkeit. Die Technologien arbeiten auf verschiedenen Ebenen der Hierarchie.
InfiniBand bietet den Industriestandard für die Verbindung von Tausenden von Serverknoten.³⁵ Remote Direct Memory Access (RDMA) ermöglicht es Servern, Daten direkt zwischen Speicherbereichen auszutauschen und dabei CPU und Betriebssystem-Overhead zu umgehen.³⁶ Diese Funktion erweist sich als wesentlich für großangelegtes verteiltes Training mit Daten-Parallelismus, bei dem jeder Knoten verschiedene Batches verarbeitet und Gradienten synchronisiert.
InfiniBand bleibt der Goldstandard für KI-Training im großen Maßstab und verbindet mehr als 270 der weltweit führenden Supercomputer.³⁷ Adaptive Routing, Staukontrolle und RDMA-Fähigkeiten wurden speziell für synchrones Hochleistungsrechnen entwickelt.
Ethernet überholt InfiniBand bei Scale-Out-Bereitstellungen.³⁸ NVIDIAs Spectrum-X bringt InfiniBand-Innovationen zu Ethernet, einschließlich telemetriegesteuerter Staukontrolle, adaptiver Lastverteilung und direkter Datenplatzierung.³⁹ Großsysteme mit Spectrum-X haben einen Datendurchsatz von 95% ohne Anwendungslatenz-Beeinträchtigung erreicht, verglichen mit nur 60% Durchsatz bei Standard-Ethernet-Fabrics.⁴⁰
Das hierarchische Modell kombiniert diese Technologien angemessen. NVLink übernimmt Scale-Up innerhalb des Racks und liefert etwa 18-mal die Bandbreite von Scale-Out-Netzwerken.⁴¹ InfiniBand oder Ethernet übernimmt Scale-Out zwischen Racks und bietet Reichweite über Tausende von Knoten. Jedes GPU-Tray in GB200 NVL72-Systemen enthält 800 Gigabit pro Sekunde RDMA-NICs für Inter-Rack-Kommunikation.⁴²
576-GPU-Domänen und SuperPOD-Architektur
Der NVLink Switch ermöglicht 576 vollständig verbundene GPUs in einem nicht-blockierenden Compute-Fabric.⁴³ Acht GB200 NVL72-Racks bilden einen SuperPOD und schaffen einen Superknoten aus 576 GPUs mit über 1 Petabyte pro Sekunde Gesamtbandbreite und 240 Terabyte schnellem Speicher.⁴⁴
DGX SuperPOD basiert auf skalierbaren Einheiten (SU), die jeweils acht DGX GB200-Systeme enthalten.⁴⁵ Das modulare Design ermöglicht eine schnelle Bereitstellung von SuperPODs in jeder Größenordnung. Die Referenzarchitektur enthält Spezifikationen für InfiniBand, NVLink-Netzwerk, Ethernet-Fabric-Topologien, Speichersysteme, Rack-Layouts und Verkabelung.⁴⁶
Die 576-GPU-Domäne behält die vollständig verbundene NVLink-Topologie über alle Racks im SuperPOD bei.⁴⁷ Jede GPU kann mit jeder anderen bei 1,8 Terabyte pro Sekunde kommunizieren, ohne Scale-Out-Netzwerke zu durchqueren.⁴⁸ Die Domänengröße entspricht den Anforderungen der größten Foundation-Modelle, die derzeit trainiert werden.
Die SuperPOD-Bereitstellung erfordert eine Installation vor Ort.⁴⁹ Kunden besitzen und verwalten die Hardware in ihren eigenen Rechenzentren oder in Co-Location-Einrichtungen. Die Architektur spiegelt NVIDIAs interne Forschungs- und Entwicklungssysteme wider, was bedeutet, dass Infrastruktursoftware, Anwendungen und Support auf identischen Konfigurationen getestet werden.⁵⁰
Die Cloud-Anbieter Microsoft Azure, Oracle Cloud und CoreWeave haben sich verpflichtet, die X800-Architektur zu unterstützen, wenn sie 2025 verfügbar wird.⁵¹ Cloud-Bereitstellungen erweitern SuperPOD-Fähigkeiten auf Organisationen, die keine dedizierte On-Premises-Infrastruktur rechtfertigen können.
Enterprise Kubernetes-Bereitstellung
Multi-Node NVLink (MNNVL)-Systeme erfordern eine spezialisierte Kubernetes-Konfiguration.⁵² Kubernetes erkennt NVIDIAs MNNVL-Architektur nicht nativ, was Workload-Management und Scheduling komplexer macht als bei Standard-GPU-Bereitstellungen.⁵³
Bereitstellungsanforderungen umfassen Kubernetes 1.32 oder höher und NVIDIA GPU Operator Version 25.3 oder höher.⁵⁴ Die GPU Operator-Version muss den Dynamic Resource Allocation (DRA)-Treiber enthalten, der Unterstützung für GB200 Accelerated Networking-Ressourcen und die ComputeDomain-Funktion bietet.⁵⁵ Der NVIDIA Network Operator übernimmt die Netzwerkkonfiguration.
Der IMEX-Dienst unterstützt GPU-Speicherexport und -import über OS-Domänen hinweg in NVLink-Multi-Node-Bereitstellungen.⁵⁶ Der Dienst ermöglicht NVLink-Peer-to-Peer-Kommunikation und Shared-Memory-Operationen über die Domäne hinweg.
Wenn verteilte Workloads auf MNNVL-Node-Pools abzielen, erstellt die Plattform eine ComputeDomain Custom Resource Definition (CRD) zur Verwaltung von NVLink-Domänenzuweisungen.⁵⁷ Eine Referenz auf die ComputeDomain wird automatisch als Resource Claim an Workload-Spezifikationen angehängt, sodass der Scheduler Workloads an bestimmte NVLink-Domänen binden kann.⁵⁸
Pod-Affinity-Regeln verwenden den MNNVL-Label-Key (nvidia.com/gpu.clique) als Topologie-Key.⁵⁹ Die Konfiguration stellt sicher, dass Pods innerhalb verteilter Workloads auf Knoten mit NVLink-Interconnects landen und die für die Leistung erforderliche Topologie beibehalten.⁶⁰
Überlegungen zur Infrastrukturplanung
Organisationen, die NVLink-Infrastruktur evaluieren, sollten zunächst die Workload-Charakteristiken berücksichtigen. Tensor-Parallelismus über große Modelle profitiert direkt von NVLink-Bandbreite. Daten-Parallelismus über viele kleinere Modelle erfordert möglicherweise nicht die Fähigkeiten von NVLink und kann mit Scale-Out-Netzwerken allein eine angemessene Leistung erzielen.
Das GB200 NVL72 stellt eine erhebliche Infrastrukturverpflichtung dar. Flüssigkeitskühlungsanforderungen, Rack-Scale-Integration und spezialisierte Netzwerke übersteigen die Komplexität von luftgekühlten, serverzentrierten Architekturen. Organisationen sollten validieren, dass Workloads diese Fähigkeiten erfordern, bevor sie sich festlegen.
Die Strom- und Kühlungsinfrastruktur muss Flüssigkeitskühlung von Anfang an berücksichtigen. Das GB200 NVL72 kann nicht mit Luftkühlung betrieben werden. Die nachträgliche Umrüstung von Einrichtungen auf Flüssigkeitskühlung nach der Bereitstellung ist teuer und störend.
Die Netzwerkplanung sollte sowohl Scale-Up- als auch Scale-Out-Anforderungen berücksichtigen. Das NVLink-Fabric übernimmt die Intra-Rack-Kommunikation, aber Inter-Rack-Kommunikation erfordert InfiniBand oder Ethernet.