800G-Netzwerke für KI: Planung Ihrer GPU-Fabric der nächsten Generation
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: NVIDIAs Quantum-X800 InfiniBand und Spectrum-X800 Ethernet-Plattformen werden jetzt in großen Stückzahlen ausgeliefert. Microsoft Azure setzt 800G Full Fat-Tree Non-Blocking Fabrics für GB200/GB300-Cluster ein. Das Ultra Ethernet Consortium beschleunigt KI-spezifische Erweiterungen, während 1,6T-Tests beginnen. Die Leistungsdichte bleibt der limitierende Faktor bei der Bereitstellung – 800G-Module verbrauchen 14-20W pro Port und belasten die Rack-Kühlung.
Die Mehrheit der Switch-Port-Lieferungen in KI-Clustern im Jahr 2025 arbeitet mit 800 Gigabit pro Sekunde.¹ Bis 2027 wird die Mehrheit auf 1,6 Terabit umsteigen. Bis 2030 werden die meisten Ports mit 3,2 Terabit arbeiten.² Dies bedeutet, dass die elektrischen Schichten von Rechenzentrumsnetzwerken bei jeder Bandbreitengeneration ausgetauscht werden müssen – ein wesentlich aggressiverer Upgrade-Zyklus als historisch im Enterprise-Networking üblich. Organisationen, die KI-Infrastruktur planen, müssen Netzwerk-Transitionen berücksichtigen, die schneller erfolgen werden als jede vorherige Technologiegeneration.
NVIDIAs Netzwerk-Umsatz hat sich im Jahresvergleich auf 7,3 Milliarden Dollar nahezu verdoppelt, getrieben durch die starke Akzeptanz von Spectrum-X Ethernet, InfiniBand XDR und NVLink Scale-up-Systemen.³ Spectrum-X überschritt eine jährliche Run Rate von 10 Milliarden Dollar.⁴ Die Investition signalisiert, dass Netzwerke für KI einen eigenständigen Markt gegenüber traditionellen Rechenzentrumsnetzwerken darstellen, mit Anforderungen und einer Wirtschaftlichkeit, die dedizierte Produktentwicklung und Infrastrukturplanung rechtfertigen.
800G wird zum Standard 2025
Branchenforschung und Hersteller-Roadmaps positionieren 800G-Optik als dominante Technologie für neue KI-Cluster und große Rechenzentrums-Bereitstellungen im Jahr 2025, insbesondere in OSFP- und QSFP-DD-Formfaktoren.⁵ Hersteller und Analysten erwarten, dass 800G-Transceiver das Arbeitspferd in großen KI-Fabrics sein werden, während erste Tests für 1,6T bereits in Entwicklung sind.⁶
Der schnelle Hochlauf von NVIDIAs Blackwell Ultra-Plattform befeuerte die starke Nachfrage nach 800 Gbps InfiniBand-Switches und trieb einen Anstieg der InfiniBand-Switch-Verkäufe im Q2 2025 voran.⁷ Während die InfiniBand-Switch-Verkäufe in KI-Backend-Netzwerken stark anstiegen, behält Ethernet insgesamt die Führung. 800-Gbps-Switches machen den Großteil sowohl der Ethernet- als auch der InfiniBand-Switch-Lieferungen und -Umsätze in KI-Backend-Netzwerken aus.⁸
Microsofts neueste NVIDIA GB200- und GB300-Bereitstellungen kommunizieren über NVLink und NVSwitch mit Terabytes pro Sekunde auf Rack-Ebene.⁹ Um mehrere Racks zu einem Pod zu verbinden, nutzt Azure sowohl InfiniBand- als auch Ethernet-Fabrics, die 800 Gbps in einer Full Fat-Tree Non-Blocking-Architektur liefern.¹⁰ Der hybride Ansatz spiegelt die komplementären Rollen verschiedener Netzwerktechnologien in großskaliger KI-Infrastruktur wider.
KI-gesteuerte optische Konnektivität einschließlich 400G- und 800G-Module wird mit einer jährlichen Wachstumsrate von mehr als 22% bis 2030 wachsen, hauptsächlich aufgrund großskaliger KI-Trainings- und Inferenz-Cluster.¹¹ Die Wachstumstrajektorie rechtfertigt Infrastrukturinvestitionen, die eine mehrjährige Expansion der KI-Netzwerkanforderungen antizipieren.
NVIDIAs 800G-Netzwerkplattformen
NVIDIA Quantum-X800 InfiniBand und Spectrum-X800 Ethernet repräsentieren die weltweit ersten Netzwerkplattformen, die End-to-End 800Gb/s Durchsatz liefern können.¹² Die Quantum-X800-Plattform, speziell für Billionen-Parameter-KI-Modelle entwickelt, umfasst den Quantum-X800 InfiniBand-Switch, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC sowie LinkX-Kabel und -Transceiver.¹³
Der Quantum-X800 InfiniBand-Switch bietet 144 Ports mit 800 Gb/s Konnektivität pro Port.¹⁴ Die Port-Dichte ermöglicht den Aufbau großskaliger Fabrics mit weniger Switching-Ebenen, was Latenz und Komplexität reduziert. Für Organisationen, die die größten KI-Modelle trainieren, bietet InfiniBand weiterhin die niedrigste Latenz und beste Performance-Konsistenz im großen Maßstab.
NVIDIAs Quantum-X und Spectrum-X Photonics Switches integrieren Silizium-Photonik direkt in das Switch-Gehäuse und liefern 128 bis 512 Ports mit 800 Gb/s bei Gesamtbandbreiten von 100 Tb/s bis 400 Tb/s.¹⁵ Die Integration bietet 3,5-fache Energieeffizienz und 10-fache Ausfallsicherheit im Vergleich zu traditioneller Optik.¹⁶
Cisco Nexus Hyperfabric AI mit dem cloud-verwalteten Cisco G200 Silicon One Switch liefert hochdichtes 800G Ethernet, jetzt bestellbar als Bereitstellungsoption in AI PODs.¹⁷ Die Partnerschaft zwischen Cisco und NVIDIA im Bereich KI-Networking demonstriert, wie sich traditionelle Enterprise-Netzwerkhersteller an KI-Infrastrukturanforderungen anpassen.
InfiniBand versus Ethernet – Überlegungen
Ethernet wird die meisten Enterprise-KI-Bereitstellungen aufgrund von Kosten- und Ökosystemvorteilen dominieren, während InfiniBand die Wahl für extrem großskalige KI- und HPC-Cluster bleiben wird.¹⁸ Die Unterscheidung ist wichtig für die Infrastrukturplanung: Organisationen sollten die Technologie basierend auf Workload-Charakteristiken wählen, anstatt auf vertraute Optionen zurückzugreifen.
InfiniBand bietet niedrigere Latenz von etwa 1-2 Mikrosekunden und bessere Performance-Konsistenz im großen Maßstab.¹⁹ Ethernet mit RoCEv2 bietet etwa 5-10 Mikrosekunden Latenz und kann für KI-Workloads optimiert werden.²⁰ Der Latenzunterschied ist relevant für Trainingsjobs, bei denen kollektive Operationen über Tausende von GPUs synchronisiert werden. Inferenz-Workloads mit geringeren Synchronisationsanforderungen profitieren möglicherweise nicht von InfiniBands Latenzvorteilen.
Analysten prognostizieren, dass Ethernet zur prominenteren Technologie für KI-Networking werden wird und InfiniBand überholen wird, während 800G hochfährt und 1,6T Gestalt annimmt.²¹ NVIDIAs Gründungsmitgliedschaft im Ultra Ethernet Consortium und die Veröffentlichung von KI-optimierten Spectrum-X 800G Ethernet-Switches signalisieren Vertrauen in Ethernets KI-Zukunft.²² Das Ultra Ethernet Consortium entwickelt Erweiterungen speziell für KI-Workloads.
Die Bereitstellung einer hochperformanten, verlustfreien 800G Ethernet-Fabric maximiert den Wert der KI-Investition.²³ Das Netzwerk dient als zentrales Nervensystem, entscheidend für die Maximierung von Effizienz und Return on Investment. Die Feinabstimmung der Netzwerk-Fabric beschleunigt die Job-Completion-Zeit und gewährleistet hohe GPU-Auslastung.²⁴
Migrationsherausforderungen und Planung
800G-Optik bringt neue Herausforderungen mit sich, die Organisationen bei der Migrationsplanung berücksichtigen müssen. Leistungs- und thermische Dichte steigen erheblich, wobei 800G-Module 14-20 Watt oder mehr verbrauchen, was das Switch-Kühlungsdesign und die Rack-Leistungsbudgets belastet.²⁵ Organisationen müssen verifizieren, dass die bestehende Infrastruktur die erhöhten Leistungs- und Kühlanforderungen unterstützen kann.
Das Fasermanagement wird komplexer. Die Migration auf 800G erfordert oft höhere Faserzahlen, MTP-Verkabelung und strengere Polaritäts- und Sauberkeitsanforderungen.²⁶ Die Physical-Layer-Infrastruktur, die für 100G oder 400G funktionierte, unterstützt möglicherweise nicht 800G ohne Upgrades. Kabelinfrastruktur-Investitionen sollten zukünftige Bandbreitenanforderungen antizipieren, um wiederholten Infrastrukturersatz zu vermeiden.
Interoperabilität und Validierung über Switch-Hersteller und NICs hinweg erfordern sorgfältige Planung.²⁷ Multi-Vendor-Umgebungen können auf Kompatibilitätsprobleme stoßen, die homogene Bereitstellungen vermeiden. Organisationen sollten die Interoperabilität in Laborumgebungen validieren, bevor sie in die Produktion gehen.
Der aggressive Upgrade-Zyklus von 800G auf 1,6T auf 3,2T in weniger als fünf Jahren unterscheidet sich von historischen Netzwerk-Transitionen. Die Planung sollte häufigeren Infrastrukturersatz berücksichtigen, als traditionelles Rechenzentrums-Networking erlebt hat. Modulare Designs, die Upgrades auf Komponentenebene ermöglichen, können die Gesamtersatzkosten reduzieren.
Strategische Empfehlungen
Organisationen, die KI-Infrastruktur planen, sollten Netzwerkanforderungen mit derselben Sorgfalt bewerten, die bei der GPU-Auswahl angewendet wird. Das Netzwerk bestimmt, wie effektiv teure GPU-Ressourcen genutzt werden. Unterinvestition in Netzwerke schafft Engpässe, die GPU-Kapazität verschwenden.
Für neue KI-Bereitstellungen im Jahr 2025 sollte 800G die Standardspezifikation für Spine-Level-Konnektivität sein. Leaf-Level-Konnektivität kann je nach GPU-Konfigurationen und Oversubscription-Toleranz 400G verwenden. Die Investition in 800G-Infrastruktur bietet Spielraum für Workload-Wachstum und bereitet auf zukünftige Transitionen vor.
InfiniBand bleibt angemessen für die größten KI-Trainingscluster, wo Latenzminimierung direkt die Trainingseffizienz verbessert. Enterprise-KI-Bereitstellungen, cloud-basierte KI-Dienste und Inferenz-Workloads profitieren im Allgemeinen von Ethernets Kostenvorteilen und Ökosystem-Integration, ohne bedeutende Performance einzubüßen.
Leistungs- und Kühlungsbeschränkungen können die 800G-Einführung stärker limitieren als Bandbreitenanforderungen. Organisationen sollten die Infrastrukturkapazität prüfen, bevor sie sich zu 800G-Bereitstellungen verpflichten. Das Leistungsbudget für Netzwerke kann in eingeschränkten Einrichtungen mit GPU-Leistungsanforderungen konkurrieren.
Schneller Entscheidungsrahmen
Technologieauswahl:
| Wenn Ihr Workload ist... | Wählen Sie | Begründung |
|---|---|---|
| LLM-Training (>1000 GPUs) | InfiniBand 800G | 1-2µs Latenz, beste Konsistenz |
| Enterprise KI/Inferenz | Ethernet 800G | Kosteneffektiv, Ökosystem-Integration |
| Hybrid Training + Inferenz | Dual Fabric | InfiniBand für Training, Ethernet für Inferenz |
| Cloud-bereitgestellte KI | Anbieterabhängig | GCP nur Ethernet; AWS/Azure bieten beides |
Bandbreitenplanung:
| Cluster-Größe | Spine | Leaf | Oversubscription |
|---|---|---|---|
| <256 GPUs | 400G | 100G | 4:1 akzeptabel |
| 256-1024 GPUs | 800G | 400G | 2:1 empfohlen |
| 1024-4096 GPUs | 800G | 800G | 1:1 (non-blocking) |
| >4096 GPUs | Multi-Tier 800G | 800G | Fat-Tree-Design |
Wichtigste Erkenntnisse
Für Netzwerkarchitekten: - 800G ist Standard 2025; planen Sie für 1,6T bis 2027, 3,2T bis 2030 - NVIDIA Quantum-X800 liefert 144 Ports × 800Gb/s pro Switch - InfiniBand: ~1-2µs Latenz; Ethernet mit RoCEv2: ~5-10µs - Stromverbrauch: 800G-Module ziehen 14-20W, beeinflussen Rack-Budgets
Für Infrastrukturplaner: - Netzwerk-elektrische Schichten erfordern Ersatz bei jeder Bandbreitengeneration - 800G-Optik benötigt höhere Faserzahlen, MTP-Verkabelung, strengere Sauberkeit - Interoperabilitätsvalidierung kritisch in Multi-Vendor-Umgebungen - Modulare Designs reduzieren Gesamtersatzkosten bei Transitionen
Für strategische Planung: - Ethernet wird voraussichtlich InfiniBand für KI-Networking überholen, während 800G hochfährt - NVIDIA Spectrum-X erreichte 10 Mrd. USD jährliche Run Rate – KI-Networking ist ein eigenständiger Markt - Ultra Ethernet Consortium entwickelt KI-spezifische Erweiterungen - Netzwerkinvestition bestimmt GPU-Auslastung – Unterinvestition verschwendet Rechenleistung
Netzwerke stellen eine bedeutende, aber oft unterschätzte Komponente der KI-Infrastrukturkosten dar. Die erforderliche Investition zur Unterstützung von GPU-Clustern mit angemessener Bandbreite rechtfertigt sorgfältige Planung und Hersteller-Evaluierung. Organisationen, die Netzwerke als Nebensache behandeln, werden feststellen, dass Netzwerklimitierungen die KI-Fähigkeiten einschränken, die ihre GPU-Investitionen sonst ermöglichen könnten.
Referenzen
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[Inhalt für Übersetzung gekürzt]