NVIDIA Blackwell Ultra und B300: Was die nächste GPU-Generation erfordert
Aktualisiert am 11. Dezember 2025
Dezember 2025 Update: B300 liefert 15 PFLOPS FP4, 288GB HBM3e (12-High-Stacks), 8TB/s Bandbreite, 1.400W TDP. GB300 NVL72-Rack erreicht 1,1 EXAFLOPS—Exascale in einem einzigen Knoten. DGX B200 liefert 3x Trainingsleistung, 15x Inferenzleistung gegenüber Hopper. Systeme werden in H2 2025 ausgeliefert. Erfordert Flüssigkeitskühlung, 800-Gbps-Netzwerke, Leistungsdichten jenseits der Möglichkeiten der meisten bestehenden Einrichtungen.
Die NVIDIA Blackwell Ultra GPU liefert 15 Petaflops dichte FP4-Rechenleistung, 50% mehr Speicher als die B200 und 1,5-mal schnellere Performance.¹ Ein einzelnes GB300 NVL72-Rack erreicht 1,1 Exaflops FP4-Rechenleistung und arbeitet als Exascale-Supercomputer in einem einzigen Knoten.² Ausgestattet mit acht NVIDIA Blackwell GPUs liefert das DGX B200 die 3-fache Trainingsleistung und 15-fache Inferenzleistung gegenüber Hopper-Systemen der vorherigen Generation.³ Die Infrastrukturanforderungen für Blackwell unterscheiden sich grundlegend von allem, was Organisationen zuvor eingesetzt haben, und erfordern Flüssigkeitskühlung, 800-Gigabit-Netzwerke und Leistungsdichten, die die meisten bestehenden Einrichtungen nicht unterstützen können.
NVIDIA kündigte die B300 auf der GTC 2025 an, mit Systemauslieferungen in der zweiten Jahreshälfte 2025.⁴ Der Zeitplan erzeugt Planungsdruck für Organisationen, die Einrichtungen vorbereiten, Stromversorgung sichern und operative Fähigkeiten aufbauen müssen, bevor die Hardware eintrifft. Das Verständnis der Infrastrukturanforderungen von Blackwell bestimmt jetzt, ob Organisationen effektiv einsetzen können, wenn die Systeme verfügbar werden.
Blackwell Ultra Spezifikationen
Die Blackwell Ultra GPU verfügt über ein Dual-Reticle-Design mit 208 Milliarden Transistoren und 160 Streaming-Multiprozessoren über zwei Dies, die über NVIDIAs High-Bandwidth Interface verbunden sind.⁵ Die B200 enthielt 208 Milliarden Transistoren gegenüber 80 Milliarden bei der H100.⁶ Die Transistoranzahl spiegelt die architektonische Komplexität wider, die für KI-Workloads auf Frontier-Skala erforderlich ist.
Die B300 liefert 288 Gigabyte HBM3e-Speicher pro GPU, erreicht durch 12-High-Speicherstacks anstelle der 8-High-Konfiguration der B200.⁷ Die Speicherbandbreite erreicht 8 Terabyte pro Sekunde.⁸ Die Speicherkapazität ermöglicht die Verarbeitung von Modellen, die zuvor Multi-GPU-Konfigurationen erforderten, auf einer einzigen GPU.
Die Leistungsanforderungen steigen erheblich. Jeder B300-Chip zieht im Herzen des GB300 1.400 Watt.⁹ Die B200 verbrauchte 1.000 Watt, gegenüber 700 Watt bei der H100.¹⁰ Die Progression von 700 auf 1.000 auf 1.400 Watt pro GPU über drei Generationen demonstriert die Leistungstrajektorie, für die Organisationen planen müssen.
Die Dense-FP4-Leistung erreicht 14 Petaflops bei der B300 gegenüber 9 Petaflops bei der B200, was einer Verbesserung von 55,6% entspricht.¹¹ Die FP4-Rechenfähigkeit reduziert den Speicherbedarf um etwa das 1,8-fache gegenüber FP8 bei nahezu gleichwertiger Genauigkeit.¹² Die Niedrigpräzisions-Fähigkeit adressiert Inferenz-Workloads, bei denen reduzierte Präzision den Durchsatz verbessert, ohne die Qualität zu beeinträchtigen.
Leistung gegenüber Hopper
Verifizierte Leistungsdaten zeigen bis zu 11- bis 15-mal schnelleren LLM-Durchsatz pro GPU im Vergleich zur Hopper-Generation.¹³ Das HGX B200 liefert bis zu 15x Inferenz- und 3x Trainingsverbesserungen gegenüber HGX H100, mit 12x Energie- und Kostenreduktion.¹⁴ Der GB200 NVL72-Cluster bietet 4x schnelleres Training und 30x schnellere Echtzeit-Inferenz gegenüber H100-Clustern.¹⁵
Die B200 liefert 20 Petaflops KI-Leistung aus einer einzigen GPU. Eine einzelne H100 hatte maximal 4 Petaflops bei KI-Berechnungen.¹⁶ Die 5-fache Verbesserung pro GPU verändert die Wirtschaftlichkeit großer Deployments. Organisationen können gleichwertige Fähigkeiten mit weniger GPUs erreichen oder wesentlich mehr Fähigkeiten mit gleichwertigen GPU-Zahlen.
Speicherverbesserungen ergänzen Rechenleistungsgewinne. Die B200 verfügt über 192 Gigabyte HBM3e gegenüber 80 Gigabyte HBM3 der H100.¹⁷ Die Speicherbandbreite erreicht 8 Terabyte pro Sekunde, 2,4x schneller als die 3,35 Terabyte pro Sekunde der H100.¹⁸ Die Speicherkapazität ermöglicht Single-GPU-Verarbeitung von Modellen, die zuvor komplexe Multi-GPU-Konfigurationen erforderten.
Für Inferenz-Workloads liefert Blackwell 25x weniger Energie pro Inferenz als die H100.¹⁹ Eine einzelne B200 ersetzt 5x H100-Knoten für Llama 3-Inferenz und reduziert Kosten und CO2-Fußabdrücke.²⁰ Die Effizienzgewinne potenzieren sich über große Deployments, bei denen Inferenz den Rechenbedarf dominiert.
Architektonische Unterschiede zu Hopper
Hopper zielt auf eine breite Mischung aus High-Performance-Computing und KI-Workloads mit Fokus auf traditionelle Präzision in FP64 und FP32.²¹ Blackwell optimiert explizit für großskalige generative KI-Aufgaben.²² Der architektonische Fokus spiegelt NVIDIAs Einschätzung wider, dass KI-Workloads, insbesondere Inferenz, die GPU-Nachfrage dominieren werden.
Blackwell führt Tensor-Cores der fünften Generation mit Ultra-Niedrigpräzisions-Modi ein, die 4-Bit- und 6-Bit-Operationen unterstützen.²³ Die Niedrigpräzisions-Fähigkeiten beschleunigen Inferenz-Workloads, bei denen quantisierte Modelle akzeptable Qualität beibehalten. Training-Workloads, die höhere Präzision erfordern, profitieren weniger von den architektonischen Änderungen.
Die NVLink-Konnektivität steigt dramatisch. Jede Blackwell GPU hat 18 NVLink-Verbindungen der fünften Generation, 18-mal mehr als bei der H100 verfügbar.²⁴ Jede Verbindung bietet 50 Gigabyte pro Sekunde bidirektionale Bandbreite.²⁵ Der erweiterte Interconnect ermöglicht die GB300 NVL72-Architektur, bei der 72 GPUs als einheitliches Compute-Fabric arbeiten.
Für reine HPC-numerische Aufgaben einschließlich Matrixalgebra, Fluiddynamik und Molekulardynamik mit doppelter Präzision behalten Hoppers Stärken in FP64 pro Watt, großem Shared Memory und gut provisioniertem Cache für FP32 ihren Vorteil.²⁶ Organisationen mit traditionellen HPC-Workloads sollten nicht davon ausgehen, dass Blackwell alle Anwendungsfälle gleichermaßen verbessert.
GB300 NVL72 Rack-Architektur
Das flüssigkeitsgekühlte GB300 NVL72-Rack integriert 36 Grace Blackwell Superchips, die über NVLink 5 und NVLink Switching verbunden sind.²⁷ Das Rack enthält 72 B300 GPUs, jede mit 288 Gigabyte HBM3e-Speicher.²⁸ Mit jeder GPU, die über 1,8 Terabyte pro Sekunde NVLink-Bandbreite verbunden ist, arbeitet das System als einzelner Exascale-Knoten.²⁹
Das GB300 NVL72 ermöglicht 50x höhere AI-Factory-Ausgabe, kombiniert 10x bessere Latenz und 5x höheren Durchsatz pro Megawatt gegenüber Hopper-Plattformen.³⁰ Die Effizienzgewinne demonstrieren, warum Flüssigkeitskühlungsanforderungen eine Investition und keinen Overhead darstellen.
Das DGX B300-System bietet 2,3 Terabyte HBM3e-Speicher mit acht ConnectX-8 SuperNICs für 800-Gigabit-Netzwerke.³¹ Die Netzwerkanforderungen entsprechen der Rechenfähigkeit. Unterdimensionierte Netzwerk-Fabrics erzeugen Engpässe, die GPU-Kapazität verschwenden.
Acht NV72L-Racks bilden zusammen den vollständigen Blackwell Ultra DGX SuperPOD: 288 Grace CPUs, 576 Blackwell Ultra GPUs, 300 Terabyte HBM3e-Speicher und 11,5 Exaflops FP4-Rechenleistung.³² Die Skalierung repräsentiert, was Frontier-KI-Labore für das Training der größten Modelle einsetzen.
Infrastrukturanforderungen
Strom- und Kühlungsanforderungen übersteigen, was die meisten bestehenden Einrichtungen bieten. Das 4U HGX B300-System verwendet Supermicros DLC-2-Technologie, um bis zu 98% der Wärme durch Flüssigkeitskühlung abzuführen.³³ Luftkühlung kann die thermische Abgabe nicht ableiten. Organisationen, die Blackwell-Deployments planen, müssen Flüssigkeitskühlungsinfrastruktur implementieren.
Das 2-OU OCP flüssigkeitsgekühlte HGX B300-System ermöglicht bis zu 144 GPUs pro Rack für Hyperscale- und Cloud-Anbieter.³⁴ Ein einzelnes ORV3-Rack unterstützt bis zu 18 Knoten mit insgesamt 144 GPUs, skaliert mit Quantum-X800 InfiniBand-Switches und 1,8-Megawatt In-Row Coolant Distribution Units.³⁵ Acht HGX B300-Compute-Racks, drei Quantum-X800 InfiniBand-Netzwerk-Racks und zwei In-Row CDUs bilden eine skalierbare SuperCluster-Einheit mit 1.152 GPUs.³⁶
Netzwerke erfordern 800-Gigabit-Konnektivität. Sowohl die 2-OU OCP- als auch die 4U-Plattformen verdoppeln den Compute-Fabric-Netzwerkdurchsatz auf 800 Gigabit pro Sekunde über integrierte ConnectX-8 SuperNICs.³⁷ Das I/O-Modul des ConnectX-8 SuperNIC beherbergt zwei ConnectX-8-Geräte für 800 Gigabit pro Sekunde Netzwerkkonnektivität pro GPU.³⁸ Organisationen mit 800-Gigabit-Infrastruktur stehen vor Upgrade-Anforderungen.
Hyperscaler- und Enterprise-Verfügbarkeit
Google Cloud wurde der erste Hyperscaler, der Preview-Verfügbarkeit von B200-basierten Angeboten ankündigte.³⁹ AWS, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure gehören zu den ersten Cloud-Anbietern, die Blackwell-betriebene Instanzen anbieten.⁴⁰ Die Hyperscaler-Verfügbarkeit bietet Cloud-basierten Zugang für Organisationen, die nicht bereit sind, On-Premises-Infrastruktur einzusetzen.
HPE lieferte seine erste NVIDIA Blackwell-Familienlösung, das GB200 NVL72, im Februar 2025 aus.⁴¹ Globale Systemhersteller Cisco, Dell, HPE, Lenovo und Supermicro bieten NVIDIA-zertifizierte RTX PRO Server mit Blackwell an.⁴² Das Anbieter-Ökosystem reifte schnell von der Ankündigung zur Produktionsverfügbarkeit.
Pegatron und 5C haben erfolgreich flüssigkeitsgekühlte Racks basierend auf HGX B200 mit In-Row CDU-Integration in einem Rechenzentrum in Maryland neben luftgekühlten Systemen eingesetzt.⁴³ Das Deployment demonstriert produktionsreife Infrastruktur für Organisationen, die ihre eigenen AI Factories aufbauen.
Lieferbeschränkungen beeinflussen die Verfügbarkeit. Die Nachfrage von Hyperscalern und KI-Laboren übersteigt die Produktionskapazität.⁴⁴ Große Hyperscaler und KI-Unternehmen bestellen zahlreiche Knoten, während sich kleinere Organisationen nur begrenzte Mengen leisten können.⁴⁵ NVIDIA sieht sich einem Rückstand an Blackwell-Chips gegenüber, teilweise aufgrund von Designproblemen in der frühen Produktion.⁴⁶ Die Inbetriebnahme großer Cluster dauert typischerweise weitere drei Monate nach der Erstlieferung.⁴⁷
Deployment-Empfehlungen
Organisationen sollten bestimmen, ob die Fähigkeiten von Blackwell Infrastrukturinvestitionen rechtfertigen. Für inferenzdominierte Workloads erweisen sich Blackwells Effizienzgewinne als überzeugend. Für Training-Workloads, die FP64-Präzision erfordern, kann Hopper angemessen bleiben.
Organisationen können weiterhin große Modelle auf H100- oder H200-GPUs trainieren, während sie B200 oder B300 für Inferenz- und Deployment-Aufgaben verwenden, bei denen Blackwell die größten Durchsatz- und Latenzgewinne bietet.⁴⁸ Der hybride Ansatz optimiert Infrastrukturinvestitionen über Workload-Typen hinweg.
Die Preisgestaltung spiegelt Fähigkeitsverbesserungen wider. Frühe Listungen deuten auf B200 192GB SXM bei 45.000 bis 50.000 Dollar pro GPU hin.⁴⁹ Komplette 8x B200-Serversysteme können 500.000 Dollar übersteigen.⁵⁰ Die Kapitalanforderungen bevorzugen Organisationen mit klaren KI-Umsatzmodellen oder strategischen Mandaten.
Die B200 eignet sich für Modellinferenz im großen Maßstab, wissenschaftliches Rechnen, FP64-Workloads und Multi-GPU-Systeme mit 4 bis 8 GPUs.⁵¹ Die B300 erweist sich am besten für LLM-Training mit höherem Durchsatz und NVLink-Fabric, Modellinferenz im großen Maßstab und Supercomputer.⁵² Die Unterscheidung hilft Organisationen, geeignete Konfigurationen zu wählen.
Infrastrukturinvestitionsentscheidungen sollten Blackwells Flüssigkeitskühlung, 800-Gigabit-Netzwerke und Stromanforderungen berücksichtigen. Organisationen mit bestehenden luftgekühlten Einrichtungen stehen vor Nachrüstkosten oder Neubauten. Diejenigen ohne 800-Gigabit-Netzwerkinfrastruktur benötigen Fabric-Upgrades. Einrichtungen ohne ausreichende Stromdichte können Blackwell-Systeme unabhängig von anderen Vorbereitungen nicht hosten.
Die Infrastrukturlücke zwischen Hopper- und Blackwell-Anforderungen übersteigt jeden vorherigen NVIDIA-Generationsübergang. Organisationen, die jetzt mit der Planung beginnen, positionieren sich für das Deployment, wenn Systeme verfügbar werden. Diejenigen, die verzögern, werden feststellen, dass Einrichtungsbeschränkungen ihre KI-Fähigkeiten unabhängig vom GPU-Budget limitieren.
Wichtigste Erkenntnisse
Für Infrastrukturarchitekten: - B300: 15 PFLOPS FP4, 288GB HBM3e (12-High-Stacks), 8TB/s Speicherbandbreite, 1.400W TDP pro GPU - GB300 NVL72: 72 GPUs, 1,1 Exaflops FP4, 1,8TB/s NVLink-Bandbreite pro GPU; DGX SuperPOD: 576 GPUs, 11,5 Exaflops - Leistungsprogression: H100 (700W) → B200 (1.000W) → B300 (1.400W); Infrastrukturlücke übersteigt jeden vorherigen Generationsübergang
Für Beschaffungsteams: - B200 192GB SXM: 45.000-50.000 Dollar pro GPU; komplette 8x B200-Serversysteme übersteigen 500.000 Dollar - Lieferbeschränkungen bestehen fort; Nachfrage von Hyperscalern übersteigt Produktionskapazität mit 3+ Monaten Deployment-Verzögerung nach Lieferung - HPE lieferte erstes GB200
[Inhalt für Übersetzung gekürzt]