NVIDIA Blackwell Ultra en B300: wat de volgende GPU-generatie vereist

B300 levert 15 PFLOPS FP4, 288GB HBM3e (12-hoge stacks), 8TB/s bandbreedte, 1.400W TDP. GB300 NVL72-rack bereikt 1,1 EXAFLOPS—exaschaal in één node. DGX B200 levert 3x training, 15x...

NVIDIA Blackwell Ultra en B300: wat de volgende GPU-generatie vereist

NVIDIA Blackwell Ultra en B300: wat de volgende GPU-generatie vereist

Bijgewerkt op 11 december 2025

Update december 2025: B300 levert 15 PFLOPS FP4, 288GB HBM3e (12-hoge stacks), 8TB/s bandbreedte, 1.400W TDP. GB300 NVL72-rack bereikt 1,1 EXAFLOPS—exaschaal in één node. DGX B200 levert 3x trainingsprestaties, 15x inferentieprestaties versus Hopper. Systemen worden geleverd in H2 2025. Vereist vloeistofkoeling, 800Gbps networking en vermogensdichtheden die de meeste bestaande faciliteiten niet kunnen ondersteunen.

De NVIDIA Blackwell Ultra GPU levert 15 petaflops aan dichte FP4-rekenkracht, 50% meer geheugen dan de B200, en 1,5 keer snellere prestaties.¹ Een enkel GB300 NVL72-rack bereikt 1,1 exaflops aan FP4-rekenkracht en functioneert als een exaschaal-supercomputer in één node.² Uitgerust met acht NVIDIA Blackwell GPU's levert de DGX B200 3x de trainingsprestaties en 15x de inferentieprestaties van vorige generatie Hopper-systemen.³ De infrastructuurvereisten voor Blackwell verschillen aanzienlijk van alles wat organisaties eerder hebben geïmplementeerd, met vloeistofkoeling, 800-gigabit networking en vermogensdichtheden die de meeste bestaande faciliteiten niet kunnen ondersteunen.

NVIDIA kondigde de B300 aan op GTC 2025, met systeemlevering in de tweede helft van 2025.⁴ De timing creëert planningsurgentie voor organisaties die faciliteiten moeten voorbereiden, stroom moeten veiligstellen en operationele capaciteiten moeten opbouwen voordat de hardware arriveert. Het nu begrijpen van Blackwell's infrastructuurvereisten bepaalt of organisaties effectief kunnen implementeren wanneer systemen beschikbaar komen.

Blackwell Ultra specificaties

De Blackwell Ultra GPU beschikt over een dual-reticle ontwerp met 208 miljard transistoren en 160 streaming multiprocessors verdeeld over twee dies verbonden via NVIDIA's High-Bandwidth Interface.⁵ De B200 bevatte 208 miljard transistoren vergeleken met 80 miljard op de H100.⁶ Het transistoraantal weerspiegelt de architecturale complexiteit die vereist is voor AI-workloads op frontier-schaal.

De B300 levert 288 gigabyte HBM3e-geheugen per GPU, bereikt door 12-hoge geheugenstacks in plaats van de 8-hoge configuratie van de B200.⁷ Geheugenbandbreedte bereikt 8 terabytes per seconde.⁸ De geheugencapaciteit maakt verwerking mogelijk van modellen die voorheen multi-GPU-configuraties vereisten op een enkele GPU.

Stroomvereisten nemen aanzienlijk toe. Elke B300-chip verbruikt 1.400 watt in het hart van de GB300.⁹ De B200 verbruikte 1.000 watt, omhoog van de 700 watt van de H100.¹⁰ De progressie van 700 naar 1.000 naar 1.400 watt per GPU over drie generaties demonstreert het vermogenstraject waar organisaties rekening mee moeten houden.

Dichte FP4-prestaties bereiken 14 petaflops op de B300 vergeleken met 9 petaflops op de B200, wat een verbetering van 55,6% vertegenwoordigt.¹¹ De FP4-rekencapaciteit vermindert de geheugenvoetafdruk met ongeveer 1,8 keer vergeleken met FP8 terwijl vrijwel gelijkwaardige nauwkeurigheid behouden blijft.¹² De lagere-precisie capaciteit richt zich op inferentieworkloads waar verminderde precisie de doorvoer verbetert zonder kwaliteit op te offeren.

Prestaties versus Hopper

Geverifieerde prestatiegegevens tonen tot 11 tot 15 keer snellere LLM-doorvoer per GPU vergeleken met de Hopper-generatie.¹³ De HGX B200 levert tot 15x inferentie en 3x trainingsverbeteringen versus HGX H100, met 12x energie- en kostenreductie.¹⁴ Het GB200 NVL72-cluster biedt 4x snellere training en 30x snellere real-time inferentie versus H100-clusters.¹⁵

De B200 levert 20 petaflops aan AI-prestaties vanuit een enkele GPU. Een enkele H100 had een maximum van 4 petaflops aan AI-berekeningen.¹⁶ De 5x verbetering per GPU verandert de economie van grootschalige implementaties. Organisaties kunnen gelijkwaardige capaciteit bereiken met minder GPU's of aanzienlijk meer capaciteit met gelijkwaardige GPU-aantallen.

Geheugenverbeteringen complementeren rekenwinsten. De B200 beschikt over 192 gigabyte HBM3e vergeleken met 80 gigabyte HBM3 van de H100.¹⁷ Geheugenbandbreedte bereikt 8 terabytes per seconde, 2,4x sneller dan de 3,35 terabytes per seconde van de H100.¹⁸ De geheugencapaciteit maakt single-GPU-verwerking mogelijk van modellen die voorheen complexe multi-GPU-configuraties vereisten.

Voor inferentieworkloads levert Blackwell 25x lager energieverbruik per inferentie dan de H100.¹⁹ Een enkele B200 vervangt 5x H100-nodes voor Llama 3-inferentie, wat kosten en CO2-voetafdrukken vermindert.²⁰ De efficiëntiewinsten stapelen zich op bij grote implementaties waar inferentie de rekenvraag domineert.

Architecturale verschillen met Hopper

Hopper richt zich op een brede mix van high-performance computing en AI-workloads met focus op traditionele precisie in FP64 en FP32.²¹ Blackwell optimaliseert expliciet voor grootschalige generatieve AI-taken.²² De architecturale focus weerspiegelt NVIDIA's inschatting dat AI-workloads, met name inferentie, de GPU-vraag zullen domineren.

Blackwell introduceert vijfde-generatie tensor cores met ultra-lage-precisie modi die 4-bit en 6-bit operaties ondersteunen.²³ De lage-precisie capaciteiten versnellen inferentieworkloads waar gekwantiseerde modellen acceptabele kwaliteit behouden. Trainingsworkloads die hogere precisie vereisen profiteren minder van de architecturale wijzigingen.

NVLink-connectiviteit neemt dramatisch toe. Elke Blackwell GPU heeft 18 vijfde-generatie NVLink-verbindingen, 18 keer meer dan beschikbaar op de H100.²⁴ Elke verbinding biedt 50 gigabytes per seconde aan bidirectionele bandbreedte.²⁵ De uitgebreide interconnect maakt de GB300 NVL72-architectuur mogelijk waar 72 GPU's als een uniforme rekenfabric functioneren.

Voor pure HPC numerieke taken inclusief matrixalgebra, vloeistofdynamica en moleculaire dynamica met dubbele precisie, behouden Hopper's sterke punten in FP64 per watt, groot gedeeld geheugen en goed voorziene caches voor FP32 hun voordeel.²⁶ Organisaties met traditionele HPC-workloads moeten niet aannemen dat Blackwell alle use cases gelijkwaardig verbetert.

GB300 NVL72 rack-architectuur

Het vloeistofgekoelde GB300 NVL72-rack integreert 36 Grace Blackwell Superchips, verbonden via NVLink 5 en NVLink Switching.²⁷ Het rack bevat 72 B300 GPU's, elk met 288 gigabyte HBM3e-geheugen.²⁸ Met elke GPU verbonden via 1,8 terabytes per seconde aan NVLink-bandbreedte functioneert het systeem als een enkele exaschaal-node.²⁹

De GB300 NVL72 maakt 50x hogere AI-factory output mogelijk, door 10x betere latentie en 5x hogere doorvoer per megawatt te combineren ten opzichte van Hopper-platforms.³⁰ De efficiëntiewinsten demonstreren waarom vloeistofkoelingsvereisten investering vertegenwoordigen in plaats van overhead.

Het DGX B300-systeem biedt 2,3 terabyte HBM3e-geheugen met acht ConnectX-8 SuperNICs voor 800-gigabit networking.³¹ De networkvereisten matchen de rekencapaciteit. Onderbemeten netwerkfabrics creëren bottlenecks die GPU-capaciteit verspillen.

Zet acht NV72L-racks bij elkaar om de volledige Blackwell Ultra DGX SuperPOD te vormen: 288 Grace CPU's, 576 Blackwell Ultra GPU's, 300 terabyte HBM3e-geheugen en 11,5 exaflops FP4-rekenkracht.³² De schaal vertegenwoordigt wat frontier AI-labs implementeren voor het trainen van de grootste modellen.

Infrastructuurvereisten

Stroom- en koelingsvereisten overschrijden wat de meeste bestaande faciliteiten bieden. Het 4U HGX B300-systeem gebruikt Supermicro's DLC-2-technologie om tot 98% van de warmte op te vangen via vloeistofkoeling.³³ Luchtkoeling kan de thermische output niet afvoeren. Organisaties die Blackwell-implementaties plannen moeten vloeistofkoelingsinfrastructuur implementeren.

Het 2-OU OCP vloeistofgekoelde HGX B300-systeem maakt tot 144 GPU's per rack mogelijk voor hyperscale en cloudproviders.³⁴ Een enkel ORV3-rack ondersteunt tot 18 nodes met 144 GPU's totaal, schalend met Quantum-X800 InfiniBand-switches en 1,8-megawatt in-row koelmiddeldistributie-units.³⁵ Acht HGX B300-computeracks, drie Quantum-X800 InfiniBand-networkingracks en twee in-row CDU's vormen een SuperCluster schaalbare eenheid met 1.152 GPU's.³⁶

Networking vereist 800-gigabit connectiviteit. Zowel de 2-OU OCP als 4U-platforms verdubbelen de compute fabric netwerkdoorvoer naar 800 gigabits per seconde via geïntegreerde ConnectX-8 SuperNICs.³⁷ De I/O-module van de ConnectX-8 SuperNIC host twee ConnectX-8-apparaten voor 800 gigabits per seconde aan netwerkconnectiviteit per GPU.³⁸ Organisaties met 400-gigabit infrastructuur staan voor upgradevereisten.

Beschikbaarheid bij hyperscalers en enterprises

Google Cloud werd de eerste hyperscaler die preview-beschikbaarheid van B200-gebaseerde aanbiedingen aankondigde.³⁹ AWS, Google Cloud, Microsoft Azure en Oracle Cloud Infrastructure behoren tot de eerste cloudproviders die Blackwell-aangedreven instances aanbieden.⁴⁰ De hyperscaler-beschikbaarheid biedt cloudgebaseerde toegang voor organisaties die nog niet klaar zijn om on-premises infrastructuur te implementeren.

HPE verzond zijn eerste NVIDIA Blackwell-familie oplossing, de GB200 NVL72, in februari 2025.⁴¹ Wereldwijde systeembouwers Cisco, Dell, HPE, Lenovo en Supermicro bieden NVIDIA-Certified RTX PRO Servers met Blackwell.⁴² Het vendor-ecosysteem rijpte snel van aankondiging naar productiebeschikbaarheid.

Pegatron en 5C implementeerden succesvol vloeistofgekoelde racks gebaseerd op HGX B200 met in-row CDU-integratie in een datacenter in Maryland naast luchtgekoelde systemen.⁴³ De implementatie demonstreert productie-klare infrastructuur voor organisaties die hun eigen AI-fabrieken bouwen.

Leveringsbeperkingen beïnvloeden beschikbaarheid. Vraag van hyperscalers en AI-labs overstijgt productiecapaciteit.⁴⁴ Grote hyperscalers en AI-bedrijven bestellen talrijke nodes terwijl kleinere organisaties slechts beperkte hoeveelheden kunnen betalen.⁴⁵ NVIDIA heeft een achterstand van Blackwell-chips, deels door ontwerpissues in vroege productie.⁴⁶ Het operationeel krijgen van grote clusters duurt typisch drie extra maanden na eerste levering.⁴⁷

Implementatieaanbevelingen

Organisaties moeten bepalen of Blackwell's capaciteiten infrastructuurinvesteringen rechtvaardigen. Voor inferentie-gedomineerde workloads zijn Blackwell's efficiëntiewinsten overtuigend. Voor trainingsworkloads die FP64-precisie vereisen, blijft Hopper mogelijk geschikt.

Organisaties kunnen doorgaan met het trainen van grote modellen op H100 of H200 GPU's terwijl ze B200 of B300 gebruiken voor inferentie- en implementatietaken waar Blackwell de grootste doorvoer- en latentiewinsten biedt.⁴⁸ De hybride aanpak optimaliseert infrastructuurinvesteringen over workloadtypen.

Prijzen weerspiegelen capaciteitsverbeteringen. Vroege vermeldingen suggereren B200 192GB SXM voor $45.000 tot $50.000 per GPU.⁴⁹ Complete 8x B200-serversystemen kunnen $500.000 overschrijden.⁵⁰ De kapitaalvereisten favoriseren organisaties met duidelijke AI-verdienmodellen of strategische mandaten.

De B200 past bij modelinferentie op schaal, wetenschappelijk computing, FP64-workloads en multi-GPU-systemen met 4 tot 8 GPU's.⁵¹ De B300 blijkt het beste voor LLM-training met hogere doorvoer en NVLink-fabric, modelinferentie op schaal en supercomputers.⁵² Het onderscheid helpt organisaties bij het kiezen van geschikte configuraties.

Infrastructuurinvesteringsbeslissingen moeten rekening houden met Blackwell's vloeistofkoeling, 800-gigabit networking en stroomvereisten. Organisaties met bestaande luchtgekoelde faciliteiten staan voor retrofitkosten of nieuwbouw. Degenen zonder 800-gigabit netwerkinfrastructuur hebben fabric-upgrades nodig. Faciliteiten zonder adequate vermogensdichtheid kunnen geen Blackwell-systemen hosten ongeacht andere voorbereidingen.

De infrastructuurkloof tussen Hopper- en Blackwell-vereisten overschrijdt elke vorige NVIDIA-generatietransitie. Organisaties die nu beginnen met plannen positioneren zich voor implementatie wanneer systemen beschikbaar komen. Degenen die uitstellen zullen merken dat faciliteitsbeperkingen hun AI-capaciteiten limiteren ongeacht GPU-budget.


Belangrijkste conclusies

Voor infrastructuurarchitecten: - B300: 15 PFLOPS FP4, 288GB HBM3e (12-hoge stacks), 8TB/s geheugenbandbreedte, 1.400W TDP per GPU - GB300 NVL72: 72 GPU's, 1,1 exaflops FP4, 1,8TB/s NVLink-bandbreedte per GPU; DGX SuperPOD: 576 GPU's, 11,5 exaflops - Vermogensprogressie: H100 (700W) → B200 (1.000W) → B300 (1.400W); infrastructuurkloof overschrijdt elke vorige generatietransitie

Voor inkoopteams: - B200 192GB SXM: $45.000-$50.000 per GPU; complete 8x B200-serversystemen overschrijden $500.000 - Leveringsbeperkingen houden aan; vraag van hyperscalers overstijgt productiecapaciteit met 3+ maanden implementatievertraging na levering - HPE verzond eerste GB200

[Inhoud ingekort voor vertaling]

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING