NVIDIA Blackwell Ultra et B300 : ce qu'exige la nouvelle génération de GPU

Le B300 offre 15 PFLOPS en FP4, 288 Go de HBM3e (piles de 12 couches), 8 To/s de bande passante, 1 400 W de TDP. Le rack GB300 NVL72 atteint 1,1 EXAFLOPS — l'échelle exascale dans un seul nœud. Le DGX B200 offre 3x les performances d'entraînement, 15x...

NVIDIA Blackwell Ultra et B300 : ce qu'exige la nouvelle génération de GPU

NVIDIA Blackwell Ultra et B300 : ce qu'exige la nouvelle génération de GPU

Mis à jour le 11 décembre 2025

Mise à jour de décembre 2025 : Le B300 offre 15 PFLOPS en FP4, 288 Go de HBM3e (piles de 12 couches), 8 To/s de bande passante, 1 400 W de TDP. Le rack GB300 NVL72 atteint 1,1 EXAFLOPS — l'échelle exascale dans un seul nœud. Le DGX B200 offre 3x les performances d'entraînement et 15x les performances d'inférence par rapport aux systèmes Hopper. Les systèmes seront livrés au second semestre 2025. Ils nécessitent un refroidissement liquide, une connectivité réseau de 800 Gbit/s et des densités de puissance qui dépassent les capacités de la plupart des installations existantes.

Le GPU NVIDIA Blackwell Ultra offre 15 pétaflops de calcul dense en FP4, 50 % de mémoire supplémentaire par rapport au B200, et des performances 1,5 fois supérieures.¹ Un seul rack GB300 NVL72 atteint 1,1 exaflops de calcul FP4, fonctionnant comme un supercalculateur exascale dans un seul nœud.² Équipé de huit GPU NVIDIA Blackwell, le DGX B200 offre 3 fois les performances d'entraînement et 15 fois les performances d'inférence des systèmes Hopper de génération précédente.³ Les exigences d'infrastructure pour Blackwell diffèrent considérablement de tout ce que les organisations ont déployé auparavant, nécessitant un refroidissement liquide, une connectivité réseau de 800 gigabits et des densités de puissance que la plupart des installations existantes ne peuvent pas supporter.

NVIDIA a annoncé le B300 lors du GTC 2025, avec des livraisons prévues pour le second semestre 2025.⁴ Ce calendrier crée une urgence de planification pour les organisations qui doivent préparer leurs installations, sécuriser l'alimentation électrique et développer leurs capacités opérationnelles avant l'arrivée du matériel. Comprendre dès maintenant les exigences d'infrastructure de Blackwell détermine si les organisations pourront déployer efficacement lorsque les systèmes seront disponibles.

Spécifications du Blackwell Ultra

Le GPU Blackwell Ultra présente une conception à double réticule avec 208 milliards de transistors et 160 multiprocesseurs de flux répartis sur deux puces connectées via l'interface haute bande passante de NVIDIA.⁵ Le B200 contenait 208 milliards de transistors contre 80 milliards sur le H100.⁶ Le nombre de transistors reflète la complexité architecturale requise pour les charges de travail IA à l'échelle frontière.

Le B300 offre 288 gigaoctets de mémoire HBM3e par GPU, grâce à des piles de mémoire de 12 couches au lieu de la configuration à 8 couches du B200.⁷ La bande passante mémoire atteint 8 téraoctets par seconde.⁸ Cette capacité mémoire permet de traiter sur un seul GPU des modèles qui nécessitaient auparavant des configurations multi-GPU.

Les besoins en alimentation augmentent significativement. Chaque puce B300 consomme 1 400 watts au cœur du GB300.⁹ Le B200 consommait 1 000 watts, contre 700 watts pour le H100.¹⁰ La progression de 700 à 1 000 puis 1 400 watts par GPU sur trois générations illustre la trajectoire énergétique que les organisations doivent anticiper.

Les performances en FP4 dense atteignent 14 pétaflops sur le B300 contre 9 pétaflops sur le B200, soit une amélioration de 55,6 %.¹¹ La capacité de calcul FP4 réduit l'empreinte mémoire d'environ 1,8 fois par rapport au FP8 tout en maintenant une précision quasi équivalente.¹² Cette capacité de précision réduite répond aux charges de travail d'inférence où une précision diminuée améliore le débit sans sacrifier la qualité.

Performances par rapport à Hopper

Les données de performance vérifiées montrent un débit LLM jusqu'à 11 à 15 fois plus rapide par GPU par rapport à la génération Hopper.¹³ Le HGX B200 offre jusqu'à 15x d'amélioration en inférence et 3x en entraînement par rapport au HGX H100, avec une réduction de 12x de l'énergie et des coûts.¹⁴ Le cluster GB200 NVL72 offre un entraînement 4x plus rapide et une inférence en temps réel 30x plus rapide par rapport aux clusters H100.¹⁵

Le B200 offre 20 pétaflops de performance IA à partir d'un seul GPU. Un seul H100 avait un maximum de 4 pétaflops en calculs IA.¹⁶ L'amélioration de 5x par GPU change l'économie des déploiements à grande échelle. Les organisations peuvent atteindre une capacité équivalente avec moins de GPU ou une capacité substantiellement supérieure avec un nombre équivalent de GPU.

Les améliorations de la mémoire complètent les gains de calcul. Le B200 dispose de 192 gigaoctets de HBM3e contre 80 gigaoctets de HBM3 pour le H100.¹⁷ La bande passante mémoire atteint 8 téraoctets par seconde, 2,4x plus rapide que les 3,35 téraoctets par seconde du H100.¹⁸ La capacité mémoire permet le traitement sur un seul GPU de modèles qui nécessitaient auparavant des configurations multi-GPU complexes.

Pour les charges de travail d'inférence, Blackwell offre une consommation d'énergie par inférence 25x inférieure à celle du H100.¹⁹ Un seul B200 remplace 5x nœuds H100 pour l'inférence Llama 3, réduisant les coûts et l'empreinte carbone.²⁰ Les gains d'efficacité se multiplient dans les déploiements à grande échelle où l'inférence domine la demande de calcul.

Différences architecturales avec Hopper

Hopper cible un mélange large de calcul haute performance et de charges de travail IA avec un accent sur la précision traditionnelle en FP64 et FP32.²¹ Blackwell optimise explicitement pour les tâches d'IA générative à grande échelle.²² L'orientation architecturale reflète l'évaluation de NVIDIA selon laquelle les charges de travail IA, particulièrement l'inférence, domineront la demande de GPU.

Blackwell introduit des cœurs tensoriels de cinquième génération avec des modes ultra-basse précision supportant des opérations 4 bits et 6 bits.²³ Les capacités de basse précision accélèrent les charges de travail d'inférence où les modèles quantifiés maintiennent une qualité acceptable. Les charges de travail d'entraînement qui nécessitent une précision plus élevée bénéficient moins des changements architecturaux.

La connectivité NVLink augmente considérablement. Chaque GPU Blackwell dispose de 18 connexions NVLink de cinquième génération, 18 fois plus que sur le H100.²⁴ Chaque connexion offre 50 gigaoctets par seconde de bande passante bidirectionnelle.²⁵ L'interconnexion étendue permet l'architecture du GB300 NVL72 où 72 GPU fonctionnent comme un tissu de calcul unifié.

Pour les tâches HPC purement numériques incluant l'algèbre matricielle, la dynamique des fluides et la dynamique moléculaire en double précision, les forces de Hopper en FP64 par watt, sa grande mémoire partagée et ses caches bien dimensionnés pour le FP32 conservent leur avantage.²⁶ Les organisations avec des charges de travail HPC traditionnelles ne devraient pas supposer que Blackwell améliore tous les cas d'usage de manière égale.

Architecture du rack GB300 NVL72

Le rack GB300 NVL72 refroidi par liquide intègre 36 superpuces Grace Blackwell, interconnectées via NVLink 5 et NVLink Switching.²⁷ Le rack contient 72 GPU B300, chacun avec 288 gigaoctets de mémoire HBM3e.²⁸ Avec chaque GPU interconnecté via 1,8 téraoctet par seconde de bande passante NVLink, le système fonctionne comme un nœud exascale unique.²⁹

Le GB300 NVL72 permet une production d'usine IA 50x supérieure, combinant une latence 10x meilleure et un débit 5x supérieur par mégawatt par rapport aux plateformes Hopper.³⁰ Les gains d'efficacité démontrent pourquoi les exigences de refroidissement liquide représentent un investissement plutôt qu'une charge.

Le système DGX B300 fournit 2,3 téraoctets de mémoire HBM3e avec huit SuperNIC ConnectX-8 pour une connectivité réseau de 800 gigabits.³¹ Les exigences réseau correspondent à la capacité de calcul. Des tissus réseau sous-dimensionnés créent des goulots d'étranglement qui gaspillent la capacité GPU.

Associez huit racks NV72L pour former le SuperPOD DGX Blackwell Ultra complet : 288 CPU Grace, 576 GPU Blackwell Ultra, 300 téraoctets de mémoire HBM3e et 11,5 exaflops de calcul FP4.³² Cette échelle représente ce que les laboratoires d'IA à la frontière déploient pour entraîner les plus grands modèles.

Exigences d'infrastructure

Les besoins en alimentation et refroidissement dépassent ce que la plupart des installations existantes peuvent fournir. Le système HGX B300 4U utilise la technologie DLC-2 de Supermicro pour capturer jusqu'à 98 % de la chaleur via le refroidissement liquide.³³ Le refroidissement par air ne peut pas dissiper la production thermique. Les organisations planifiant des déploiements Blackwell doivent mettre en œuvre une infrastructure de refroidissement liquide.

Le système HGX B300 OCP 2-OU refroidi par liquide permet jusqu'à 144 GPU par rack pour les fournisseurs hyperscale et cloud.³⁴ Un seul rack ORV3 supporte jusqu'à 18 nœuds avec 144 GPU au total, évoluant avec des commutateurs InfiniBand Quantum-X800 et des unités de distribution de liquide de refroidissement en rack de 1,8 mégawatt.³⁵ Huit racks de calcul HGX B300, trois racks réseau InfiniBand Quantum-X800 et deux CDU en rack forment une unité évolutive SuperCluster avec 1 152 GPU.³⁶

Le réseau nécessite une connectivité de 800 gigabits. Les plateformes OCP 2-OU et 4U doublent le débit du tissu de calcul réseau à 800 gigabits par seconde via des SuperNIC ConnectX-8 intégrés.³⁷ Le module E/S du SuperNIC ConnectX-8 héberge deux dispositifs ConnectX-8 pour une connectivité réseau de 800 gigabits par seconde par GPU.³⁸ Les organisations avec une infrastructure de 400 gigabits font face à des exigences de mise à niveau.

Disponibilité chez les hyperscalers et en entreprise

Google Cloud est devenu le premier hyperscaler à annoncer la disponibilité en préversion des offres basées sur B200.³⁹ AWS, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure font partie des premiers fournisseurs cloud à offrir des instances alimentées par Blackwell.⁴⁰ La disponibilité chez les hyperscalers fournit un accès cloud pour les organisations pas encore prêtes à déployer une infrastructure sur site.

HPE a livré sa première solution de la famille NVIDIA Blackwell, le GB200 NVL72, en février 2025.⁴¹ Les fabricants de systèmes mondiaux Cisco, Dell, HPE, Lenovo et Supermicro proposent des serveurs RTX PRO certifiés NVIDIA avec Blackwell.⁴² L'écosystème de fournisseurs a mûri rapidement de l'annonce à la disponibilité en production.

Pegatron et 5C ont déployé avec succès des racks refroidis par liquide basés sur HGX B200 avec intégration CDU en rack dans un centre de données du Maryland aux côtés de systèmes refroidis par air.⁴³ Ce déploiement démontre une infrastructure prête pour la production pour les organisations construisant leurs propres usines IA.

Les contraintes d'approvisionnement affectent la disponibilité. La demande des hyperscalers et des laboratoires IA dépasse la capacité de production.⁴⁴ Les grands hyperscalers et entreprises IA commandent de nombreux nœuds tandis que les organisations plus petites ne peuvent s'offrir que des quantités limitées.⁴⁵ NVIDIA fait face à un carnet de commandes de puces Blackwell, en partie dû à des problèmes de conception dans la production initiale.⁴⁶ La mise en service opérationnelle de grands clusters prend généralement trois mois supplémentaires après la livraison initiale.⁴⁷

Recommandations de déploiement

Les organisations devraient déterminer si les capacités de Blackwell justifient les investissements en infrastructure. Pour les charges de travail dominées par l'inférence, les gains d'efficacité de Blackwell sont convaincants. Pour les charges de travail d'entraînement nécessitant une précision FP64, Hopper peut rester approprié.

Les organisations peuvent continuer à entraîner de grands modèles sur des GPU H100 ou H200 tout en utilisant des B200 ou B300 pour les tâches d'inférence et de déploiement où Blackwell offre les plus grands gains de débit et de latence.⁴⁸ L'approche hybride optimise l'investissement en infrastructure selon les types de charges de travail.

Les prix reflètent les améliorations de capacité. Les premières annonces suggèrent un B200 192GB SXM à 45 000 $ - 50 000 $ par GPU.⁴⁹ Les systèmes serveur complets 8x B200 peuvent dépasser 500 000 $.⁵⁰ Les besoins en capital favorisent les organisations avec des modèles de revenus IA clairs ou des mandats stratégiques.

Le B200 convient à l'inférence de modèles à grande échelle, au calcul scientifique, aux charges de travail FP64 et aux systèmes multi-GPU avec 4 à 8 GPU.⁵¹ Le B300 est optimal pour l'entraînement LLM avec un débit supérieur et un tissu NVLink, l'inférence de modèles à grande échelle et les supercalculateurs.⁵² Cette distinction aide les organisations à choisir les configurations appropriées.

Les décisions d'investissement en infrastructure devraient tenir compte des exigences de Blackwell en matière de refroidissement liquide, de connectivité réseau 800 gigabits et d'alimentation. Les organisations avec des installations existantes refroidies par air font face à des coûts de rénovation ou de nouvelle construction. Celles sans infrastructure réseau 800 gigabits ont besoin de mises à niveau du tissu. Les installations sans densité de puissance adéquate ne peuvent pas héberger de systèmes Blackwell indépendamment des autres préparations.

L'écart d'infrastructure entre les exigences de Hopper et de Blackwell dépasse toute transition de génération NVIDIA précédente. Les organisations qui commencent à planifier maintenant se positionnent pour un déploiement lorsque les systèmes seront disponibles. Celles qui tardent constateront que les contraintes d'installation limitent leurs capacités IA indépendamment du budget GPU.


Points clés à retenir

Pour les architectes d'infrastructure : - B300 : 15 PFLOPS FP4, 288 Go HBM3e (piles de 12 couches), 8 To/s de bande passante mémoire, 1 400 W TDP par GPU - GB300 NVL72 : 72 GPU, 1,1 exaflops FP4, 1,8 To/s de bande passante NVLink par GPU ; DGX SuperPOD : 576 GPU, 11,5 exaflops - Progression de puissance : H100 (700 W) → B200 (1 000 W) → B300 (1 400 W) ; l'écart d'infrastructure dépasse toute transition de génération précédente

Pour les équipes d'approvisionnement : - B200 192GB SXM : 45 000 $ - 50 000 $ par GPU ; les systèmes serveur complets 8x B200 dépassent 500 000 $ - Les contraintes d'approvisionnement persistent ; la demande des hyperscalers dépasse la capacité de production avec un délai de déploiement de plus de 3 mois après la livraison - HPE a livré le premier GB200

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT