NVIDIA Blackwell Ultra y B300: lo que exige la próxima generación de GPU
Actualizado el 11 de diciembre de 2025
Actualización de diciembre 2025: B300 ofreciendo 15 PFLOPS FP4, 288GB HBM3e (stacks de 12 capas), 8TB/s de ancho de banda, 1,400W TDP. El rack GB300 NVL72 alcanzando 1.1 EXAFLOPS—escala exa en un solo nodo. DGX B200 entregando 3x en entrenamiento, 15x en inferencia vs Hopper. Sistemas enviándose en H2 2025. Requiere refrigeración líquida, redes de 800Gbps, densidades de potencia más allá de la mayoría de las instalaciones existentes.
La GPU NVIDIA Blackwell Ultra ofrece 15 petaflops de cómputo denso FP4, 50% más memoria que la B200, y un rendimiento 1.5 veces más rápido.¹ Un solo rack GB300 NVL72 alcanza 1.1 exaflops de cómputo FP4, operando como una supercomputadora a escala exa en un solo nodo.² Equipado con ocho GPUs NVIDIA Blackwell, el DGX B200 ofrece 3 veces el rendimiento de entrenamiento y 15 veces el rendimiento de inferencia de los sistemas Hopper de generación anterior.³ Los requisitos de infraestructura para Blackwell difieren sustancialmente de cualquier cosa que las organizaciones hayan desplegado previamente, demandando refrigeración líquida, redes de 800 gigabits, y densidades de potencia que la mayoría de las instalaciones existentes no pueden soportar.
NVIDIA anunció el B300 en GTC 2025, con sistemas enviándose en la segunda mitad de 2025.⁴ El momento crea urgencia de planificación para las organizaciones que necesitan preparar instalaciones, asegurar energía, y construir capacidades operativas antes de que llegue el hardware. Comprender los requisitos de infraestructura de Blackwell ahora determina si las organizaciones pueden desplegar efectivamente cuando los sistemas estén disponibles.
Especificaciones de Blackwell Ultra
La GPU Blackwell Ultra presenta un diseño de doble retícula con 208 mil millones de transistores y 160 multiprocesadores de streaming en dos dies conectados usando la Interfaz de Alto Ancho de Banda de NVIDIA.⁵ El B200 contenía 208 mil millones de transistores comparado con 80 mil millones en el H100.⁶ El conteo de transistores refleja la complejidad arquitectónica requerida para cargas de trabajo de IA a escala frontera.
El B300 ofrece 288 gigabytes de memoria HBM3e por GPU, logrado a través de stacks de memoria de 12 capas en lugar de la configuración de 8 capas del B200.⁷ El ancho de banda de memoria alcanza 8 terabytes por segundo.⁸ La capacidad de memoria permite procesar modelos que anteriormente requerían configuraciones multi-GPU en una sola GPU.
Los requisitos de potencia aumentan significativamente. Cada chip B300 consume 1,400 vatios en el corazón del GB300.⁹ El B200 consumía 1,000 vatios, aumentando desde los 700 vatios del H100.¹⁰ La progresión de 700 a 1,000 a 1,400 vatios por GPU a través de tres generaciones demuestra la trayectoria de potencia que las organizaciones deben planificar.
El rendimiento denso FP4 alcanza 14 petaflops en el B300 comparado con 9 petaflops en el B200, representando una mejora del 55.6%.¹¹ La capacidad de cómputo FP4 reduce la huella de memoria aproximadamente 1.8 veces comparado con FP8 mientras mantiene una precisión casi equivalente.¹² La capacidad de menor precisión aborda cargas de trabajo de inferencia donde la precisión reducida mejora el rendimiento sin sacrificar calidad.
Rendimiento versus Hopper
Los datos de rendimiento verificados muestran hasta 11 a 15 veces más rendimiento LLM por GPU comparado con la generación Hopper.¹³ El HGX B200 ofrece hasta 15x en inferencia y 3x en mejoras de entrenamiento versus HGX H100, con 12x de reducción en energía y costo.¹⁴ El clúster GB200 NVL72 ofrece 4x entrenamiento más rápido y 30x inferencia en tiempo real más rápida versus clústeres H100.¹⁵
El B200 ofrece 20 petaflops de rendimiento de IA desde una sola GPU. Un solo H100 tenía un máximo de 4 petaflops en cálculos de IA.¹⁶ La mejora de 5x por GPU cambia la economía de los despliegues a gran escala. Las organizaciones pueden lograr capacidad equivalente con menos GPUs o sustancialmente más capacidad con conteos de GPU equivalentes.
Las mejoras de memoria complementan las ganancias de cómputo. El B200 presenta 192 gigabytes de HBM3e comparado con los 80 gigabytes de HBM3 del H100.¹⁷ El ancho de banda de memoria alcanza 8 terabytes por segundo, 2.4x más rápido que los 3.35 terabytes por segundo del H100.¹⁸ La capacidad de memoria permite el procesamiento en una sola GPU de modelos que anteriormente requerían configuraciones complejas multi-GPU.
Para cargas de trabajo de inferencia, Blackwell ofrece 25x menor energía por inferencia que el H100.¹⁹ Un solo B200 reemplaza 5x nodos H100 para inferencia de Llama 3, reduciendo costos y huellas de carbono.²⁰ Las ganancias de eficiencia se componen a través de grandes despliegues donde la inferencia domina la demanda de cómputo.
Diferencias arquitectónicas respecto a Hopper
Hopper apunta a una mezcla amplia de computación de alto rendimiento y cargas de trabajo de IA con enfoque en precisión tradicional en FP64 y FP32.²¹ Blackwell optimiza explícitamente para tareas de IA generativa a gran escala.²² El enfoque arquitectónico refleja la evaluación de NVIDIA de que las cargas de trabajo de IA, particularmente la inferencia, dominarán la demanda de GPU.
Blackwell introduce núcleos tensoriales de quinta generación con modos de ultra baja precisión que soportan operaciones de 4 bits y 6 bits.²³ Las capacidades de baja precisión aceleran las cargas de trabajo de inferencia donde los modelos cuantizados mantienen calidad aceptable. Las cargas de trabajo de entrenamiento que requieren mayor precisión se benefician menos de los cambios arquitectónicos.
La conectividad NVLink aumenta dramáticamente. Cada GPU Blackwell tiene 18 conexiones NVLink de quinta generación, 18 veces más que las disponibles en el H100.²⁴ Cada conexión ofrece 50 gigabytes por segundo de ancho de banda bidireccional.²⁵ La interconexión expandida permite la arquitectura del GB300 NVL72 donde 72 GPUs operan como un tejido de cómputo unificado.
Para tareas numéricas HPC puras incluyendo álgebra matricial, dinámica de fluidos, y dinámica molecular con doble precisión, las fortalezas de Hopper en FP64 por vatio, memoria compartida grande, y cachés bien aprovisionados para FP32 mantienen ventaja.²⁶ Las organizaciones con cargas de trabajo HPC tradicionales no deben asumir que Blackwell mejora todos los casos de uso por igual.
Arquitectura del rack GB300 NVL72
El rack GB300 NVL72 refrigerado por líquido integra 36 Superchips Grace Blackwell, interconectados a través de NVLink 5 y NVLink Switching.²⁷ El rack contiene 72 GPUs B300, cada una con 288 gigabytes de memoria HBM3e.²⁸ Con cada GPU interconectada vía 1.8 terabytes por segundo de ancho de banda NVLink, el sistema opera como un solo nodo a escala exa.²⁹
El GB300 NVL72 permite 50x mayor producción de fábrica de IA, combinando 10x mejor latencia y 5x mayor rendimiento por megavatio relativo a las plataformas Hopper.³⁰ Las ganancias de eficiencia demuestran por qué los requisitos de refrigeración líquida representan inversión en lugar de sobrecarga.
El sistema DGX B300 proporciona 2.3 terabytes de memoria HBM3e con ocho SuperNICs ConnectX-8 para redes de 800 gigabits.³¹ Los requisitos de red coinciden con la capacidad de cómputo. Los tejidos de red subdimensionados crean cuellos de botella que desperdician capacidad de GPU.
Junta ocho racks NV72L para formar el DGX SuperPOD Blackwell Ultra completo: 288 CPUs Grace, 576 GPUs Blackwell Ultra, 300 terabytes de memoria HBM3e, y 11.5 exaflops de cómputo FP4.³² La escala representa lo que los laboratorios de IA de frontera despliegan para entrenar los modelos más grandes.
Requisitos de infraestructura
Los requisitos de potencia y refrigeración exceden lo que la mayoría de las instalaciones existentes proporcionan. El sistema HGX B300 de 4U usa la tecnología DLC-2 de Supermicro para capturar hasta el 98% del calor a través de refrigeración líquida.³³ La refrigeración por aire no puede disipar la salida térmica. Las organizaciones que planean despliegues Blackwell deben implementar infraestructura de refrigeración líquida.
El sistema HGX B300 refrigerado por líquido OCP de 2-OU permite hasta 144 GPUs por rack para proveedores de hiperescala y nube.³⁴ Un solo rack ORV3 soporta hasta 18 nodos con 144 GPUs en total, escalando con switches InfiniBand Quantum-X800 y unidades de distribución de refrigerante en fila de 1.8 megavatios.³⁵ Ocho racks de cómputo HGX B300, tres racks de red InfiniBand Quantum-X800, y dos CDUs en fila forman una unidad escalable SuperCluster con 1,152 GPUs.³⁶
Las redes requieren conectividad de 800 gigabits. Tanto las plataformas OCP de 2-OU como las de 4U duplican el rendimiento de la red del tejido de cómputo a 800 gigabits por segundo vía SuperNICs ConnectX-8 integradas.³⁷ El módulo de E/S de la SuperNIC ConnectX-8 aloja dos dispositivos ConnectX-8 para 800 gigabits por segundo de conectividad de red por GPU.³⁸ Las organizaciones con infraestructura de 400 gigabits enfrentan requisitos de actualización.
Disponibilidad para hiperescaladores y empresas
Google Cloud se convirtió en el primer hiperescalador en anunciar disponibilidad en vista previa de ofertas basadas en B200.³⁹ AWS, Google Cloud, Microsoft Azure, y Oracle Cloud Infrastructure están entre los primeros proveedores de nube en ofrecer instancias impulsadas por Blackwell.⁴⁰ La disponibilidad en hiperescaladores proporciona acceso basado en nube para organizaciones no listas para desplegar infraestructura on-premises.
HPE envió su primera solución de la familia NVIDIA Blackwell, el GB200 NVL72, en febrero de 2025.⁴¹ Los fabricantes de sistemas globales Cisco, Dell, HPE, Lenovo, y Supermicro ofrecen Servidores RTX PRO Certificados por NVIDIA con Blackwell.⁴² El ecosistema de proveedores maduró rápidamente desde el anuncio hasta la disponibilidad de producción.
Pegatron y 5C desplegaron exitosamente racks refrigerados por líquido basados en HGX B200 con integración de CDU en fila en un centro de datos de Maryland junto con sistemas refrigerados por aire.⁴³ El despliegue demuestra infraestructura lista para producción para organizaciones construyendo sus propias fábricas de IA.
Las restricciones de suministro afectan la disponibilidad. La demanda de hiperescaladores y laboratorios de IA sobrepasa la capacidad de producción.⁴⁴ Los principales hiperescaladores y compañías de IA ordenan numerosos nodos mientras las organizaciones más pequeñas solo pueden permitirse cantidades limitadas.⁴⁵ NVIDIA enfrenta un retraso de chips Blackwell, en parte debido a problemas de diseño en la producción temprana.⁴⁶ Poner en funcionamiento clústeres grandes típicamente toma tres meses adicionales más allá de la entrega inicial.⁴⁷
Recomendaciones de despliegue
Las organizaciones deben determinar si las capacidades de Blackwell justifican las inversiones en infraestructura. Para cargas de trabajo dominadas por inferencia, las ganancias de eficiencia de Blackwell son convincentes. Para cargas de trabajo de entrenamiento que requieren precisión FP64, Hopper puede seguir siendo apropiado.
Las organizaciones pueden continuar entrenando modelos grandes en GPUs H100 o H200 mientras usan B200 o B300 para tareas de inferencia y despliegue donde Blackwell proporciona las mayores ganancias de rendimiento y latencia.⁴⁸ El enfoque híbrido optimiza la inversión en infraestructura a través de tipos de carga de trabajo.
Los precios reflejan las mejoras de capacidad. Los listados tempranos sugieren B200 192GB SXM a $45,000 a $50,000 por GPU.⁴⁹ Los sistemas completos de servidor 8x B200 pueden exceder $500,000.⁵⁰ Los requisitos de capital favorecen a las organizaciones con modelos claros de ingresos de IA o mandatos estratégicos.
El B200 se adapta a la inferencia de modelos a escala, computación científica, cargas de trabajo FP64, y sistemas multi-GPU con 4 a 8 GPUs.⁵¹ El B300 resulta mejor para entrenamiento de LLM con mayor rendimiento y tejido NVLink, inferencia de modelos a escala, y supercomputadoras.⁵² La distinción ayuda a las organizaciones a elegir configuraciones apropiadas.
Las decisiones de inversión en infraestructura deben tener en cuenta la refrigeración líquida de Blackwell, las redes de 800 gigabits, y los requisitos de potencia. Las organizaciones con instalaciones existentes refrigeradas por aire enfrentan costos de renovación o nueva construcción. Aquellas sin infraestructura de red de 800 gigabits necesitan actualizaciones de tejido. Las instalaciones sin densidad de potencia adecuada no pueden alojar sistemas Blackwell independientemente de otras preparaciones.
La brecha de infraestructura entre los requisitos de Hopper y Blackwell excede cualquier transición de generación anterior de NVIDIA. Las organizaciones que comienzan a planificar ahora se posicionan para el despliegue cuando los sistemas estén disponibles. Aquellas que se retrasen encontrarán que las restricciones de las instalaciones limitan sus capacidades de IA independientemente del presupuesto de GPU.
Puntos clave
Para arquitectos de infraestructura: - B300: 15 PFLOPS FP4, 288GB HBM3e (stacks de 12 capas), 8TB/s de ancho de banda de memoria, 1,400W TDP por GPU - GB300 NVL72: 72 GPUs, 1.1 exaflops FP4, 1.8TB/s de ancho de banda NVLink por GPU; DGX SuperPOD: 576 GPUs, 11.5 exaflops - Progresión de potencia: H100 (700W) → B200 (1,000W) → B300 (1,400W); la brecha de infraestructura excede cualquier transición de generación anterior
Para equipos de adquisiciones: - B200 192GB SXM: $45,000-$50,000 por GPU; sistemas completos de servidor 8x B200 exceden $500,000 - Las restricciones de suministro persisten; la demanda de hiperescaladores sobrepasa la capacidad de producción con más de 3 meses de retraso en despliegue después de la entrega - HPE envió el primer GB200
[Contenido truncado para traducción]