
NVIDIA integró 72 GPUs Blackwell Ultra y 36 CPUs Grace en una unidad refrigerada por líquido a escala de rack que consume aproximadamente 120 kW y ofrece 1.1 exaFLOPS de computación FP4 con el GB300 NVL72—1.5x más rendimiento de IA que el GB200 NVL72 original (NVIDIA, 2025). Ese único gabinete cambia todas las suposiciones sobre energía, refrigeración y cableado dentro de los centros de datos modernos. Esto es lo que los ingenieros de implementación están aprendiendo mientras preparan los sitios para las primeras entregas de producción del GB300 NVL72.
1. Analizando el rack
[caption id="" align="alignnone" width="1292"]
ComponentCountKey specPower drawSourceGrace‑Blackwell compute trays18~6.5 kW each117 kW totalSupermicro 2025NVLink‑5 switch trays9130 TB/s aggregate fabric3.6 kW totalSupermicro 2025Power shelves8132 kW total DC output0.8 kW overheadSupermicro 2025Bluefield‑3 DPUs18Storage & security offloadIncluded in computeThe Register 2024 [/caption]
El gabinete pesa aproximadamente 1.36 t (3,000 lb) y ocupa la misma superficie que un rack convencional de 42U (The Register, 2024). El GB300 NVL72 representa Blackwell Ultra, con GPUs B300 mejoradas con 288 GB de memoria HBM3e por GPU (50% más que los 192 GB del B200 original) logrado mediante stacks HBM3e de 12 capas en lugar de 8. Cada superchip ahora empareja cuatro GPUs B300 con dos CPUs Grace, en comparación con la configuración original de dos GPUs. Cada superchip Grace‑Blackwell empareja 72 núcleos de GPU Blackwell Ultra a 2.6 GHz con una CPU Arm Neoverse V2 de 128 núcleos funcionando a una frecuencia base de 3.1 GHz. La memoria HBM3e integrada ofrece 8 TB/s por GPU con una capacidad de 288 GB.
Perspectiva de campo: El centro de gravedad del rack está 18% más alto que el de los servidores estándar debido a la densa ubicación de recursos de cómputo en las bandejas superiores. Las mejores prácticas ahora recomiendan anclar los rieles de montaje con pernos M12, en lugar de tuercas enjauladas estándar, para abordar las micro-vibraciones observadas durante la operación a plena carga.
2. Alimentar a la bestia: suministro de energía
Un rack GB300 NVL72 viene con estantes de PSU integrados, ofreciendo 94.5% de eficiencia a plena carga. El consumo pico alcanza 120.8 kW durante cargas de trabajo de entrenamiento de precisión mixta—los analizadores de calidad de energía típicamente registran un factor de potencia de 0.97 con
Comparación de topología de voltaje:
-
208V/60Hz: 335A de corriente de línea, requiere cobre 4/0 AWG (107mm²)
-
415V/50‑60Hz: 168A de corriente de línea, necesita solo 70mm² de cobre
-
480V/60Hz: 145A de corriente de línea, implementación mínima en Norteamérica
La mejor práctica de la industria implica aprovisionar alimentaciones trifásicas duales de 415V por rack mediante conectores IEC 60309 de 160A. Esta elección reduce las pérdidas I²R en un 75% en comparación con 208V mientras mantiene la compatibilidad con los estándares de instalaciones europeas. Las mediciones de campo indican que los paneles de interruptores típicamente permanecen por debajo del 85% de reducción térmica en salas de 22°C.
Mitigación de armónicos: Los racks GB300 NVL72 exhiben una distorsión armónica total del 4.8% bajo cargas típicas de entrenamiento de IA. Las implementaciones que exceden ocho racks típicamente requieren rectificadores de 12 pulsos en transformadores dedicados para mantener el cumplimiento con IEEE 519.
3. Manual de refrigeración: Realidad de la ingeniería térmica
Cada die de GPU Blackwell Ultra mide 744 mm² y disipa hasta 1,000 W a través de su interfaz de placa fría. La CPU Grace añade otros 500W a través de sus 128 núcleos. El programa IR7000 de Dell posiciona el líquido como la ruta predeterminada para equipos clase Blackwell, afirmando capacidades por rack de hasta 480 kW con intercambiadores de calor de puerta trasera cerrados (Dell Technologies, 2024).
Jerarquía térmica recomendada:
-
≤80 kW/rack: Intercambiadores de calor de puerta trasera con agua de suministro a 18°C, caudal de 35 L/min
-
80–132 kW/rack: Bucles directos al chip (DTC) obligatorios, suministro a 15°C, mínimo 30 L/min
-
132 kW/rack: Se requiere refrigeración por inmersión o configuraciones de rack dividido
Especificaciones DTC de implementaciones de campo:
-
ΔT de placa fría: 12–15°C a plena carga (temperaturas de unión de GPU 83–87°C)
-
Caída de presión: 2.1 bar a través del bucle completo con 30% de propilenglicol
-
Distribución de flujo: variación de ±3% en las 72 placas frías de GPU
-
Tasa de fugas:
Perspectiva crítica: La red de suministro de energía de Blackwell Ultra exhibe transitorios de escala de microsegundos, alcanzando 1.4 veces la potencia en estado estable durante la sincronización de gradientes. La práctica de la industria recomienda dimensionar la refrigeración al 110% del TDP nominal para manejar estos picos térmicos sin throttling de GPU.
4. Estructura de red: gestión de NVLink 5.0 y conectividad mejorada

Cada GB300 NVL72 contiene 72 GPUs Blackwell Ultra con NVLink 5.0, proporcionando 1.8 TB/s de ancho de banda por GPU y 130 TB/s de ancho de banda NVLink total en todo el sistema. La quinta generación de NVLink opera a una tasa de señalización de 200 Gbps por enlace, con 18 enlaces por GPU. Los nueve chips NVSwitch enrutan este tráfico con una latencia de switch de 300 nanosegundos y soportan patrones de comunicación GPU-a-GPU de 576 vías.
La conectividad inter-rack ahora cuenta con ConnectX-8 SuperNICs que proporcionan conectividad de red de 800 Gb/s por GPU (el doble de los 400 Gb/s de la generación anterior), soportando tanto plataformas NVIDIA Quantum-X800 InfiniBand como Spectrum-X Ethernet.
Arquitectura de cableado:
-
Intra‑rack: 1,728 cables de cobre Twinax (impedancia de 75 ohmios,
-
Inter‑rack: 90 puertos QSFP112 vía transceptores 800G sobre OM4 MMF
-
Almacenamiento/gestión: 18 DPUs Bluefield‑3 con enlaces duales de 800G cada uno
Mediciones de campo:
-
Presupuesto óptico: 1.5 dB de presupuesto de pérdida de inserción sobre tramos OM4 de 150m
-
Rendimiento BER:
-
Densidad de conectores: 1,908 terminaciones por rack (incluyendo energía)
Las mejores prácticas implican enviar ensamblajes de troncales de 144 fibras pre-terminados con pulido APC y verificar cada conector con pruebas de pérdida de inserción/pérdida de retorno según estándares TIA-568. Equipos experimentados de dos personas pueden completar una instalación de fibra GB300 NVL72 en 2.8 horas en promedio—reducido de 7.5 horas cuando los técnicos construyen cables en sitio.
Perspectiva de integridad de señal: NVLink‑5 opera con señalización PAM‑4 de 25 GBd. Las instalaciones típicas mantienen un presupuesto de pérdida de inserción de 2.1 dB por conexión Twinax y
5. Lista de verificación de implementación probada en campo
Requisitos estructurales:
-
Carga de piso: certificar ≥14 kN/m² (2,030 psf); el peso distribuido excede la mayoría de las instalaciones antiguas
-
Arriostramiento sísmico: Las instalaciones Zona 4 requieren arriostramiento X adicional según IBC 2021
-
Aislamiento de vibraciones:
Infraestructura eléctrica:
-
Alimentaciones duales de 415V, 160A cada una, con monitoreo de circuitos derivados Schneider PM8000
-
Dimensionamiento de UPS: 150 kVA por rack (margen de seguridad del 125%) con topología de doble conversión en línea
-
Puesta a tierra: Tierra aislada de equipos con
Especificaciones de refrigeración:
-
Calidad del refrigerante:
-
Reemplazo de filtros: pleated de 5 µm cada 1,000 horas, final de 1 µm cada 2,000 horas
-
Detección de fugas: Sensores de fluido conductivo en todos los acoplamientos QDC con sensibilidad de 0.1 mL
Inventario de repuestos:
-
Una bandeja NVSwitch (tiempo de entrega: 6 semanas)
-
Dos cartuchos de bomba CDU (MTBF: 8,760 horas)
-
20 transceptores QSFP112 (tasa de falla en campo: 0.02% anual)
-
Material de interfaz térmica de emergencia (Honeywell PTM7950, tubos de 5g)
SLA de manos remotas: La respuesta en sitio de 4 horas se está convirtiendo en estándar de la industria—los socios de implementación líderes mantienen este objetivo en múltiples países con >99% de tiempo de actividad.
6. Caracterización de rendimiento bajo cargas de producción
Benchmarks de razonamiento de IA (de informes de implementación temprana):
-
Modelo DeepSeek R1-671B: Hasta 1,000 tokens/segundo de rendimiento sostenido
-
Modelo GPT‑3 de 175B parámetros: 847 tokens/segundo/GPU en promedio
-
Stable Diffusion 2.1: 14.2 imágenes/segundo a resolución 1024×1024
-
Entrenamiento ResNet‑50 ImageNet: 2,340 muestras/segundo de rendimiento sostenido
Escalado de eficiencia energética:
-
Utilización de rack único: 1.42 GFLOPS/Watt al 95% de utilización de GPU
-
Clúster de 10 racks: 1.38 GFLOPS/Watt (la sobrecarga de refrigeración reduce la eficiencia)
-
Potencia en reposo de red: 3.2 kW por rack (NVSwitch + transceptores)
Mejoras de rendimiento de razonamiento de IA: El GB300 NVL72 ofrece un aumento de 10x en tokens por segundo por usuario y una mejora de 5x en TPS por megavatio en comparación con Hopper, produciendo un aumento potencial combinado de 50x en el rendimiento de salida de fábricas de IA.
Efectos de ciclado térmico: Después de 2,000 horas de operación de producción, las implementaciones tempranas reportan una degradación de rendimiento del 0.3% debido al bombeo del material de interfaz térmica. El reemplazo programado de TIM a intervalos de 18 meses mantiene el rendimiento máximo.
7. Análisis de TCO: nube versus on-premises
Lambda ofrece GPUs B200 desde $2.99 por hora de GPU con compromisos multianuales (Lambda 2025). El modelado financiero que incorpora costos reales de instalaciones de implementaciones de la industria muestra:
Desglose de costos por rack durante 36 meses:
-
CapEx de hardware: $3.7-4.0M (incluyendo repuestos y herramientas) para GB300 NVL72
-
Energía de instalación: $310K @ $0.08/kWh con 85% de utilización promedio
-
Infraestructura de refrigeración: $180K (CDU, plomería, controles)
-
Personal de operaciones: $240K (costo totalmente cargado de 0.25 FTE)
-
Total: $4.43-4.73M vs $4.7M equivalente en nube
El punto de equilibrio ocurre a una tasa de utilización promedio del 67% durante 18 meses, teniendo en cuenta la depreciación, financiamiento y costos de oportunidad. Los CFOs empresariales ganan previsibilidad presupuestaria mientras evitan el vendor lock-in de la nube.
8. GB300 vs GB200: Entendiendo Blackwell Ultra
[caption id="" align="alignnone" width="1920"]
Generación anterior GB200 en la imagen [/caption]
El GB300 NVL72 (Blackwell Ultra) representa una evolución significativa del GB200 NVL72 original. Las mejoras clave incluyen 1.5x más rendimiento de cómputo de IA, 288 GB de memoria HBM3e por GPU (vs 192 GB), y un enfoque mejorado en la inferencia de escalado en tiempo de prueba para aplicaciones de razonamiento de IA.
La nueva arquitectura ofrece un aumento de 10x en tokens por segundo por usuario y una mejora de 5x en TPS por megavatio en comparación con Hopper, produciendo un aumento potencial combinado de 50x en la salida de fábricas de IA. Esto hace que el GB300 NVL72 esté específicamente optimizado para la era emergente del razonamiento de IA, donde modelos como DeepSeek R1 requieren sustancialmente más cómputo durante la inferencia para mejorar la precisión.
Cronograma de disponibilidad: Se esperan sistemas GB300 NVL72 de los socios en la segunda mitad de 2025, en comparación con el GB200 NVL72 que está disponible ahora.
9. Por qué las empresas Fortune 500 eligen socios de implementación especializados
Los especialistas en implementación líderes han instalado más de 100,000 GPUs en más de 850 centros de datos, manteniendo acuerdos de nivel de servicio (SLAs) globales de 4 horas a través de extensos equipos de ingeniería de campo. La industria ha comisionado miles de millas de fibra y múltiples megavatios de infraestructura de IA dedicada desde 2022.
Métricas de implementación recientes:
-
Cronograma promedio de preparación del sitio: 6.2 semanas (reducido del promedio de la industria de 11 semanas)
-
Tasa de éxito en primer intento: 97.3% para pruebas de encendido
-
Problemas post-implementación: 0.08% de tasa de falla de componentes en los primeros 90 días
Los OEMs envían hardware; los socios especializados transforman el hardware en infraestructura de producción. Involucrar equipos de implementación experimentados durante las fases de planificación puede reducir los cronogramas en un 45% mediante el uso de arneses de energía prefabricados, bucles de refrigeración pre-preparados y paquetes de fibra terminados en fábrica.
Reflexión final
Un gabinete GB300 NVL72 representa un cambio fundamental de "servidores en racks" a "centros de datos en gabinetes". La física es implacable: 120 kW de densidad de cómputo exige precisión en cada conexión de energía, bucle de refrigeración y terminación de fibra. Domina los fundamentos de ingeniería en el Día 0, y Blackwell Ultra ofrecerá un rendimiento de razonamiento de IA transformador durante años.
¿Listo para discutir los detalles técnicos que no pudimos incluir en 2,000 palabras? Nuestros ingenieros de implementación prosperan con estas conversaciones—agenda una inmersión técnica profunda en [email protected].
Referencias
Dell Technologies. 2024. "Dell AI Factory Transforms Data Centers with Advanced Cooling, High-Density Compute and AI Storage Innovations." Comunicado de prensa, 15 de octubre. Dell Technologies Newsroom
Introl. 2025. "GPU Infrastructure Deployments and Global Field Engineers." Consultado el 23 de junio. introl.com
Lambda. 2025. "AI Cloud Pricing - NVIDIA B200 Clusters." Consultado el 23 de junio. Lambda Labs Pricing
NVIDIA. 2025. "GB300 NVL72 Product Page." Consultado el 23 de junio. NVIDIA Data Center
NVIDIA. 2025. "NVIDIA Blackwell Ultra AI Factory Platform Paves Way for Age of AI Reasoning." Comunicado de prensa, 18 de marzo. NVIDIA News
Supermicro. 2025. "NVIDIA GB300 NVL72 SuperCluster Datasheet." Febrero. Supermicro Datasheet
The Register. 2024. Mann, Tobias. "One Rack, 120 kW of Compute: A Closer Look at NVIDIA's DGX GB200 NVL72 Beast." 21 de marzo. The Register