Implementación del GB200 NVL72: Gestión de 72 GPUs en configuraciones con refrigeración líquida

Los sistemas GB200 NVL72 comenzaron a enviarse a los principales proveedores de nube a partir de diciembre de 2024, con la producción masiva alcanzando plena escala en el segundo y tercer trimestre de 2025. Los analistas revisaron las previsiones de envío para 2025 a 25.000-35.000 gabinetes...

Implementación del GB200 NVL72: Gestión de 72 GPUs en configuraciones con refrigeración líquida

Implementación del GB200 NVL72: Gestión de 72 GPUs en configuraciones con refrigeración líquida

Actualizado el 8 de diciembre de 2025

Setenta y dos GPUs operando como una única unidad computacional es ahora una realidad en producción. El GB200 NVL72 consume 120 kilovatios y entrega 1,4 exaflops de cómputo de IA en un solo rack.¹ La arquitectura elimina los límites tradicionales entre nodos, creando un tejido computacional coherente que procesa modelos de billones de parámetros sin las penalizaciones de computación distribuida que afectan a los clústeres convencionales. Las organizaciones que implementan estos sistemas enfrentan desafíos de ingeniería que redefinen lo que los equipos de infraestructura consideran posible.

Actualización de diciembre de 2025: Los sistemas GB200 NVL72 comenzaron a enviarse a los principales proveedores de nube a partir de diciembre de 2024, con la producción masiva alcanzando plena escala en el segundo y tercer trimestre de 2025. Los analistas revisaron las previsiones de envío para 2025 a 25.000-35.000 gabinetes (por debajo de las proyecciones iniciales de 50.000-80.000) debido a los requisitos de optimización de la cadena de suministro. NVIDIA ya presentó el sucesor GB300 NVL72 en GTC 2025, con GPUs Blackwell Ultra con 288GB de memoria HBM3e, 1,4kW de potencia por GPU y un 50% más de rendimiento (1.100 PFLOPS de inferencia FP4). Los sistemas GB300 entraron en producción en el tercer trimestre de 2025 con Quanta enviando unidades a partir de septiembre. Las organizaciones que planifican nuevas implementaciones deben evaluar la disponibilidad del GB300 frente a las necesidades inmediatas del GB200.

Los números por sí solos asombran a los arquitectos de centros de datos experimentados: 13,5 terabytes de memoria HBM3e accesible a 576 terabytes por segundo, conectados a través de NVLink de quinta generación que proporciona 130 terabytes por segundo de ancho de banda GPU a GPU.² Cada rack pesa 3.000 kilogramos y requiere 2,4 megavatios de capacidad de refrigeración entregados a través de sistemas de refrigeración líquida obligatorios.³ Los manuales de implementación tradicionales se vuelven irrelevantes cuando un solo sistema cuesta 3 millones de dólares y puede entrenar modelos de clase GPT-4 en semanas en lugar de meses.

CoreWeave ordenó sistemas GB200 NVL72 por valor de 2.300 millones de dólares para entrega en 2025, apostando toda su estrategia de infraestructura a la capacidad de la plataforma para dominar los mercados de entrenamiento e inferencia de modelos de lenguaje grandes.⁴ Lambda Labs pre-compró 200 unidades a pesar de tener que reconstruir completamente sus instalaciones para soportar los requisitos de energía y refrigeración.⁵ La fiebre del oro por estos sistemas revela una verdad fundamental: las organizaciones que no pueden implementar infraestructura GB200 NVL72 corren el riesgo de volverse irrelevantes en el desarrollo de modelos fundacionales.

La arquitectura redefine los límites de la computación

El GB200 NVL72 conecta 36 Superchips Grace-Blackwell a través de un sistema de conmutación NVLink de dos niveles que crea una coherencia computacional sin precedentes. Cada Superchip combina una CPU Grace basada en Arm con dos GPUs Blackwell, conectadas a través de NVLink-C2C con un ancho de banda bidireccional de 900GB/s.⁶ Las 72 GPUs comparten memoria y se comunican como si fueran un solo procesador masivo, eliminando la sobrecarga de sincronización que limita el entrenamiento distribuido tradicional.

Las bandejas de conmutación NVLink forman la columna vertebral del sistema, con nueve bandejas que soportan cuatro chips NVLink Switch cada una. Estos conmutadores proporcionan conectividad de todos a todos entre GPUs a 1,8TB/s por GPU, permitiendo que cualquier GPU acceda a cualquier ubicación de memoria en el sistema en 300 nanosegundos.⁷ La uniformidad de latencia significa que los desarrolladores pueden tratar todo el sistema como una sola GPU con 72 veces los recursos, simplificando dramáticamente el desarrollo de software.

La arquitectura de memoria rompe todos los precedentes en la historia de la computación. El sistema proporciona 13,5TB de memoria HBM3e con un ancho de banda agregado de 576TB/s, más 2,25TB adicionales de LPDDR5X accesibles por las CPUs Grace.⁸ La coherencia de memoria se extiende a través de todos los procesadores, permitiendo que las CPUs y GPUs compartan estructuras de datos sin copia explícita. Los modelos de lenguaje grandes que anteriormente requerían paralelismo de modelo complejo a través de múltiples nodos ahora caben completamente dentro del espacio de memoria de un solo NVL72.

La refrigeración se convierte en parte integral de la arquitectura en lugar de una consideración posterior. NVIDIA exige refrigeración líquida con especificaciones estrictas: temperatura de entrada entre 20-25°C, caudal de 80 litros por minuto y caída de presión que no exceda 1,5 bar.⁹ El sistema de refrigeración mantiene las temperaturas de unión por debajo de 75°C a pesar de la generación continua de calor de 120kW. La desviación de las especificaciones activa una reducción automática de velocidad que puede reducir el rendimiento en un 60%, haciendo que la refrigeración sea tan crítica como los recursos de cómputo.

La entrega de energía requiere un rediseño completo de la infraestructura. El sistema consume 120kW continuamente a través de cuatro estantes de energía de 30kW, cada uno requiriendo entrada trifásica de 480V.¹⁰ La conversión de energía ocurre en dos etapas: de CA a 54V CC en los estantes de energía, luego de 54V a voltajes de punto de carga en las placas de cómputo. La arquitectura logra una eficiencia de conversión del 97%, pero aún genera 3,6kW de calor residual solo por la conversión de energía.

Los desafíos de implementación física se multiplican

Instalar un GB200 NVL72 requiere precisión militar y equipamiento especializado. El sistema llega en cuatro componentes separados: el rack de cómputo que pesa 1.500kg, el rack de conmutación NVLink de 800kg, la CDU de 400kg y la unidad de distribución de energía de 300kg.¹¹ Las puertas estándar de centros de datos no pueden acomodar el ancho, requiriendo la eliminación de marcos de puertas y a veces paredes. Los equipos de implementación de Introl utilizan elevadores hidráulicos especializados con capacidad para 2.000kg para posicionar los componentes sin dañar las superficies del piso.

La carga del piso presenta preocupaciones estructurales inmediatas. El rack de cómputo concentra 1.500kg en solo 0,8 metros cuadrados, creando cargas puntuales de 1.875 kg/m².¹² Los pisos elevados estándar con capacidad para 1.000 kg/m² requieren placas de refuerzo de acero para distribuir el peso. Muchas instalaciones optan por instalación sobre losa con bases de concreto reforzado vertidas específicamente para implementaciones NVL72. Las zonas sísmicas requieren anclaje adicional para prevenir el movimiento durante terremotos.

La gestión de cables se convierte en un rompecabezas tridimensional con más de 5.000 conexiones individuales. El sistema utiliza 144 cables de cobre NVLink para interconexiones de GPU, 288 cables ópticos para conectividad de red, 72 tubos de refrigeración líquida y cientos de cables de energía.¹³ NVIDIA proporciona longitudes de cable exactas y diagramas de enrutamiento, ya que las desviaciones causan problemas de integridad de señal a velocidades de 1,8TB/s. Los equipos de instalación pasan 60-80 horas solo en la gestión de cables, utilizando auriculares de realidad aumentada para verificar que cada conexión coincida con las especificaciones.

La infraestructura de refrigeración líquida exige limpieza de grado farmacéutico. El circuito de refrigeración contiene 200 litros de refrigerante especialmente formulado que debe mantener niveles específicos de conductividad, pH y partículas.¹⁴ Una sola partícula contaminante puede obstruir las placas frías de microcanales que enfrían los chips individuales. Los equipos de instalación enjuagan todo el sistema tres veces con agua desionizada antes de introducir el refrigerante. El proceso toma 12-16 horas y requiere equipamiento de bombeo especializado.

La integración de red requiere aprovisionamiento de ancho de banda sin precedentes. Cada NVL72 necesita ocho conexiones 400GbE para conectividad externa, totalizando 3,2Tb/s por sistema.¹⁵ El requisito de ancho de banda excede la conectividad externa completa de muchas instalaciones. Las organizaciones típicamente implementan tendidos de fibra óptica dedicados desde los sistemas NVL72 hasta los routers centrales, evitando las arquitecturas tradicionales de conmutación top-of-rack. El diseño de red debe tener en cuenta los patrones de tráfico este-oeste mientras los sistemas NVL72 intercambian puntos de control y gradientes durante el entrenamiento distribuido.

Orquestación de software a escala extrema

Gestionar 72 GPUs como un sistema coherente requiere cambios fundamentales en la arquitectura de software. El software del sistema de conmutación NVLink de NVIDIA crea un espacio de memoria único a través de todas las GPUs, pero las aplicaciones deben diseñarse para explotar esta capacidad. Los frameworks tradicionales de entrenamiento distribuido como Horovod y PyTorch Distributed se convierten en sobrecarga innecesaria. Los desarrolladores utilizan las bibliotecas Transformer Engine de NVIDIA que particionan automáticamente los modelos a través de las 72 GPUs sin intervención manual.¹⁶

Las plataformas de orquestación de contenedores tienen dificultades con el modelo de recursos del NVL72. Kubernetes ve el sistema como 72 GPUs separadas por defecto, lo que lleva a conflictos de programación y fragmentación de recursos. NVIDIA proporciona plugins de dispositivos personalizados que presentan el NVL72 como una única unidad programable, pero esto rompe la compatibilidad con las plataformas de ML estándar.¹⁷ Las organizaciones a menudo dedican sistemas NVL72 completos a cargas de trabajo individuales en lugar de intentar multi-tenencia.

La gestión de memoria requiere una consideración cuidadosa de los efectos NUMA a pesar del espacio de memoria unificado. Cada CPU Grace tiene memoria LPDDR5X local con un ancho de banda de 500GB/s a las GPUs locales pero solo 100GB/s a las GPUs remotas.¹⁸ El rendimiento óptimo requiere algoritmos de colocación de datos que minimicen el acceso a memoria entre sockets. Las bibliotecas Magnum IO de NVIDIA manejan automáticamente cierta optimización, pero las aplicaciones personalizadas necesitan consciencia explícita de NUMA.

El manejo de fallos se vuelve complejo cuando 72 GPUs operan como una sola. Un fallo de una sola GPU tradicionalmente significaba perder 1/8 del cómputo de un nodo. En NVL72, una GPU fallida puede desestabilizar todo el sistema debido a las dependencias de topología NVLink. NVIDIA implementa aislamiento de fallos a nivel de hardware que reconfigura dinámicamente el enrutamiento NVLink alrededor de los componentes fallidos, pero el rendimiento se degrada un 15-20% por GPU fallida.¹⁹ La mayoría de las implementaciones mantienen sistemas NVL72 de repuesto en lugar de intentar reparaciones en unidades de producción.

El monitoreo de rendimiento genera volúmenes abrumadores de telemetría. Cada GPU produce más de 10.000 métricas por segundo cubriendo temperatura, potencia, ancho de banda de memoria y utilización de cómputo.²⁰ Multiplicado por 72 GPUs más CPUs y conmutadores, un solo NVL72 genera 1 millón de métricas por segundo. Los sistemas de monitoreo tradicionales no pueden manejar este volumen. Las organizaciones implementan bases de datos de series temporales dedicadas y utilizan análisis impulsados por IA para identificar anomalías en el flujo de telemetría.

Los modelos económicos desafían el pensamiento convencional

El precio de 3 millones de dólares del GB200 NVL72 parece astronómico hasta que se compara con las alternativas. Construir cómputo equivalente a partir de sistemas DGX H100 discretos requeriría nueve nodos que cuestan 2,7 millones de dólares, pero con 5 veces mayor consumo de energía y 10 veces más espacio en rack.²¹ La arquitectura coherente del NVL72 elimina la sobrecarga de comunicación entre nodos, proporcionando un 30% mejor rendimiento real para el entrenamiento de modelos grandes. La prima se paga sola a través del tiempo de entrenamiento reducido y menores costos operacionales.

La economía energética favorece al NVL72 a pesar de su consumo de 120kW. Los sistemas distribuidos tradicionales que logran cómputo similar consumirían 400-500kW incluyendo la sobrecarga de red.²² A tarifas industriales de $0,10 por kWh, los ahorros de energía equivalen a $300.000 anuales. La carga de refrigeración reducida ahorra otros $100.000 al año. Durante un período de depreciación típico de tres años, los ahorros de energía compensan casi la mitad de la prima inicial.

Las reducciones en el tiempo de entrenamiento se traducen directamente en ventaja competitiva. OpenAI estima que el entrenamiento de GPT-4 en sistemas NVL72 se completaría en 45 días versus 90 días en infraestructura anterior.²³ Para organizaciones que gastan 1 millón de dólares diarios en recursos de cómputo, los ahorros de tiempo justifican cualquier prima de hardware razonable. Las ventajas de ser el primero en moverse en los mercados de IA hacen que la velocidad sea invaluable más allá de los cálculos financieros puros.

Las tasas de utilización mejoran dramáticamente con la arquitectura unificada. Los clústeres tradicionales logran una utilización de GPU del 50-60% debido a la sobrecarga de comunicación y sincronización.²⁴ Los sistemas NVL72 mantienen una utilización del 85-90% al eliminar los cuellos de botella entre nodos. La utilización mejorada significa que cada NVL72 entrega el cómputo efectivo de 120-130 GPUs tradicionales, cambiando la economía de la infraestructura de IA a gran escala.

Los costos operacionales sorprenden a muchos analistas financieros. La complejidad del sistema requiere equipos de ingeniería dedicados con salarios de más de $200.000. Solo el refrigerante cuesta $10.000 anuales con pruebas trimestrales a $2.000. El inventario de repuestos para un solo NVL72 inmoviliza $500.000 en capital. Sin embargo, estos costos palidecen en comparación con el costo de oportunidad de no tener suficiente cómputo para el desarrollo de modelos.

Las implementaciones reales revelan realidades operacionales

Infraestructura de entrenamiento de Claude 3 de Anthropic

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO