NVLink y redes scale-up: cuando 800G Ethernet no es suficiente

NVLink 5 entrega 1,8 TB/s por GPU (18 enlaces × 100 GB/s)—14 veces el ancho de banda de PCIe Gen5. GB200 NVL72 conecta 72 GPUs con 130 TB/s agregados. NVSwitch permite 576 GPUs en fabric sin bloqueo con 1 PB/s...

NVLink y redes scale-up: cuando 800G Ethernet no es suficiente

NVLink y redes scale-up: cuando 800G Ethernet no es suficiente

Actualizado el 11 de diciembre de 2025

Actualización de diciembre 2025: NVLink 5 entrega 1,8 TB/s por GPU (18 enlaces × 100 GB/s)—14 veces el ancho de banda de PCIe Gen5. GB200 NVL72 conecta 72 GPUs con 130 TB/s agregados. NVSwitch permite 576 GPUs en fabric sin bloqueo con más de 1 PB/s de ancho de banda total. NVLink de quinta generación logra 12 veces el ancho de banda de la primera generación (2014). Las redes scale-up crean capacidades que las redes scale-out no pueden igualar.

Una sola GPU NVIDIA Blackwell soporta hasta 18 conexiones NVLink a 100 gigabytes por segundo cada una, entregando 1,8 terabytes por segundo de ancho de banda total—14 veces el ancho de banda de PCIe Gen5.¹ El sistema GB200 NVL72 conecta 72 GPUs en un solo dominio NVLink con 130 terabytes por segundo de ancho de banda agregado.² El NVLink Switch de NVIDIA permite 576 GPUs en un fabric de cómputo sin bloqueo con más de 1 petabyte por segundo de ancho de banda total.³ Las redes scale-up crean capacidades de infraestructura que las redes scale-out Ethernet e InfiniBand no pueden igualar.

La distinción entre redes scale-up y scale-out define la arquitectura moderna de infraestructura de IA. NVLink y NVSwitch manejan la comunicación dentro de nodos y racks, entregando el ancho de banda y la latencia requeridos para el paralelismo tensorial en modelos grandes. InfiniBand y Ethernet manejan la comunicación entre racks, proporcionando el alcance requerido para el paralelismo de datos en miles de GPUs. Comprender cuándo aplica cada tecnología determina si las inversiones en infraestructura entregan el rendimiento esperado.

NVLink de quinta generación duplica el ancho de banda comparado con la generación anterior.⁴ Cada enlace opera a 100 gigabytes por segundo bidireccional, con 18 enlaces por GPU Blackwell proporcionando 1,8 terabytes por segundo de ancho de banda agregado.⁵ La mejora supera el ancho de banda de PCIe Gen5 por más de 14 veces.⁶

La evolución a través de las generaciones demuestra la trayectoria:

Generación Arquitectura Enlaces Ancho de banda por GPU
1ª (2018) Volta V100 6 300 GB/s
2ª (2020) Ampere A100 12 600 GB/s
3ª (2022) Hopper H100 18 900 GB/s
4ª (2024) Blackwell B200 18 1,8 TB/s

NVLink de quinta generación logra 12 veces el ancho de banda de la primera generación de NVLink introducida en 2014.⁷ La duplicación de Hopper a Blackwell refleja los crecientes requisitos de ancho de banda de los modelos de billones de parámetros.

El aumento del ancho de banda por enlace de 50 gigabytes por segundo en NVLink 4 a 100 gigabytes por segundo en NVLink 5 permite que la misma configuración de 18 enlaces duplique el rendimiento total.⁸ La arquitectura mantiene el número de enlaces mientras mejora las tasas de señalización.

Evolución de la arquitectura NVSwitch

NVIDIA introdujo NVSwitch con el sistema DGX-2 en 2018 para permitir conectividad completa entre GPUs dentro de un solo sistema.⁹ NVSwitch actúa como un switch crossbar de alta velocidad y sin bloqueo para el tráfico NVLink, permitiendo que cada GPU en un sistema se comunique con todas las demás GPUs a velocidad máxima.¹⁰

El DGX-2 presentaba 16 GPUs V100 conectadas a través de NVSwitch de primera generación.¹¹ Cada chip NVSwitch proporcionaba 18 puertos NVLink con 900 gigabytes por segundo de capacidad de conmutación agregada.¹² El chip de 100 vatios fabricado en TSMC 12nm contenía 2 mil millones de transistores.¹³

NVSwitch de segunda generación llegó con DGX A100 en 2020, soportando NVLink 3.0 a 600 gigabytes por segundo por GPU.¹⁴ Seis chips NVSwitch crearon una topología de red completamente conectada para ocho GPUs A100.¹⁵

NVSwitch de tercera generación para Hopper aumentó a 25,6 terabits por segundo de ancho de banda bidireccional total por chip.¹⁶ Cuatro chips NVSwitch en cada sistema HGX H100 y HGX H200 proporcionan 3,6 terabytes por segundo de ancho de banda de red bidireccional a través de ocho GPUs.¹⁷ NVSwitch de tercera generación introdujo funcionalidad SHARP para cómputo en red, agregando y actualizando resultados a través de múltiples unidades GPU sin requerir viajes de ida y vuelta a GPUs individuales.¹⁸

NVSwitch de cuarta generación para Blackwell presenta 72 puertos NVLink 5.0 por chip.¹⁹ El NVLink 5 Switch proporciona 144 puertos NVLink con 14,4 terabytes por segundo de capacidad de conmutación sin bloqueo.²⁰ Esta generación introdujo la conmutación a nivel de rack, moviendo NVSwitch de servidores a bandejas de switch dedicadas.

Arquitectura scale-up GB200 NVL72

El GB200 NVL72 conecta 36 CPUs Grace y 72 GPUs Blackwell en un diseño refrigerado por líquido a escala de rack.²¹ El dominio NVLink de 72 GPUs actúa como una sola GPU masiva y entrega inferencia de modelos de lenguaje grandes de billones de parámetros en tiempo real 30 veces más rápida comparada con generaciones anteriores.²²

La arquitectura física distribuye componentes a través de bandejas de cómputo y bandejas de switch.²³ Cada bandeja de cómputo contiene dos Superchips GB200, con cada Superchip compuesto por dos GPUs B200 y una CPU Grace.²⁴ El sistema contiene 18 bandejas de cómputo totalizando 72 GPUs.

Nueve bandejas de switch NVLink proporcionan conectividad full-mesh.²⁵ Cada bandeja de switch contiene dos chips NVLink Switch con 144 puertos NVLink en total.²⁶ Los nueve switches conectan completamente cada uno de los 18 puertos NVLink en cada GPU Blackwell.²⁷

No existe conectividad directa GPU a GPU dentro de un solo servidor o bandeja de cómputo.²⁸ Toda la comunicación se enruta a través del fabric NVSwitch externo.²⁹ Esta arquitectura hace que las 72 GPUs sean equivalentes desde una perspectiva de conectividad—cualquier GPU puede comunicarse con cualquier otra al mismo ancho de banda y latencia.³⁰

Los 130 terabytes por segundo de ancho de banda NVLink agregado permiten paralelismo tensorial a través de las 72 GPUs.³¹ Los modelos grandes que exceden la capacidad de memoria de una sola GPU pueden distribuir tensores a través de todo el dominio con mínima sobrecarga de comunicación. La arquitectura elimina el límite tradicional entre redes de servidor y rack para cargas de trabajo scale-up.

Redes scale-up versus scale-out

Las redes scale-up (NVLink) y las redes scale-out (InfiniBand y Ethernet) sirven propósitos fundamentalmente diferentes en la infraestructura de IA.³²

NVLink sobresale en comunicación rápida entre GPUs dentro de un solo dominio—mucho más rápida que InfiniBand, con ancho de banda del orden de terabytes por segundo para conexiones locales.³³ La baja latencia y alto ancho de banda soportan paralelismo tensorial, donde los pesos del modelo se distribuyen a través de GPUs y deben sincronizarse en cada capa. Los 1,8 terabytes por segundo por GPU de NVLink permiten esta sincronización sin convertirse en cuello de botella.

NVLink no ayuda una vez que la comunicación cruza los límites del nodo.³⁴ Las redes entre nodos requieren InfiniBand o Ethernet independientemente de la capacidad NVLink intra-nodo. Las tecnologías operan en diferentes capas de la jerarquía.

InfiniBand proporciona el estándar de la industria para conectar miles de nodos de servidor.³⁵ Remote Direct Memory Access (RDMA) permite a los servidores intercambiar datos directamente entre espacios de memoria, evitando la sobrecarga de CPU y SO.³⁶ La característica resulta esencial para entrenamiento distribuido a gran escala usando paralelismo de datos, donde cada nodo procesa diferentes lotes y sincroniza gradientes.

InfiniBand sigue siendo el estándar de oro para entrenamiento de IA a escala, conectando más de 270 de las principales supercomputadoras del mundo.³⁷ El enrutamiento adaptativo, control de congestión y capacidades RDMA fueron diseñados específicamente para computación de alto rendimiento sincrónica.

Ethernet está superando a InfiniBand para despliegues scale-out.³⁸ Spectrum-X de NVIDIA trae innovaciones de InfiniBand a Ethernet, incluyendo control de congestión basado en telemetría, balanceo de carga adaptativo y colocación directa de datos.³⁹ Los sistemas a gran escala con Spectrum-X han logrado 95% de rendimiento de datos sin degradación de latencia de aplicación, comparado con solo 60% de rendimiento de fabrics Ethernet estándar.⁴⁰

El modelo jerárquico combina estas tecnologías apropiadamente. NVLink maneja scale-up dentro del rack, entregando aproximadamente 18 veces el ancho de banda de las redes scale-out.⁴¹ InfiniBand o Ethernet manejan scale-out entre racks, proporcionando alcance a través de miles de nodos. Cada bandeja de GPU en sistemas GB200 NVL72 incluye NICs RDMA de 800 gigabits por segundo para comunicación entre racks.⁴²

Dominios de 576 GPUs y arquitectura SuperPOD

El NVLink Switch permite 576 GPUs completamente conectadas en un fabric de cómputo sin bloqueo.⁴³ Ocho racks GB200 NVL72 forman un SuperPOD, creando un supernodo de 576 GPUs con más de 1 petabyte por segundo de ancho de banda total y 240 terabytes de memoria rápida.⁴⁴

DGX SuperPOD está construido sobre unidades escalables (SU), cada una conteniendo ocho sistemas DGX GB200.⁴⁵ El diseño modular permite despliegue rápido de SuperPODs a cualquier escala. La arquitectura de referencia incluye especificaciones para InfiniBand, red NVLink, topologías de fabric Ethernet, sistemas de almacenamiento, disposiciones de racks y cableado.⁴⁶

El dominio de 576 GPUs mantiene la topología NVLink completamente conectada a través de todos los racks en el SuperPOD.⁴⁷ Cualquier GPU puede comunicarse con cualquier otra a 1,8 terabytes por segundo sin atravesar redes scale-out.⁴⁸ El tamaño del dominio coincide con los requisitos de los modelos fundacionales más grandes actualmente en entrenamiento.

El despliegue de SuperPOD requiere instalación on-premises.⁴⁹ Los clientes poseen y gestionan el hardware dentro de sus centros de datos o instalaciones comerciales colocadas. La arquitectura refleja los sistemas internos de investigación y desarrollo de NVIDIA, lo que significa que el software de infraestructura, aplicaciones y soporte se prueban en configuraciones idénticas.⁵⁰

Los proveedores de nube Microsoft Azure, Oracle Cloud y CoreWeave se comprometieron a soportar la arquitectura X800 cuando esté disponible en 2025.⁵¹ Los despliegues en nube extienden las capacidades de SuperPOD a organizaciones que no pueden justificar infraestructura dedicada on-premises.

Despliegue en Kubernetes empresarial

Los sistemas Multi-Node NVLink (MNNVL) requieren configuración especializada de Kubernetes.⁵² Kubernetes no reconoce nativamente la arquitectura MNNVL de NVIDIA, haciendo la gestión y programación de cargas de trabajo más compleja que los despliegues GPU estándar.⁵³

Los requisitos de despliegue incluyen Kubernetes 1.32 o posterior y NVIDIA GPU Operator versión 25.3 o superior.⁵⁴ La versión del GPU Operator debe incluir el driver Dynamic Resource Allocation (DRA), que proporciona soporte para recursos de red acelerada GB200 y la característica ComputeDomain.⁵⁵ NVIDIA Network Operator maneja la configuración de red.

El servicio IMEX soporta exportación e importación de memoria GPU a través de dominios de SO en despliegues multi-nodo NVLink.⁵⁶ El servicio permite comunicación peer-to-peer NVLink y operaciones de memoria compartida a través del dominio.

Cuando las cargas de trabajo distribuidas apuntan a pools de nodos MNNVL, la plataforma crea un Custom Resource Definition (CRD) ComputeDomain para gestionar asignaciones de dominio NVLink.⁵⁷ Una referencia al ComputeDomain se adjunta automáticamente a las especificaciones de carga de trabajo como una reclamación de recursos, permitiendo al scheduler vincular cargas de trabajo a dominios NVLink específicos.⁵⁸

Las reglas de afinidad de pod usan la clave de etiqueta MNNVL (nvidia.com/gpu.clique) como clave de topología.⁵⁹ La configuración asegura que los pods dentro de cargas de trabajo distribuidas aterricen en nodos con interconexiones NVLink, manteniendo la topología requerida para el rendimiento.⁶⁰

Consideraciones de planificación de infraestructura

Las organizaciones que evalúan infraestructura NVLink deben considerar las características de carga de trabajo primero. El paralelismo tensorial a través de modelos grandes se beneficia directamente del ancho de banda NVLink. El paralelismo de datos a través de muchos modelos más pequeños puede no requerir las capacidades de NVLink y puede lograr rendimiento adecuado solo con redes scale-out.

El GB200 NVL72 representa un compromiso de infraestructura significativo. Los requisitos de refrigeración líquida, integración a escala de rack y redes especializadas exceden la complejidad de arquitecturas refrigeradas por aire centradas en servidor. Las organizaciones deben validar que las cargas de trabajo requieren estas capacidades antes de comprometerse.

La infraestructura de energía y refrigeración debe acomodar refrigeración líquida desde el despliegue inicial. El GB200 NVL72 no puede operar con refrigeración por aire. Adaptar instalaciones para refrigeración líquida después del despliegue es costoso y disruptivo.

La planificación de red debe abordar tanto los requisitos scale-up como scale-out. El fabric NVLink maneja la comunicación intra-rack, pero inter

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO