Switches InfiniBand: NVIDIA Quantum-X800 y la Generación XDR que Impulsa los Supercomputadores de IA
Actualizado el 11 de diciembre de 2025
Actualización de diciembre 2025: El mercado de InfiniBand alcanza $25.7B en 2025, con proyección de $126.99B para 2030 (CAGR del 37.60%). Quantum-X800 ofrece 144 puertos de 800Gbps XDR con 14.4 TFLOPS de cómputo en red (9x vs NDR). Latencia puerto a puerto inferior a 100ns. Los 64,000 GB200 de Stargate y el superclúster de escala zetta de 131,000 GPUs de Oracle funcionan con InfiniBand.
Las ventas de switches InfiniBand se dispararon en el segundo trimestre de 2025, impulsadas por la demanda de redes de 800Gbps generada por la plataforma Blackwell Ultra de NVIDIA.¹ El mercado de InfiniBand, valorado en $25.74 mil millones en 2025, proyecta un crecimiento hasta $126.99 mil millones para 2030 con una tasa de crecimiento anual compuesta del 37.60%.² Aunque Ethernet mantiene el liderazgo general del mercado en redes back-end para IA, InfiniBand domina los despliegues de mayor rendimiento donde la latencia medida en cientos de nanosegundos determina la eficiencia del entrenamiento.
La plataforma Quantum-X800 representa la respuesta de NVIDIA a los requisitos de modelos con billones de parámetros. Con 144 puertos de conectividad de 800Gbps, 14.4 teraflops de computación en red mediante SHARP v4, y latencia puerto a puerto inferior a 100 nanosegundos, la generación XDR duplica el ancho de banda mientras entrega 9 veces más cómputo en red que la plataforma NDR anterior.³ Instalaciones importantes, incluyendo los 64,000 sistemas GB200 de Stargate y el superclúster de escala zetta de 131,000 GPUs de Oracle, dependen de NVIDIA InfiniBand para mantener la sincronización precisa que requiere el entrenamiento distribuido de IA.⁴
La evolución de NDR a XDR
Las generaciones de InfiniBand avanzan mediante incrementos de velocidad estandarizados: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps), y ahora XDR (800Gbps).⁵ Cada generación duplica el ancho de banda por puerto mientras mantiene la baja latencia y la fiabilidad a nivel de hardware que diferencian a InfiniBand de las alternativas Ethernet.
NDR (Next Data Rate), introducido en 2021, entregó puertos de 400Gbps utilizando cuatro carriles de SerDes codificados en PAM-4 funcionando a 51.6 GHz.⁶ Los ASICs Quantum-2 que alimentan los switches NDR proporcionan 256 carriles SerDes con 25.6Tbps de ancho de banda unidireccional, procesando 66.5 mil millones de paquetes por segundo a través de 64 puertos de conectividad de 400Gbps.⁷ NDR trajo conectores OSFP a InfiniBand, permitiendo uno o dos enlaces en configuraciones 2x (NDR200) o 4x (NDR400).⁸
La especificación XDR (eXtreme Data Rate), publicada por la InfiniBand Trade Association en octubre de 2023, duplica el ancho de banda para satisfacer las demandas de los centros de datos de IA y HPC.⁹ El soporte SerDes a 200Gbps por carril permite puertos de 800Gbps, con conexiones switch a switch alcanzando 1.6Tbps.¹⁰ XDR introduce SHARP de cuarta generación, mejoras de latencia ultra baja, capacidades de auto-reparación e integración de fotónica de silicio.¹¹
La hoja de ruta continúa hacia la tecnología GDR (Giga Data Rate) que proporcionará 1.6Tbps por puerto para futuras generaciones, asegurando que InfiniBand mantenga su posición de liderazgo en rendimiento.¹²
Arquitectura de la plataforma NVIDIA Quantum-X800
La plataforma Quantum-X800 ofrece la primera implementación de InfiniBand XDR, diseñada específicamente para modelos de IA a escala de billones de parámetros.¹³ El switch Q3400-RA de 4U aprovecha la tecnología SerDes de 200Gbps por carril, siendo el primer silicio de switch en alcanzar este grado de velocidad.¹⁴
La densidad de puertos escala sustancialmente. El switch proporciona 144 puertos de conectividad de 800Gbps distribuidos en 72 bahías OSFP.¹⁵ El alto radix permite topologías de fabric eficientes, con un fat-tree de dos niveles capaz de conectar hasta 10,368 NICs ConnectX-8 con latencia mínima y localidad de trabajo óptima.¹⁶
Las especificaciones de rendimiento apuntan a las cargas de trabajo de IA más exigentes. La latencia puerto a puerto se mide por debajo de 100 nanosegundos.¹⁷ El enrutamiento adaptativo distribuye el tráfico dinámicamente a través de las rutas disponibles. El control de congestión basado en telemetría previene la saturación de la red antes de que impacte la utilización de las GPUs.¹⁸
Los enclosures de doble switch en modelos como el Q3200-RA proporcionan 72 puertos de 800Gbps con 1.6Tbps de ancho de banda agregado switch a switch, habilitando las topologías spine-leaf que requieren los grandes clústeres de IA.¹⁹ Las capacidades opcionales de router facilitan la expansión de clústeres InfiniBand a través de múltiples sitios, soportando entornos de entrenamiento distribuido que abarcan ubicaciones geográficas.²⁰
La computación en red SHARP elimina cuellos de botella
El Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP) de NVIDIA representa la ventaja tecnológica definitiva de InfiniBand sobre las alternativas Ethernet. Al descargar operaciones colectivas como all-reduce y broadcast a los switches de red, SHARP reduce significativamente el volumen de transferencia de datos y minimiza el jitter del servidor durante el entrenamiento distribuido.²¹
La evolución a través de cuatro generaciones expandió las capacidades de SHARP progresivamente:
SHARPv1 se centró en operaciones de reducción de mensajes pequeños para computación científica, demostrando mejoras sustanciales de rendimiento adoptadas por las principales bibliotecas MPI.²²
SHARPv2, introducido con los switches Quantum HDR de 200Gbps, añadió soporte para cargas de trabajo de IA incluyendo operaciones de reducción de mensajes grandes. Los benchmarks demostraron una mejora del 17% en el rendimiento del entrenamiento de BERT.²³
SHARPv3 habilitó la computación en red multi-tenant, permitiendo que múltiples cargas de trabajo de IA aprovechen las capacidades de SHARP simultáneamente. Microsoft Azure mostró un beneficio de rendimiento de casi un orden de magnitud para la latencia de AllReduce usando esta generación.²⁴
SHARPv4 viene de serie con los switches Quantum-X800 y Quantum-X Photonics, habilitando agregación y reducción en red que minimiza la sobrecarga de comunicación GPU a GPU.²⁵ Combinado con el soporte de precisión FP8, SHARP v4 acelera el entrenamiento de modelos de billones de parámetros reduciendo tanto las demandas de ancho de banda como de cómputo, entregando convergencia más rápida y mayor throughput.²⁶
La tecnología se integra con NVIDIA Collective Communication Library (NCCL), permitiendo que los frameworks de entrenamiento distribuido de IA aprovechen SHARP automáticamente. Los proveedores de servicios reportan mejoras de rendimiento del 10-20% para cargas de trabajo de IA mediante la integración de SHARP.²⁷ Los switches de red realizan la agregación y reducción directamente, evitando CPUs y GPUs para estas tareas mientras duplican el ancho de banda de AllReduce en comparación con configuraciones sin SHARP.²⁸
ConnectX-8 SuperNIC ofrece endpoints de 800Gbps
La plataforma Quantum-X800 se combina con adaptadores ConnectX-8 SuperNIC para lograr throughput de 800Gbps de extremo a extremo.²⁹ El C8180 representa el primer SuperNIC de protocolo dual de 800Gbps de NVIDIA que soporta tanto InfiniBand como Ethernet, diseñado para clústeres de computación de alto rendimiento con IA, redes de supercomputación y arquitecturas de centros de datos de próxima generación.³⁰
Las especificaciones técnicas impulsan las capacidades de los adaptadores significativamente hacia adelante. La interfaz OSFP de puerto único entrega 800Gbps de InfiniBand XDR o dos puertos de Ethernet de 400Gbps.³¹ La conectividad PCIe Gen6 x16 proporciona el ancho de banda de interfaz de host que iguala las velocidades de red.³² La auto-negociación soporta compatibilidad hacia atrás con velocidades InfiniBand XDR, NDR, NDR200, HDR, HDR100, EDR, FDR y SDR.³³
Las innovaciones arquitectónicas se extienden más allá del ancho de banda bruto. ConnectX-8 integra soporte nativo de PCIe Gen6 con un fabric de switching PCIe integrado, eliminando los requisitos de switches PCIe externos.³⁴ El adaptador contiene 48 carriles de PCIe Gen6 detrás de la interfaz del conector x16.³⁵ El soporte nativo de SHARP acelera las operaciones de agregación y reducción directamente en el hardware del adaptador.³⁶
La tecnología Socket Direct aborda las arquitecturas de servidor de doble socket. El acceso directo desde cada CPU a la red a través de interfaces PCIe dedicadas mejora el rendimiento en sistemas donde la topología CPU-a-red impacta la latencia.³⁷ El GB300 NVL72 representa el primer despliegue de la capacidad SuperNIC PCIe Gen6, conectándose a CPUs Grace a velocidades Gen5 mientras mantiene enlaces Gen6 a GPUs B300.³⁸
Unified Fabric Manager orquesta a escala
La plataforma UFM revoluciona la gestión de fabric InfiniBand combinando telemetría de red en tiempo real con analíticas impulsadas por IA.³⁹ La solución basada en host proporciona visibilidad completa sobre la gestión del fabric, enrutamiento, aprovisionamiento y resolución de problemas.
La arquitectura de UFM abarca múltiples componentes. El servidor UFM mantiene visibilidad completa del fabric y gestiona el enrutamiento a través de todos los dispositivos. Los dispositivos de switching gestionados incluyen switches de fabric, gateways y routers bajo control de UFM. Los agentes de host UFM opcionales en los nodos de cómputo proporcionan datos locales del host y funcionalidad de gestión de dispositivos.⁴⁰
Tres niveles de plataforma abordan diferentes requisitos operacionales:
UFM Telemetry recopila más de 120 contadores únicos por puerto incluyendo tasa de errores de bits, temperatura, histogramas y retransmisiones.⁴¹ Los datos permiten predecir cables marginales antes de que las fallas impacten las cargas de trabajo de producción.
UFM Enterprise añade monitoreo de red, gestión, optimizaciones de carga de trabajo y validación periódica de configuración.⁴² La integración con programadores de trabajos como Slurm y Platform LSF permite el aprovisionamiento automatizado de red alineado con la programación de cargas de trabajo. Las integraciones con OpenStack y Azure soportan modelos de despliegue en la nube.⁴³
UFM Cyber-AI proporciona mantenimiento preventivo y capacidades de ciberseguridad para reducir los costos operacionales de supercomputación.⁴⁴ El despliegue de appliance dedicado habilita el análisis de fabric impulsado por IA en las instalaciones.
El SDK de UFM ofrece extensas integraciones de terceros incluyendo plug-ins de Grafana, FluentD, Zabbix y Slurm a través de acceso API REST.⁴⁵ Los proyectos de código abierto permiten la integración con SLURM para monitorear el ancho de banda de red, congestión, errores y utilización de recursos a través de los nodos de cómputo de trabajos.
Despliegues importantes en supercomputadores validan la plataforma
Los sistemas de IA más grandes del mundo se estandarizan en redes NVIDIA InfiniBand. Los despliegues actuales y planificados demuestran las capacidades de la plataforma Quantum a escala.
Stargate AI Data Center comenzó a instalar 64,000 sistemas GB200 en marzo de 2025, interconectados por InfiniBand de 800Gbps para servicios de IA multi-exaflop.⁴⁶ El despliegue representa una de las primeras implementaciones XDR a gran escala.
xAI Colossus opera 100,000 GPUs H100 usando switches Quantum-2, manteniendo una latencia en el peor caso de 850 nanosegundos a través de tres niveles de red.⁴⁷ El clúster de Memphis entrena la familia Grok de modelos de lenguaje grandes de xAI.
Oracle Zetta-scale Supercluster planea 131,000 GPUs GB200 conectadas a través de fabric Quantum InfiniBand, demostrando el compromiso de los proveedores de nube con InfiniBand para infraestructura de IA de máximo rendimiento.⁴⁸
El Capitan en Lawrence Livermore National Laboratory superará los 2 exaflops usando InfiniBand de 200Gbps, mostrando la relevancia continua de las redes de clase NDR para computación científica.⁴⁹
JUPITER (250 millones de euros) y Blue Lion (250 millones de euros) en Europa seleccionaron fabrics Quantum-2 cumpliendo requisitos estrictos de eficiencia energética mientras entregan el rendimiento que demandan las cargas de trabajo científicas.⁵⁰
Los ingresos de networking de NVIDIA alcanzaron $10 mil millones anuales, casi todos vinculados a fabrics InfiniBand que alimentan nubes comerciales de IA.⁵¹ Microsoft Azure y Oracle Cloud Infrastructure representan los adoptadores iniciales de Quantum InfiniBand entre los proveedores hiperescala.⁵²
Posicionamiento de InfiniBand versus Ethernet
Las dinámicas del mercado reflejan un posicionamiento distinto para cada tecnología. Cuando Dell'Oro Group inició la cobertura de redes back-end de IA a finales de 2023, InfiniBand tenía más del 80% de cuota de mercado.⁵³ Ethernet ha ganado terreno desde entonces a través de la adopción por hiperescaladores y ventajas de costo, manteniendo el liderazgo general del mercado en 2025.⁵⁴
Las características de rendimiento diferencian las tecnologías. InfiniBand entrega latencia sub-microsegundo a través de RDMA acelerado por hardware y computación en red. Ethernet logra throughput competitivo cuando se configura correctamente con RoCE, pero requiere una cuidadosa configuración de red sin pérdidas y carece de capacidades equivalentes de cómputo en red.
Las estructuras de costos favorecen a Ethernet para muchos despliegues. Las empresas de nivel 2 y 3 que despliegan clústeres de 256-1,024 GPUs típicamente encuentran que Ethernet con RoCE entrega rendimiento aceptable a aproximadamente la mitad del costo de networking.⁵⁵ La propuesta de valor de InfiniBand se fortalece a mayores escalas donde la computación en red SHARP y los límites de latencia más ajustados se traducen
[Contenido truncado para traducción]