Redes 800G para IA: planificación de tu fabric GPU de próxima generación

800G domina los envíos de switches para clústeres de IA en 2025. Los ingresos de redes de NVIDIA se duplican a $7.3B. Planificación de la migración de 400G a 800G y más allá.

Redes 800G para IA: planificación de tu fabric GPU de próxima generación

Redes 800G para IA: planificación de tu fabric GPU de próxima generación

Actualizado el 11 de diciembre de 2025

Actualización de diciembre 2025: Las plataformas Quantum-X800 InfiniBand y Spectrum-X800 Ethernet de NVIDIA ya se envían en volumen. Microsoft Azure está desplegando fabrics 800G full fat-tree sin bloqueo para clústeres GB200/GB300. El Ultra Ethernet Consortium acelera las mejoras específicas para IA mientras comienzan las pruebas de 1.6T. La densidad de potencia sigue siendo la restricción de implementación: los módulos 800G que consumen 14-20W por puerto estresan los diseños de refrigeración del rack.

La mayoría de los envíos de puertos de switches en clústeres de IA durante 2025 operan a 800 gigabits por segundo.¹ Para 2027, la mayoría hará la transición a 1.6 terabits. Para 2030, la mayoría de los puertos funcionarán a 3.2 terabits.² Esto implica que las capas eléctricas de redes de centros de datos requerirán reemplazo en cada generación de ancho de banda, un ciclo de actualización mucho más agresivo que el visto históricamente en redes empresariales. Las organizaciones que planifican infraestructura de IA deben considerar transiciones de red que ocurrirán más rápido que cualquier generación tecnológica anterior.

Los ingresos de redes de NVIDIA casi se duplicaron año tras año a $7.3 mil millones, impulsados por la fuerte adopción de Spectrum-X Ethernet, InfiniBand XDR y sistemas de escalado NVLink.³ Spectrum-X superó una tasa de ejecución anualizada de $10 mil millones.⁴ La inversión señala que las redes para IA representan un mercado distinto de las redes tradicionales de centros de datos, con requisitos y economía que justifican el desarrollo de productos dedicados y la planificación de infraestructura.

800G se convierte en el estándar de 2025

La investigación de la industria y las hojas de ruta de los proveedores posicionan la óptica 800G como la tecnología dominante para nuevos clústeres de IA y grandes implementaciones de centros de datos en 2025, particularmente en formatos OSFP y QSFP-DD.⁵ Los proveedores y analistas esperan que los transceptores 800G sean el caballo de batalla en grandes fabrics de IA, con pruebas tempranas para 1.6T ya en desarrollo.⁶

El rápido crecimiento de la plataforma Blackwell Ultra de NVIDIA impulsó una fuerte demanda de switches InfiniBand de 800 Gbps, propulsando un aumento en las ventas de switches InfiniBand en el Q2 2025.⁷ Mientras las ventas de switches InfiniBand en redes back-end de IA aumentaron, Ethernet mantiene el liderazgo general. Los switches de 800 Gbps comprenden la mayor parte de los envíos e ingresos de switches tanto Ethernet como InfiniBand en redes back-end de IA.⁸

Las últimas implementaciones de NVIDIA GB200 y GB300 de Microsoft se comunican a través de NVLink y NVSwitch a terabytes por segundo a nivel de rack.⁹ Para conectar múltiples racks en un pod, Azure utiliza tanto fabrics InfiniBand como Ethernet entregando 800 Gbps en una arquitectura full fat-tree sin bloqueo.¹⁰ El enfoque híbrido refleja los roles complementarios de diferentes tecnologías de red en infraestructura de IA a gran escala.

La conectividad óptica impulsada por IA, incluyendo módulos 400G y 800G, crecerá a una tasa anual compuesta superior al 22% hacia 2030, en gran parte debido a clústeres de entrenamiento e inferencia de IA a gran escala.¹¹ La trayectoria de crecimiento justifica inversiones en infraestructura que anticipen la expansión multianual de los requisitos de redes de IA.

Plataformas de red 800G de NVIDIA

NVIDIA Quantum-X800 InfiniBand y Spectrum-X800 Ethernet representan las primeras plataformas de red del mundo capaces de rendimiento extremo a extremo de 800Gb/s.¹² La plataforma Quantum-X800, diseñada específicamente para modelos de IA a escala de billones de parámetros, incluye el switch Quantum-X800 InfiniBand, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC, y cables y transceptores LinkX.¹³

El switch Quantum-X800 InfiniBand proporciona 144 puertos de conectividad de 800 Gb/s por puerto.¹⁴ La densidad de puertos permite construir fabrics a gran escala con menos niveles de switching, reduciendo la latencia y la complejidad. Para organizaciones que entrenan los modelos de IA más grandes, InfiniBand continúa proporcionando la latencia más baja y la mejor consistencia de rendimiento a escala.

Los switches Quantum-X y Spectrum-X Photonics de NVIDIA integran fotónica de silicio directamente en el paquete del switch, entregando de 128 a 512 puertos de 800 Gb/s con anchos de banda totales que van desde 100 Tb/s hasta 400 Tb/s.¹⁵ La integración ofrece 3.5x más eficiencia energética y 10x mejor resiliencia en comparación con la óptica tradicional.¹⁶

Cisco Nexus Hyperfabric AI con el switch Cisco G200 Silicon One gestionado en la nube ofrece Ethernet 800G de alta densidad, ahora disponible para pedido como opción de implementación en AI PODs.¹⁷ La asociación entre Cisco y NVIDIA en redes de IA demuestra cómo los proveedores tradicionales de redes empresariales se están adaptando a los requisitos de infraestructura de IA.

Consideraciones entre InfiniBand y Ethernet

Ethernet dominará la mayoría de las implementaciones empresariales de IA debido a las ventajas de costo y ecosistema, mientras que InfiniBand seguirá siendo la opción para clústeres de IA y HPC de escala extrema.¹⁸ La distinción importa para la planificación de infraestructura: las organizaciones deben elegir la tecnología basándose en las características de la carga de trabajo en lugar de optar por opciones familiares por defecto.

InfiniBand proporciona menor latencia de aproximadamente 1-2 microsegundos y mejor consistencia de rendimiento a escala.¹⁹ Ethernet con RoCEv2 ofrece aproximadamente 5-10 microsegundos de latencia y puede ajustarse para cargas de trabajo de IA.²⁰ La diferencia de latencia importa para trabajos de entrenamiento donde las operaciones colectivas se sincronizan a través de miles de GPUs. Las cargas de trabajo de inferencia con menores requisitos de sincronización pueden no beneficiarse de las ventajas de latencia de InfiniBand.

Los analistas proyectan que Ethernet se convertirá en la tecnología más prominente para redes de IA, superando a InfiniBand a medida que 800G escala y 1.6T toma forma.²¹ La membresía fundadora de NVIDIA en el Ultra Ethernet Consortium y el lanzamiento de switches Ethernet Spectrum-X 800G optimizados para IA señalan confianza en el futuro de Ethernet para IA.²² El Ultra Ethernet Consortium desarrolla mejoras específicamente para cargas de trabajo de IA.

Implementar un fabric Ethernet 800G de alto rendimiento y sin pérdidas maximiza el valor de la inversión en IA.²³ La red sirve como el sistema nervioso central, crucial para maximizar la eficiencia y el retorno de la inversión. Ajustar el fabric de red acelera el tiempo de finalización de trabajos y asegura una alta utilización de GPU.²⁴

Desafíos de migración y planificación

La óptica 800G introduce nuevos desafíos que las organizaciones deben abordar durante la planificación de la migración. La densidad de potencia y térmica aumenta sustancialmente, con módulos 800G consumiendo 14-20 vatios o más, estresando el diseño de refrigeración del switch y los presupuestos de energía del rack.²⁵ Las organizaciones deben verificar que la infraestructura existente pueda soportar los mayores requisitos de potencia y refrigeración.

La gestión de fibra se vuelve más compleja. Migrar a 800G a menudo requiere mayores conteos de fibra, cableado MTP y requisitos más estrictos de polaridad y limpieza.²⁶ La infraestructura de capa física que funcionaba para 100G o 400G puede no soportar 800G sin actualizaciones. Las inversiones en planta de cables deben anticipar los requisitos de ancho de banda futuros para evitar el reemplazo repetido de infraestructura.

La interoperabilidad y validación entre proveedores de switches y NICs requieren una planificación cuidadosa.²⁷ Los entornos multi-proveedor pueden encontrar problemas de compatibilidad que las implementaciones homogéneas evitan. Las organizaciones deben validar la interoperabilidad en entornos de laboratorio antes de la implementación en producción.

El ciclo de actualización agresivo de 800G a 1.6T a 3.2T en menos de cinco años difiere de las transiciones históricas de redes. La planificación debe considerar el reemplazo de infraestructura más frecuente de lo que experimentaron las redes tradicionales de centros de datos. Los diseños modulares que permiten actualizaciones a nivel de componentes pueden reducir los costos totales de reemplazo.

Recomendaciones estratégicas

Las organizaciones que planifican infraestructura de IA deben evaluar los requisitos de red con el mismo rigor aplicado a la selección de GPU. La red determina cuán efectivamente se utilizan los costosos recursos de GPU. Subinvertir en redes crea cuellos de botella que desperdician capacidad de GPU.

Para nuevas implementaciones de IA en 2025, 800G debería ser la especificación predeterminada para conectividad a nivel de spine. La conectividad a nivel de leaf puede usar 400G dependiendo de las configuraciones de GPU y la tolerancia a la sobresuscripción. La inversión en infraestructura 800G proporciona margen para el crecimiento de cargas de trabajo y prepara para futuras transiciones.

InfiniBand sigue siendo apropiado para los clústeres de entrenamiento de IA más grandes donde la minimización de latencia mejora directamente la eficiencia del entrenamiento. Las implementaciones empresariales de IA, los servicios de IA basados en la nube y las cargas de trabajo de inferencia generalmente se benefician de las ventajas de costo de Ethernet y la integración del ecosistema sin sacrificar rendimiento significativo.

Las restricciones de potencia y refrigeración pueden limitar la adopción de 800G más que los requisitos de ancho de banda. Las organizaciones deben auditar la capacidad de infraestructura antes de comprometerse con implementaciones 800G. El presupuesto de potencia para redes puede competir con los requisitos de potencia de GPU en instalaciones con restricciones.

Marco de decisión rápida

Selección de tecnología:

Si tu carga de trabajo es... Elige Justificación
Entrenamiento LLM (>1000 GPUs) InfiniBand 800G Latencia 1-2µs, mejor consistencia
IA empresarial/inferencia Ethernet 800G Rentable, integración de ecosistema
Entrenamiento + inferencia híbrido Fabric dual InfiniBand para entrenamiento, Ethernet para inferencia
IA desplegada en la nube Depende del proveedor GCP es solo Ethernet; AWS/Azure ofrecen ambos

Planificación de ancho de banda:

Escala del clúster Spine Leaf Sobresuscripción
<256 GPUs 400G 100G 4:1 aceptable
256-1024 GPUs 800G 400G 2:1 recomendado
1024-4096 GPUs 800G 800G 1:1 (sin bloqueo)
>4096 GPUs 800G multi-nivel 800G Diseño fat-tree

Conclusiones clave

Para arquitectos de red: - 800G es el estándar de 2025; planifica para 1.6T en 2027, 3.2T en 2030 - NVIDIA Quantum-X800 ofrece 144 puertos × 800Gb/s por switch - InfiniBand: ~1-2µs de latencia; Ethernet con RoCEv2: ~5-10µs - Consumo de energía: los módulos 800G consumen 14-20W, impactando presupuestos del rack

Para planificadores de infraestructura: - Las capas eléctricas de red requieren reemplazo en cada generación de ancho de banda - La óptica 800G necesita mayores conteos de fibra, cableado MTP, limpieza más estricta - La validación de interoperabilidad es crítica en entornos multi-proveedor - Los diseños modulares reducen los costos totales de reemplazo durante las transiciones

Para planificación estratégica: - Se proyecta que Ethernet superará a InfiniBand para redes de IA a medida que 800G escala - NVIDIA Spectrum-X alcanzó una tasa de ejecución anualizada de $10B—las redes de IA son un mercado distinto - El Ultra Ethernet Consortium desarrolla mejoras específicas para IA - La inversión en red determina la utilización de GPU—subinvertir desperdicia cómputo

Las redes representan un componente significativo pero frecuentemente subestimado del costo de infraestructura de IA. La inversión requerida para soportar clústeres de GPU con el ancho de banda apropiado justifica una planificación cuidadosa y evaluación de proveedores. Las organizaciones que traten las redes como algo secundario encontrarán que las limitaciones de red restringen las capacidades de IA que sus inversiones en GPU podrían habilitar de otro modo.


Referencias

  1. Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/

  2. Dell'Oro Group. "Beyond the GPU Arms Race."

  3. NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai

  4. NVIDIA Newsroom. "NVIDIA Announces New Switches."

  5. QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers

  6. QSFP DD 800G. "2025 800G Optical Module Trends."

  7. Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race

  8. Lightwave Online. "Ethernet maintains a lead over InfiniBand."

  9. Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO