UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

UALink 1.0 desafía a NVLink con escalabilidad de 1,024 GPUs. CXL 4.0 duplica el ancho de banda a 128 GT/s. Guía técnica sobre estándares de interconexión abiertos para infraestructura de IA.

UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

La especificación UALink 1.0 publicada en abril de 2025 permite escalar hasta 1,024 aceleradores en un único fabric, desafiando directamente el ecosistema propietario NVLink y NVSwitch de Nvidia. Siete meses después, el Consorcio CXL publicó CXL 4.0 el 18 de noviembre de 2025, duplicando el ancho de banda a 128 GT/s y habilitando la agrupación de memoria multi-rack. Juntos, estos estándares abiertos representan el desafío más significativo al dominio de interconexión de Nvidia desde que la compañía introdujo NVLink en 2016.

Resumen Ejecutivo

UALink 1.0 ofrece 200 GT/s por carril con soporte para hasta 1,024 aceleradores, comparado con el máximo de 576 GPUs de NVLink. CXL 4.0 duplica el ancho de banda de memoria a 128 GT/s e introduce puertos agrupados para cargas de trabajo de IA que requieren memoria compartida a escala de terabytes. El hardware compatible con UALink llegará a finales de 2026 de AMD, Intel y Astera Labs, mientras que los despliegues multi-rack de CXL 4.0 apuntan a 2027. Para los equipos de infraestructura que planifican clústeres GPU de próxima generación, estas especificaciones señalan un cambio hacia arquitecturas independientes del proveedor que reducen la dependencia mientras permiten una escala sin precedentes.


El Panorama de Interconexión en 2025

Las interconexiones GPU determinan cuán efectivamente escalan los clústeres de IA. Cuanto más rápido puedan intercambiar datos los aceleradores, más grandes serán los modelos que pueden entrenar y más eficientemente pueden servir solicitudes de inferencia.

Tecnologías de Interconexión Actuales

Tecnología Propietario Ancho de Banda Escala Máx. Estado
NVLink 5.0 Nvidia 1.8 TB/s por GPU 576 GPUs Producción (Blackwell)
NVLink 4.0 Nvidia 900 GB/s por GPU 256 GPUs Producción (Hopper)
Infinity Fabric AMD ~1.075 TB/s por tarjeta 8 GPUs (malla directa) Producción (MI300X)
UALink 1.0 Consorcio 800 GB/s (4 carriles) 1,024 aceleradores Especificación publicada abril 2025
CXL 4.0 Consorcio 128 GT/s Multi-rack Especificación publicada nov 2025

NVLink de Nvidia domina los despliegues en producción, pero el sistema GB200 NVL72 ejemplifica tanto su potencia como sus limitaciones: 72 GPUs Blackwell interconectadas con 130 TB/s de ancho de banda agregado, pero exclusivamente dentro del ecosistema propietario de Nvidia.


Formación del Consorcio

El Consorcio Ultra Accelerator Link se incorporó en octubre de 2024 con miembros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta y Microsoft. El esfuerzo se basa en el trabajo que AMD y Broadcom anunciaron en diciembre de 2023.

Para enero de 2025, Alibaba Cloud, Apple y Synopsys se unieron a nivel de junta directiva, elevando la membresía total a 75 organizaciones.

Especificaciones Técnicas

La Especificación UALink 200G 1.0 define una interconexión de baja latencia y alto ancho de banda para comunicación entre aceleradores y switches en pods de computación de IA.

Especificación UALink 1.0
Tasa de Datos por Carril 200 GT/s bidireccional
Tasa de Señalización 212.5 GT/s (con overhead de FEC)
Anchos de Enlace x1, x2, x4
Ancho de Banda Máximo 800 GB/s (config x4)
Escala Máxima 1,024 aceleradores
Longitud de Cable <4 metros optimizado
Objetivo de Latencia <1 µs ida y vuelta (payloads de 64B/640B)

Los switches UALink asignan un puerto por acelerador y utilizan identificadores únicos de 10 bits para enrutamiento preciso a través del fabric.

Métrica UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Ancho de Banda por GPU 800 GB/s 900 GB/s 1.8 TB/s
Enlaces por GPU 4 18 18
GPUs Máximas 1,024 256 576
Dependencia del Proveedor Estándar abierto Solo Nvidia Solo Nvidia
Disponibilidad de Hardware Finales 2026/2027 Producción Producción

NVLink 5.0 ofrece más de 3x el ancho de banda por conexión que UALink 1.0 (2,538 GB/s vs 800 GB/s). Sin embargo, UALink soporta casi 2x el tamaño máximo de clúster (1,024 vs 576 GPUs) y opera entre múltiples proveedores.

Diferencias en la Filosofía de Diseño

NVLink optimiza para clústeres GPU densos y homogéneos donde el máximo ancho de banda entre aceleradores estrechamente empaquetados es lo más importante. La tecnología sobresale en sistemas DGX y racks NVL72 donde todos los componentes provienen de Nvidia.

UALink apunta a arquitecturas modulares a escala de rack donde las organizaciones mezclan aceleradores de diferentes proveedores o requieren clústeres lógicos más grandes. El estándar abierto permite que los AMD MI-series, Intel Gaudi y futuros aceleradores se comuniquen a través de un fabric común.

Posición Actual de AMD

Infinity Fabric de AMD conecta hasta ocho GPUs MI300X o MI355X en una malla completamente conectada. Cada MI300X tiene siete enlaces Infinity Fabric con 16 carriles por enlace, proporcionando aproximadamente 1.075 TB/s de ancho de banda peer-to-peer.

La limitación: escalar más allá de 8 GPUs requiere redes Ethernet. La hoja de ruta de AMD incluye AFL (Accelerated Fabric Link) funcionando sobre enlaces PCIe Gen7, además de la adopción de UALink para interoperabilidad multi-proveedor.


CXL 4.0: Memoria Sin Fronteras

El Problema del Muro de Memoria

Las cargas de trabajo de IA cada vez más golpean cuellos de botella de memoria antes que límites de cómputo. Los modelos de lenguaje grandes requieren terabytes de memoria para cachés KV durante la inferencia, mientras que las ejecuciones de entrenamiento demandan aún más para activaciones y estados del optimizador.

Las arquitecturas de servidor tradicionales conectan memoria directamente a las CPUs, creando capacidad varada cuando las cargas de trabajo varían. CXL desacopla la memoria del cómputo, habilitando asignación dinámica entre nodos.

Especificaciones de CXL 4.0

El Consorcio CXL publicó CXL 4.0 en Supercomputing 2025 el 18 de noviembre de 2025.

Especificación CXL 3.0/3.1 CXL 4.0
Tasa de Señalización 64 GT/s 128 GT/s
Generación PCIe PCIe 6.0 PCIe 7.0
Ancho de Banda 256 GB/s (x16) 512 GB/s (x16)
Retimers 2 4
Anchos de Enlace x16, x8, x4, x1 x16, x8, x4, x2, x1
Topología Single-rack Multi-rack

Características Clave de CXL 4.0

Puertos Agrupados: CXL 4.0 introduce agregación de puertos permitiendo que hosts y dispositivos combinen múltiples puertos físicos en una única conexión lógica. Esto proporciona mayor ancho de banda mientras mantiene un modelo de software simple donde el sistema ve un solo dispositivo.

Alcance Extendido: Cuatro retimers permiten configuraciones multi-rack sin sacrificar la calidad de la señal. CXL 3.x limitaba los despliegues a topologías de un solo rack; CXL 4.0 extiende la agrupación de memoria a través de pasillos del centro de datos.

Capacidad de Memoria: La agrupación de memoria CXL permite más de 100 terabytes de memoria conectados a una sola CPU, valioso para organizaciones que minan grandes conjuntos de datos o ejecutan cargas de trabajo de IA intensivas en memoria.

Enlaces x2 Nativos: La nueva opción de ancho de enlace x2 reduce costos para aplicaciones que requieren ancho de banda moderado, mejorando la economía de CXL para despliegues en el borde.

Rendimiento de Agrupación de Memoria CXL

Demostraciones en CXL DevCon 2025 mostraron dos servidores con GPUs NVIDIA H100 ejecutando el modelo OPT-6.7B:

Configuración Rendimiento
Pool de Memoria CXL Línea base
RDMA 200G 3.8x más lento
RDMA 100G 6.5x más lento

CXL proporciona acceso con semántica de memoria con latencia en el rango de 200-500 ns, comparado con ~100 µs para NVMe y >10 ms para compartición de memoria basada en almacenamiento.

Ganancias de Potencia y Eficiencia

La investigación muestra que CXL puede [reducir el consumo de energía de memoria en un 20-30%](https://computeexpresslink.org/blog/over

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO