UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

UALink 1.0 desafía a NVLink con escalabilidad de 1,024 GPUs. CXL 4.0 duplica el ancho de banda a 128 GT/s. Guía técnica sobre estándares de interconexión abiertos para infraestructura de IA.

Blake Crosley

Feb 06, 2026 6 min read Disclaimer

UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

La especificación UALink 1.0 publicada en abril de 2025 permite escalar hasta 1,024 aceleradores en un único fabric, desafiando directamente el ecosistema propietario NVLink y NVSwitch de Nvidia. Siete meses después, el Consorcio CXL publicó CXL 4.0 el 18 de noviembre de 2025, duplicando el ancho de banda a 128 GT/s y habilitando la agrupación de memoria multi-rack. Juntos, estos estándares abiertos representan el desafío más significativo al dominio de interconexión de Nvidia desde que la compañía introdujo NVLink en 2016.

Resumen Ejecutivo

UALink 1.0 ofrece 200 GT/s por carril con soporte para hasta 1,024 aceleradores, comparado con el máximo de 576 GPUs de NVLink. CXL 4.0 duplica el ancho de banda de memoria a 128 GT/s e introduce puertos agrupados para cargas de trabajo de IA que requieren memoria compartida a escala de terabytes. El hardware compatible con UALink llegará a finales de 2026 de AMD, Intel y Astera Labs, mientras que los despliegues multi-rack de CXL 4.0 apuntan a 2027. Para los equipos de infraestructura que planifican clústeres GPU de próxima generación, estas especificaciones señalan un cambio hacia arquitecturas independientes del proveedor que reducen la dependencia mientras permiten una escala sin precedentes.

El Panorama de Interconexión en 2025

Las interconexiones GPU determinan cuán efectivamente escalan los clústeres de IA. Cuanto más rápido puedan intercambiar datos los aceleradores, más grandes serán los modelos que pueden entrenar y más eficientemente pueden servir solicitudes de inferencia.

Tecnologías de Interconexión Actuales

Tecnología	Propietario	Ancho de Banda	Escala Máx.	Estado
NVLink 5.0	Nvidia	1.8 TB/s por GPU	576 GPUs	Producción (Blackwell)
NVLink 4.0	Nvidia	900 GB/s por GPU	256 GPUs	Producción (Hopper)
Infinity Fabric	AMD	~1.075 TB/s por tarjeta	8 GPUs (malla directa)	Producción (MI300X)
UALink 1.0	Consorcio	800 GB/s (4 carriles)	1,024 aceleradores	Especificación publicada abril 2025
CXL 4.0	Consorcio	128 GT/s	Multi-rack	Especificación publicada nov 2025

NVLink de Nvidia domina los despliegues en producción, pero el sistema GB200 NVL72 ejemplifica tanto su potencia como sus limitaciones: 72 GPUs Blackwell interconectadas con 130 TB/s de ancho de banda agregado, pero exclusivamente dentro del ecosistema propietario de Nvidia.

UALink 1.0: Rompiendo la Dependencia del Proveedor

Formación del Consorcio

El Consorcio Ultra Accelerator Link se incorporó en octubre de 2024 con miembros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta y Microsoft. El esfuerzo se basa en el trabajo que AMD y Broadcom anunciaron en diciembre de 2023.

Para enero de 2025, Alibaba Cloud, Apple y Synopsys se unieron a nivel de junta directiva, elevando la membresía total a 75 organizaciones.

Especificaciones Técnicas

La Especificación UALink 200G 1.0 define una interconexión de baja latencia y alto ancho de banda para comunicación entre aceleradores y switches en pods de computación de IA.

Especificación	UALink 1.0
Tasa de Datos por Carril	200 GT/s bidireccional
Tasa de Señalización	212.5 GT/s (con overhead de FEC)
Anchos de Enlace	x1, x2, x4
Ancho de Banda Máximo	800 GB/s (config x4)
Escala Máxima	1,024 aceleradores
Longitud de Cable	<4 metros optimizado
Objetivo de Latencia	<1 µs ida y vuelta (payloads de 64B/640B)

Los switches UALink asignan un puerto por acelerador y utilizan identificadores únicos de 10 bits para enrutamiento preciso a través del fabric.

UALink vs NVLink: Comparación Directa

Métrica	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Ancho de Banda por GPU	800 GB/s	900 GB/s	1.8 TB/s
Enlaces por GPU	4	18	18
GPUs Máximas	1,024	256	576
Dependencia del Proveedor	Estándar abierto	Solo Nvidia	Solo Nvidia
Disponibilidad de Hardware	Finales 2026/2027	Producción	Producción

NVLink 5.0 ofrece más de 3x el ancho de banda por conexión que UALink 1.0 (2,538 GB/s vs 800 GB/s). Sin embargo, UALink soporta casi 2x el tamaño máximo de clúster (1,024 vs 576 GPUs) y opera entre múltiples proveedores.

Diferencias en la Filosofía de Diseño

NVLink optimiza para clústeres GPU densos y homogéneos donde el máximo ancho de banda entre aceleradores estrechamente empaquetados es lo más importante. La tecnología sobresale en sistemas DGX y racks NVL72 donde todos los componentes provienen de Nvidia.

UALink apunta a arquitecturas modulares a escala de rack donde las organizaciones mezclan aceleradores de diferentes proveedores o requieren clústeres lógicos más grandes. El estándar abierto permite que los AMD MI-series, Intel Gaudi y futuros aceleradores se comuniquen a través de un fabric común.

Posición Actual de AMD

Infinity Fabric de AMD conecta hasta ocho GPUs MI300X o MI355X en una malla completamente conectada. Cada MI300X tiene siete enlaces Infinity Fabric con 16 carriles por enlace, proporcionando aproximadamente 1.075 TB/s de ancho de banda peer-to-peer.

La limitación: escalar más allá de 8 GPUs requiere redes Ethernet. La hoja de ruta de AMD incluye AFL (Accelerated Fabric Link) funcionando sobre enlaces PCIe Gen7, además de la adopción de UALink para interoperabilidad multi-proveedor.

CXL 4.0: Memoria Sin Fronteras

El Problema del Muro de Memoria

Las cargas de trabajo de IA cada vez más golpean cuellos de botella de memoria antes que límites de cómputo. Los modelos de lenguaje grandes requieren terabytes de memoria para cachés KV durante la inferencia, mientras que las ejecuciones de entrenamiento demandan aún más para activaciones y estados del optimizador.

Las arquitecturas de servidor tradicionales conectan memoria directamente a las CPUs, creando capacidad varada cuando las cargas de trabajo varían. CXL desacopla la memoria del cómputo, habilitando asignación dinámica entre nodos.

Especificaciones de CXL 4.0

El Consorcio CXL publicó CXL 4.0 en Supercomputing 2025 el 18 de noviembre de 2025.

Especificación	CXL 3.0/3.1	CXL 4.0
Tasa de Señalización	64 GT/s	128 GT/s
Generación PCIe	PCIe 6.0	PCIe 7.0
Ancho de Banda	256 GB/s (x16)	512 GB/s (x16)
Retimers	2	4
Anchos de Enlace	x16, x8, x4, x1	x16, x8, x4, x2, x1
Topología	Single-rack	Multi-rack

Características Clave de CXL 4.0

Puertos Agrupados: CXL 4.0 introduce agregación de puertos permitiendo que hosts y dispositivos combinen múltiples puertos físicos en una única conexión lógica. Esto proporciona mayor ancho de banda mientras mantiene un modelo de software simple donde el sistema ve un solo dispositivo.

Alcance Extendido: Cuatro retimers permiten configuraciones multi-rack sin sacrificar la calidad de la señal. CXL 3.x limitaba los despliegues a topologías de un solo rack; CXL 4.0 extiende la agrupación de memoria a través de pasillos del centro de datos.

Capacidad de Memoria: La agrupación de memoria CXL permite más de 100 terabytes de memoria conectados a una sola CPU, valioso para organizaciones que minan grandes conjuntos de datos o ejecutan cargas de trabajo de IA intensivas en memoria.

Enlaces x2 Nativos: La nueva opción de ancho de enlace x2 reduce costos para aplicaciones que requieren ancho de banda moderado, mejorando la economía de CXL para despliegues en el borde.

Rendimiento de Agrupación de Memoria CXL

Demostraciones en CXL DevCon 2025 mostraron dos servidores con GPUs NVIDIA H100 ejecutando el modelo OPT-6.7B:

Configuración	Rendimiento
Pool de Memoria CXL	Línea base
RDMA 200G	3.8x más lento
RDMA 100G	6.5x más lento

CXL proporciona acceso con semántica de memoria con latencia en el rango de 200-500 ns, comparado con ~100 µs para NVMe y >10 ms para compartición de memoria basada en almacenamiento.

Ganancias de Potencia y Eficiencia

La investigación muestra que CXL puede [reducir el consumo de energía de memoria en un 20-30%](https://computeexpresslink.org/blog/over

UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU

Resumen Ejecutivo

El Panorama de Interconexión en 2025

Tecnologías de Interconexión Actuales

UALink 1.0: Rompiendo la Dependencia del Proveedor

Formación del Consorcio

Especificaciones Técnicas

UALink vs NVLink: Comparación Directa

Diferencias en la Filosofía de Diseño

Posición Actual de AMD

CXL 4.0: Memoria Sin Fronteras

El Problema del Muro de Memoria

Especificaciones de CXL 4.0

Características Clave de CXL 4.0

Rendimiento de Agrupación de Memoria CXL

Ganancias de Potencia y Eficiencia

You Might Also Like

Calculadora de ROI para Enfriamiento por Inmersión: Retorno ...

Corredor de IA del Reino Unido: El Centro de Computación Eme...

Eficiencia en el Uso del Agua: Refrigeración de Centros de D...

Solicitar Cotización_

Solicitud Recibida_