UALink y CXL 4.0: Los Estándares Abiertos que Están Transformando la Arquitectura de Clústeres GPU
La especificación UALink 1.0 publicada en abril de 2025 permite escalar hasta 1,024 aceleradores en un único fabric, desafiando directamente el ecosistema propietario NVLink y NVSwitch de Nvidia. Siete meses después, el Consorcio CXL publicó CXL 4.0 el 18 de noviembre de 2025, duplicando el ancho de banda a 128 GT/s y habilitando la agrupación de memoria multi-rack. Juntos, estos estándares abiertos representan el desafío más significativo al dominio de interconexión de Nvidia desde que la compañía introdujo NVLink en 2016.
Resumen Ejecutivo
UALink 1.0 ofrece 200 GT/s por carril con soporte para hasta 1,024 aceleradores, comparado con el máximo de 576 GPUs de NVLink. CXL 4.0 duplica el ancho de banda de memoria a 128 GT/s e introduce puertos agrupados para cargas de trabajo de IA que requieren memoria compartida a escala de terabytes. El hardware compatible con UALink llegará a finales de 2026 de AMD, Intel y Astera Labs, mientras que los despliegues multi-rack de CXL 4.0 apuntan a 2027. Para los equipos de infraestructura que planifican clústeres GPU de próxima generación, estas especificaciones señalan un cambio hacia arquitecturas independientes del proveedor que reducen la dependencia mientras permiten una escala sin precedentes.
El Panorama de Interconexión en 2025
Las interconexiones GPU determinan cuán efectivamente escalan los clústeres de IA. Cuanto más rápido puedan intercambiar datos los aceleradores, más grandes serán los modelos que pueden entrenar y más eficientemente pueden servir solicitudes de inferencia.
Tecnologías de Interconexión Actuales
| Tecnología | Propietario | Ancho de Banda | Escala Máx. | Estado |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1.8 TB/s por GPU | 576 GPUs | Producción (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s por GPU | 256 GPUs | Producción (Hopper) |
| Infinity Fabric | AMD | ~1.075 TB/s por tarjeta | 8 GPUs (malla directa) | Producción (MI300X) |
| UALink 1.0 | Consorcio | 800 GB/s (4 carriles) | 1,024 aceleradores | Especificación publicada abril 2025 |
| CXL 4.0 | Consorcio | 128 GT/s | Multi-rack | Especificación publicada nov 2025 |
NVLink de Nvidia domina los despliegues en producción, pero el sistema GB200 NVL72 ejemplifica tanto su potencia como sus limitaciones: 72 GPUs Blackwell interconectadas con 130 TB/s de ancho de banda agregado, pero exclusivamente dentro del ecosistema propietario de Nvidia.
UALink 1.0: Rompiendo la Dependencia del Proveedor
Formación del Consorcio
El Consorcio Ultra Accelerator Link se incorporó en octubre de 2024 con miembros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta y Microsoft. El esfuerzo se basa en el trabajo que AMD y Broadcom anunciaron en diciembre de 2023.
Para enero de 2025, Alibaba Cloud, Apple y Synopsys se unieron a nivel de junta directiva, elevando la membresía total a 75 organizaciones.
Especificaciones Técnicas
La Especificación UALink 200G 1.0 define una interconexión de baja latencia y alto ancho de banda para comunicación entre aceleradores y switches en pods de computación de IA.
| Especificación | UALink 1.0 |
|---|---|
| Tasa de Datos por Carril | 200 GT/s bidireccional |
| Tasa de Señalización | 212.5 GT/s (con overhead de FEC) |
| Anchos de Enlace | x1, x2, x4 |
| Ancho de Banda Máximo | 800 GB/s (config x4) |
| Escala Máxima | 1,024 aceleradores |
| Longitud de Cable | <4 metros optimizado |
| Objetivo de Latencia | <1 µs ida y vuelta (payloads de 64B/640B) |
Los switches UALink asignan un puerto por acelerador y utilizan identificadores únicos de 10 bits para enrutamiento preciso a través del fabric.
UALink vs NVLink: Comparación Directa
| Métrica | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Ancho de Banda por GPU | 800 GB/s | 900 GB/s | 1.8 TB/s |
| Enlaces por GPU | 4 | 18 | 18 |
| GPUs Máximas | 1,024 | 256 | 576 |
| Dependencia del Proveedor | Estándar abierto | Solo Nvidia | Solo Nvidia |
| Disponibilidad de Hardware | Finales 2026/2027 | Producción | Producción |
NVLink 5.0 ofrece más de 3x el ancho de banda por conexión que UALink 1.0 (2,538 GB/s vs 800 GB/s). Sin embargo, UALink soporta casi 2x el tamaño máximo de clúster (1,024 vs 576 GPUs) y opera entre múltiples proveedores.
Diferencias en la Filosofía de Diseño
NVLink optimiza para clústeres GPU densos y homogéneos donde el máximo ancho de banda entre aceleradores estrechamente empaquetados es lo más importante. La tecnología sobresale en sistemas DGX y racks NVL72 donde todos los componentes provienen de Nvidia.
UALink apunta a arquitecturas modulares a escala de rack donde las organizaciones mezclan aceleradores de diferentes proveedores o requieren clústeres lógicos más grandes. El estándar abierto permite que los AMD MI-series, Intel Gaudi y futuros aceleradores se comuniquen a través de un fabric común.
Posición Actual de AMD
Infinity Fabric de AMD conecta hasta ocho GPUs MI300X o MI355X en una malla completamente conectada. Cada MI300X tiene siete enlaces Infinity Fabric con 16 carriles por enlace, proporcionando aproximadamente 1.075 TB/s de ancho de banda peer-to-peer.
La limitación: escalar más allá de 8 GPUs requiere redes Ethernet. La hoja de ruta de AMD incluye AFL (Accelerated Fabric Link) funcionando sobre enlaces PCIe Gen7, además de la adopción de UALink para interoperabilidad multi-proveedor.
CXL 4.0: Memoria Sin Fronteras
El Problema del Muro de Memoria
Las cargas de trabajo de IA cada vez más golpean cuellos de botella de memoria antes que límites de cómputo. Los modelos de lenguaje grandes requieren terabytes de memoria para cachés KV durante la inferencia, mientras que las ejecuciones de entrenamiento demandan aún más para activaciones y estados del optimizador.
Las arquitecturas de servidor tradicionales conectan memoria directamente a las CPUs, creando capacidad varada cuando las cargas de trabajo varían. CXL desacopla la memoria del cómputo, habilitando asignación dinámica entre nodos.
Especificaciones de CXL 4.0
El Consorcio CXL publicó CXL 4.0 en Supercomputing 2025 el 18 de noviembre de 2025.
| Especificación | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Tasa de Señalización | 64 GT/s | 128 GT/s |
| Generación PCIe | PCIe 6.0 | PCIe 7.0 |
| Ancho de Banda | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimers | 2 | 4 |
| Anchos de Enlace | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Topología | Single-rack | Multi-rack |
Características Clave de CXL 4.0
Puertos Agrupados: CXL 4.0 introduce agregación de puertos permitiendo que hosts y dispositivos combinen múltiples puertos físicos en una única conexión lógica. Esto proporciona mayor ancho de banda mientras mantiene un modelo de software simple donde el sistema ve un solo dispositivo.
Alcance Extendido: Cuatro retimers permiten configuraciones multi-rack sin sacrificar la calidad de la señal. CXL 3.x limitaba los despliegues a topologías de un solo rack; CXL 4.0 extiende la agrupación de memoria a través de pasillos del centro de datos.
Capacidad de Memoria: La agrupación de memoria CXL permite más de 100 terabytes de memoria conectados a una sola CPU, valioso para organizaciones que minan grandes conjuntos de datos o ejecutan cargas de trabajo de IA intensivas en memoria.
Enlaces x2 Nativos: La nueva opción de ancho de enlace x2 reduce costos para aplicaciones que requieren ancho de banda moderado, mejorando la economía de CXL para despliegues en el borde.
Rendimiento de Agrupación de Memoria CXL
Demostraciones en CXL DevCon 2025 mostraron dos servidores con GPUs NVIDIA H100 ejecutando el modelo OPT-6.7B:
| Configuración | Rendimiento |
|---|---|
| Pool de Memoria CXL | Línea base |
| RDMA 200G | 3.8x más lento |
| RDMA 100G | 6.5x más lento |
CXL proporciona acceso con semántica de memoria con latencia en el rango de 200-500 ns, comparado con ~100 µs para NVMe y >10 ms para compartición de memoria basada en almacenamiento.
Ganancias de Potencia y Eficiencia
La investigación muestra que CXL puede [reducir el consumo de energía de memoria en un 20-30%](https://computeexpresslink.org/blog/over