Guía de Planificación de Infraestructura CXL 4.0: Agrupación de Memoria para IA a Escala

Guía completa de implementación CXL 4.0 que cubre puertos agrupados, agrupación de memoria multi-rack, descarga de caché KV, ecosistema de proveedores y cronograma de planificación 2026-2027.

Blake Crosley

Mar 29, 2026 10 min read Disclaimer

Guía de Planificación de Infraestructura CXL 4.0: Agrupación de Memoria para IA a Escala

13 de diciembre de 2025

Actualización de diciembre de 2025: El Consorcio CXL lanzó CXL 4.0 el 18 de noviembre de 2025, duplicando el ancho de banda a 128 GT/s mediante PCIe 7.0 e introduciendo puertos agrupados para conexiones de 1.5 TB/s. Esta guía cubre la planificación de implementación para organizaciones que se preparan para implementar agrupación de memoria basada en CXL en su infraestructura de IA.

Resumen Ejecutivo

CXL 4.0 permite la agrupación de memoria a una escala sin precedentes, permitiendo que las cargas de trabajo de inferencia de IA accedan a más de 100 terabytes de memoria compartida con coherencia de caché a través de múltiples racks. Los puertos agrupados de la especificación agregan múltiples conexiones físicas en conexiones lógicas únicas que entregan 1.5 TB/s de ancho de banda. Para los planificadores de infraestructura, las decisiones clave implican entender cuándo adoptar CXL (2026-2027 para producción), qué productos evaluar ahora (switches CXL 2.0/3.0 en distribución), y cómo CXL complementa en lugar de reemplazar NVLink y UALink. Esta guía proporciona la profundidad técnica y los marcos de decisión necesarios para planificar implementaciones CXL.

El Problema del Muro de Memoria

Los modelos de lenguaje grandes enfrentan una restricción fundamental: la capacidad de memoria de la GPU. Las cargas de trabajo modernas de inferencia de IA rutinariamente exceden 80-120 GB por GPU, y la caché de clave-valor (KV) crece con la longitud del contexto.[^1] Una sola solicitud de inferencia con una ventana de contexto de 128K puede consumir decenas de gigabytes solo para el almacenamiento de caché KV.

El problema se intensifica a escala. Los pesos del modelo para LLMs de frontera consumen cientos de gigabytes. Los requisitos de caché KV crecen linealmente tanto con el tamaño del lote como con la longitud de la secuencia. La VRAM de la GPU permanece fija en 80GB (H100) o 192GB (B200).[^2]

Las soluciones tradicionales se quedan cortas:

Enfoque	Limitación
Agregar más GPUs	Aumento de costo lineal, memoria aún aislada por GPU
Descarga a NVMe	~100 μs de latencia, 100x más lento que DRAM
Compartición basada en RDMA	Aún 10-20 μs de latencia, redes complejas
Mayor memoria de GPU	Suministro limitado, costoso

CXL cambia esta ecuación al permitir la agrupación de memoria con latencia similar a DRAM (200-500 ns) a través del centro de datos.[^3]

Análisis Técnico Profundo de CXL 4.0

Evolución de CXL 1.0 a 4.0

CXL ha madurado rápidamente desde su introducción en 2019. Cada generación expandió las capacidades:

Generación	Lanzamiento	Base PCIe	Velocidad	Avance Clave
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Conexión de memoria coherente básica
CXL 2.0	2022	PCIe 5.0	32 GT/s	Conmutación, agrupación de memoria, multi-dispositivo
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Soporte de fabric, peer-to-peer, 4,096 nodos
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Puertos agrupados, multi-rack, RAS mejorado

CXL 2.0 introdujo el concepto fundamental de agrupación de memoria. Múltiples dispositivos de memoria Tipo 3 se conectan a un switch, formando un pool compartido desde el cual el switch asigna dinámicamente recursos a diferentes hosts.[^4] Esto permite mejoras en la utilización de memoria del típico 50-60% a más del 85% a través de un clúster.

CXL 3.0 añadió capacidades de fabric que soportan conmutación multinivel y hasta 4,096 nodos con enrutamiento basado en puertos (PBR).[^5] El cambio a FLITs de 256 bytes y los 64 GT/s de PCIe 6.0 duplicaron el ancho de banda disponible.

CXL 4.0 duplica el ancho de banda nuevamente mientras introduce características críticas para implementaciones de IA multi-rack.

Arquitectura de Puertos Agrupados

La característica más significativa de CXL 4.0 para computación de alto rendimiento: los puertos agrupados agregan múltiples puertos físicos de dispositivos CXL en una sola entidad lógica.[^6]

Cómo funcionan los puertos agrupados:

Un host y un dispositivo Tipo 1/2 combinan múltiples puertos físicos
El software del sistema ve un solo dispositivo a pesar de las múltiples conexiones físicas
El ancho de banda se agrega a través de todos los puertos agrupados
Optimizado para modo FLIT de 256 bytes, eliminando la sobrecarga heredada

Cálculos de ancho de banda:

Configuración	Dirección	Ancho de Banda
Puerto único x16 @ 128 GT/s	Unidireccional	256 GB/s
Puerto único x16 @ 128 GT/s	Bidireccional	512 GB/s
3 puertos agrupados x16 @ 128 GT/s	Unidireccional	768 GB/s
3 puertos agrupados x16 @ 128 GT/s	Bidireccional	1,536 GB/s

Para contexto, la memoria HBM3e en un H200 entrega 4.8 TB/s de ancho de banda.[^7] Una conexión CXL 4.0 agrupada a 1.5 TB/s representa aproximadamente el 30% de ese ancho de banda—suficiente para muchos casos de uso de expansión de memoria donde la capacidad importa más que el ancho de banda pico.

Fundamento PCIe 7.0

CXL 4.0 se construye sobre las mejoras de la capa física de PCIe 7.0:[^8]

Tasa de transferencia de 128 GT/s: El doble de los 64 GT/s de PCIe 6.0
Señalización PAM4: Mismo esquema de codificación que PCIe 6.0
FEC mejorado: Corrección de errores hacia adelante para integridad de señal
Soporte óptico: Permite conexiones de mayor alcance

La especificación retiene el formato FLIT de 256 bytes de CXL 3.x mientras añade una variante optimizada para latencia para operaciones sensibles al tiempo.[^9]

Capacidades de Fabric Multi-Rack

CXL 4.0 extiende el alcance a través de dos mecanismos:

Soporte para cuatro retimers: Las generaciones anteriores permitían dos retimers. Cuatro retimers permiten conexiones físicas más largas que abarcan múltiples racks sin degradación de señal.[^10]

Ancho x2 nativo: Anteriormente un modo de respaldo degradado, los enlaces x2 ahora operan a rendimiento completo. Esto permite configuraciones de mayor fan-out donde muchas conexiones de menor ancho de banda sirven a más endpoints.[^11]

Estas características se combinan para habilitar la "agrupación de memoria multi-rack"—una capacidad que el Consorcio CXL apunta explícitamente para implementación en producción a finales de 2026-2027.[^12]

Casos de Uso de CXL para Infraestructura de IA

Descarga de Caché KV para Inferencia de LLM

El caso de uso de mayor impacto a corto plazo: descargar la caché KV de la VRAM de la GPU a memoria conectada por CXL.

El problema: La inferencia de LLM con contextos largos genera cachés KV masivas. Un modelo de 70B parámetros con contexto de 128K y tamaño de lote de 32 puede requerir más de 150 GB solo para la caché KV.[^13] Esto excede la VRAM del H100, forzando costosas reducciones de tamaño de lote o múltiples GPUs.

La solución CXL: Almacenar la caché KV en memoria CXL agrupada mientras se mantienen las capas calientes en la VRAM de la GPU. XConn y MemVerge demostraron esto en SC25 y OCP 2025:[^14]

Dos GPUs H100 (80GB cada una) ejecutando OPT-6.7B
Caché KV descargada a pool de memoria CXL compartida
3.8x de aceleración vs RDMA de 200G
6.5x de aceleración vs RDMA de 100G
Mejora de >5x vs caché KV basada en SSD

La investigación académica confirma la oportunidad. PNM-KV (Processing-Near-Memory para caché KV) logra hasta 21.9x de mejora en throughput al descargar la selección de páginas de tokens a aceleradores dentro de la memoria CXL.[^15]

Expansión de Memoria para Entrenamiento

Las cargas de trabajo de entrenamiento se benefician de la capacidad de memoria expandida para:

Tamaños de lote más grandes: Más muestras por iteración sin acumulación de gradientes
Reducción de checkpointing de activaciones: Almacenar más activaciones en memoria vs recomputación
Estado del optimizador: El optimizador Adam requiere 2x parámetros para momentum/varianza

La expansión de memoria CXL permite que configuraciones de entrenamiento que anteriormente requerían distribución multi-nodo se ejecuten en nodos únicos, reduciendo la sobrecarga de comunicación.

Cargas de Trabajo Científicas y HPC

El proyecto Crete de PNNL usa pools CXL para compartición de memoria de alto throughput a través de nodos de cómputo en simulaciones científicas.[^16] Los casos de uso incluyen:

Dinámica molecular con grandes listas de vecinos
Análisis de grafos en conjuntos de datos de billones de aristas
Bases de datos en memoria que exceden la capacidad de un solo servidor

El Panorama de Interconexiones

CXL vs NVLink vs UALink

Entender dónde encaja CXL requiere reconocer que estas tecnologías sirven propósitos diferentes:

Estándar	Propósito Principal	Mejor Para
CXL	Coherencia de memoria + agrupación	Expansión de memoria CPU, pools de memoria compartida
NVLink	Escalamiento GPU-a-GPU	Comunicación GPU dentro del nodo
UALink	Interconexión de aceleradores	Alternativa de estándar abierto a NVLink
Ultra Ethernet	Redes de escalamiento	Multi-rack, 10,000+ endpoints

CXL funciona sobre SerDes PCIe: menor tasa de error, menor latencia, pero menor ancho de banda que el SerDes estilo Ethernet de NVLink/UALink.[^17] NVLink 5 entrega 1.8 TB/s por GPU—excediendo con creces los 512 GB/s por puerto x16 de CXL 4.0.[^18]

Las tecnologías se complementan en lugar de competir:

Dentro de un nodo GPU: NVLink conecta GPUs
Entre nodos: UALink o InfiniBand/Ethernet
Expansión de memoria: CXL añade capacidad a CPUs y aceleradores
Pools de memoria a nivel de fabric: Los switches CXL permiten compartición entre hosts

Panmnesia propone arquitecturas "CXL-over-XLink" que integran las tres, reportando entrenamiento de IA 5.3x más rápido y reducción de latencia de inferencia de 6x vs líneas base PCIe/RDMA.[^19]

Marco de Decisión: Cuándo Usar Qué

Escenario	Interconexión Recomendada	Justificación
Entrenamiento multi-GPU dentro del servidor	NVLink	Mayor ancho de banda, menor latencia
Pod de inferencia multi-GPU (no NVIDIA)	UALink	Estándar abierto, alto ancho de banda
Expandir memoria más allá de VRAM	CXL	Coherencia de caché, latencia similar a DRAM
Clúster GPU multi-rack	InfiniBand o Ultra Ethernet	Diseñado para escalamiento
Pool de memoria compartida entre servidores	Switches CXL	Agrupación de memoria con coherencia
China/mercados restringidos	Considerar UB-Mesh	Evita dependencias de IP occidental

Ecosistema CXL: Proveedores y Productos

Expansores de Memoria

Los tres principales fabricantes de DRAM envían expansores de memoria CXL:

Proveedor	Producto	Capacidad	Interfaz	Estado
Samsung	CMM-D	256 GB	CXL 2.0	Producción masiva 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Producción masiva finales 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Muestreo[^22]
SK Hynix	CMS	512 GB	CXL (habilitado para cómputo)	Anunciado[^23]

El CMS (Computational Memory Solution) de SK Hynix añade capacidades de cómputo directamente en el módulo de memoria—una implementación temprana de procesamiento cercano a memoria para CXL.

Proveedores de Switches

Los switches CXL permiten la agrupación de memoria entre múltiples hosts:

Proveedor	Producto	Generación	Estado	Característica Clave
XConn	XC50256	CXL 2.0	En distribución	Switch de 256 lanes, primero en el mercado[^24]
XConn	Apollo	CXL 2.0	En distribución	Demostraciones de agrupación de memoria en SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Muestreo Nov 2025	Primera implementación PBR[^26]
Astera Labs	Leo	CXL 2.0	En distribución	Controlador de memoria inteligente[^27]
Microchip	SMC 2000	CXL 2.0	En distribución	Controlador de expansión de memoria[^28]

El Fabric Switch CXL 3.2 de Panmnesia representa un salto generacional: primer silicio implementando enrutamiento basado en puertos para arquitecturas de fabric verdaderas con hasta 4,096 nodos.[^29]

Proveedores de Controladores

Los controladores de memoria CXL traducen entre el protocolo CXL y DRAM:

Proveedor	Rol	Productos Clave
Marvell	Controlador	Controladores CXL Structera[^30]
Montage	Controlador	Chips buffer de memoria CXL
Astera Labs	Controlador	Controlador de memoria inteligente Leo
Microchip	Controlador	Serie SMC 2000

Structera de Marvell completó pruebas de interoperabilidad con los tres principales proveedores de memoria (Samsung, Micron, SK Hynix) en plataformas Intel y AMD.[^31]

Guía de Planificación de Implementación

Cronograma

Período	Generación CXL	Capacidad Esperada	Recomendación
Ahora-Q2 2026	CXL 2.0	Expansión de memoria, agrupación básica	Evaluación para producción
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodos	Adopción temprana para IA
2027+	CXL 4.0	Agrupación multi-rack, 1.5 TB/s	La planificación comienza ahora

ABI Research espera soluciones CXL 3.0/3.1 con suficiente soporte de software para adopción comercial para 2027.[^32]

Qué Evaluar Ahora

Inmediato (2025): 1. Probar expansores de memoria CXL 2.0 en servidores existentes Intel Sapphire Rapids o AMD EPYC Genoa 2. Evaluar switches XConn o Astera Labs para agrupación de memoria

[Contenido truncado para traducción]

Guía de Planificación de Infraestructura CXL 4.0: Agrupación de Memoria para IA a Escala

Resumen Ejecutivo

El Problema del Muro de Memoria

Análisis Técnico Profundo de CXL 4.0

Evolución de CXL 1.0 a 4.0

Arquitectura de Puertos Agrupados

Fundamento PCIe 7.0

Capacidades de Fabric Multi-Rack

Casos de Uso de CXL para Infraestructura de IA

Descarga de Caché KV para Inferencia de LLM

Expansión de Memoria para Entrenamiento

Cargas de Trabajo Científicas y HPC

El Panorama de Interconexiones

CXL vs NVLink vs UALink

Marco de Decisión: Cuándo Usar Qué

Ecosistema CXL: Proveedores y Productos

Expansores de Memoria

Proveedores de Switches

Proveedores de Controladores

Guía de Planificación de Implementación

Cronograma

Qué Evaluar Ahora

You Might Also Like

Malasia y Tailandia: Centros Emergentes de Data Centers de I...

El Auge de $27B en Infraestructura de IA de Singapur: Oportu...

Backup y Recuperación para AI: Protegiendo Datos de Entrenam...

Solicitar Cotización_

Solicitud Recibida_