Guía de Planificación de Infraestructura CXL 4.0: Memory Pooling para AI a Escala
13 de diciembre de 2025
Actualización diciembre 2025: El CXL Consortium lanzó CXL 4.0 el 18 de noviembre de 2025, duplicando el ancho de banda a 128 GT/s mediante PCIe 7.0 e introduciendo puertos agrupados para conexiones de 1.5 TB/s. Esta guía cubre la planificación de implementación para organizaciones que se preparan para implementar memory pooling basado en CXL en su infraestructura de AI.
Resumen Ejecutivo
CXL 4.0 permite memory pooling a escala sin precedentes, permitiendo que las cargas de trabajo de inferencia de AI accedan a más de 100 terabytes de memoria compartida con coherencia de caché a través de múltiples racks. Los puertos agrupados de la especificación agregan múltiples conexiones físicas en una sola conexión lógica que entrega 1.5 TB/s de ancho de banda. Para los planificadores de infraestructura, las decisiones clave involucran entender cuándo adoptar CXL (2026-2027 para producción), qué productos evaluar ahora (switches CXL 2.0/3.0 disponibles), y cómo CXL complementa en lugar de reemplazar a NVLink y UALink. Esta guía proporciona la profundidad técnica y marcos de decisión necesarios para planificar implementaciones de CXL.
El Problema del Muro de Memoria
Los modelos de lenguaje grandes enfrentan una limitación fundamental: la capacidad de memoria GPU. Las cargas de trabajo modernas de inferencia de AI rutinariamente exceden 80-120 GB por GPU, y el caché key-value (KV) crece con la longitud del contexto.[^1] Una sola solicitud de inferencia con una ventana de contexto de 128K puede consumir decenas de gigabytes solo para el almacenamiento del KV cache.
El problema se intensifica a escala. Los pesos del modelo para LLMs de frontera consumen cientos de gigabytes. Los requisitos del KV cache crecen linealmente tanto con el tamaño del lote como con la longitud de la secuencia. La VRAM de GPU permanece fija en 80GB (H100) o 192GB (B200).[^2]
Las soluciones tradicionales se quedan cortas:
| Enfoque | Limitación |
|---|---|
| Agregar más GPUs | Aumento de costo lineal, memoria sigue aislada por GPU |
| Descarga NVMe | ~100 μs de latencia, 100x más lenta que DRAM |
| Compartición basada en RDMA | Todavía 10-20 μs de latencia, redes complejas |
| Mayor memoria GPU | Limitado por suministro, costoso |
CXL cambia esta ecuación habilitando memory pooling con latencia similar a DRAM (200-500 ns) a través del centro de datos.[^3]
Análisis Técnico Profundo de CXL 4.0
Evolución de CXL 1.0 a 4.0
CXL ha madurado rápidamente desde su introducción en 2019. Cada generación expandió capacidades:
| Generación | Lanzamiento | Base PCIe | Velocidad | Avance Clave |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Conexión básica de memoria coherente |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Conmutación, memory pooling, multi-dispositivo |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Soporte de fabric, peer-to-peer, 4,096 nodos |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Puertos agrupados, multi-rack, RAS mejorado |
CXL 2.0 introdujo el concepto fundamental de memory pooling. Múltiples dispositivos de memoria Type 3 se conectan a un switch, formando un pool compartido desde el cual el switch asigna dinámicamente recursos a diferentes hosts.[^4] Esto permite mejoras en la utilización de memoria del típico 50-60% a 85%+ en un clúster.
CXL 3.0 agregó capacidades de fabric que soportan conmutación multi-nivel y hasta 4,096 nodos con enrutamiento basado en puertos (PBR).[^5] El cambio a FLITs de 256 bytes y los 64 GT/s de PCIe 6.0 duplicaron el ancho de banda disponible.
CXL 4.0 duplica el ancho de banda nuevamente mientras introduce características críticas para implementaciones de AI multi-rack.
Arquitectura de Puertos Agrupados
La característica más significativa de CXL 4.0 para computación de alto rendimiento: los puertos agrupados agregan múltiples puertos físicos de dispositivos CXL en una sola entidad lógica.[^6]
Cómo funcionan los puertos agrupados:
- Un host y dispositivo Type 1/2 combinan múltiples puertos físicos
- El software del sistema ve un solo dispositivo a pesar de múltiples conexiones físicas
- El ancho de banda se agrega a través de todos los puertos agrupados
- Optimizado para modo FLIT de 256 bytes, eliminando overhead heredado
Cálculos de ancho de banda:
| Configuración | Dirección | Ancho de Banda |
|---|---|---|
| Puerto único x16 @ 128 GT/s | Unidireccional | 256 GB/s |
| Puerto único x16 @ 128 GT/s | Bidireccional | 512 GB/s |
| 3 puertos agrupados x16 @ 128 GT/s | Unidireccional | 768 GB/s |
| 3 puertos agrupados x16 @ 128 GT/s | Bidireccional | 1,536 GB/s |
Para contexto, la memoria HBM3e en un H200 entrega 4.8 TB/s de ancho de banda.[^7] Una conexión CXL 4.0 agrupada a 1.5 TB/s representa aproximadamente 30% de ese ancho de banda—suficiente para muchos casos de uso de expansión de memoria donde la capacidad importa más que el ancho de banda pico.
Fundación PCIe 7.0
CXL 4.0 se basa en las mejoras de la capa física de PCIe 7.0:[^8]
- Tasa de transferencia 128 GT/s: Duplica los 64 GT/s de PCIe 6.0
- Señalización PAM4: El mismo esquema de codificación que PCIe 6.0
- FEC mejorado: Corrección de errores hacia adelante para integridad de señal
- Soporte óptico: Habilita conexiones de mayor alcance
La especificación mantiene el formato FLIT de 256 bytes de CXL 3.x mientras agrega una variante optimizada para latencia para operaciones sensibles al tiempo.[^9]
Capacidades de Fabric Multi-Rack
CXL 4.0 extiende el alcance a través de dos mecanismos:
Cuatro retimers soportados: Las generaciones anteriores permitían dos retimers. Cuatro retimers habilitan conexiones físicas más largas que abarcan múltiples racks sin degradación de señal.[^10]
Ancho nativo x2: Anteriormente un modo de respaldo degradado, los enlaces x2 ahora operan a rendimiento completo. Esto habilita configuraciones de mayor fan-out donde muchas conexiones de menor ancho de banda sirven más endpoints.[^11]
Estas características se combinan para habilitar "memory pooling multi-rack"—una capacidad que el CXL Consortium apunta explícitamente para implementación en producción a finales de 2026-2027.[^12]
Casos de Uso de CXL para Infraestructura de AI
Descarga de KV Cache para Inferencia LLM
El caso de uso de mayor impacto a corto plazo: descargar KV cache de VRAM GPU a memoria conectada por CXL.
El problema: La inferencia LLM con contextos largos genera cachés KV masivos. Un modelo de 70B parámetros con contexto 128K y tamaño de lote 32 puede requerir 150+ GB solo para KV cache.[^13] Esto excede la VRAM del H100, forzando reducciones costosas del tamaño de lote o múltiples GPUs.
La solución CXL: Almacenar KV cache en pools de memoria CXL mientras se mantienen las capas calientes en VRAM GPU. XConn y MemVerge demostraron esto en SC25 y OCP 2025:[^14]
- Dos GPUs H100 (80GB cada una) ejecutando OPT-6.7B
- KV cache descargado a pool de memoria CXL compartido
- Aceleración 3.8x vs RDMA 200G
- Aceleración 6.5x vs RDMA 100G
- Mejora >5x vs KV cache basado en SSD
Investigación académica confirma la oportunidad. PNM-KV (Processing-Near-Memory para KV cache) logra hasta 21.9x mejora en throughput descargando selección de páginas de token a aceleradores dentro de memoria CXL.[^15]
Expansión de Memoria para Entrenamiento
Las cargas de trabajo de entrenamiento se benefician de capacidad de memoria expandida para:
- Tamaños de lote más grandes: Más muestras por iteración sin acumulación de gradientes
- Reducción de checkpointing de activación: Almacenar más activaciones en memoria vs recomputación
- Estado del optimizador: El optimizador Adam requiere 2x parámetros para momentum/variance
La expansión de memoria CXL habilita configuraciones de entrenamiento que anteriormente requerían distribución multi-nodo para ejecutarse en nodos únicos, reduciendo overhead de comunicación.
Cargas de Trabajo Científicas y HPC
El proyecto Crete de PNNL usa pools CXL para compartición de memoria de alto throughput a través de nodos de cómputo en simulaciones científicas.[^16] Los casos de uso incluyen:
- Dinámica molecular con listas de vecinos grandes
- Analítica de grafos en datasets de billones de aristas
- Bases de datos en memoria que exceden la capacidad de servidor único
El Panorama de Interconexión
CXL vs NVLink vs UALink
Entender dónde encaja CXL requiere reconocer que estas tecnologías sirven propósitos diferentes:
| Estándar | Propósito Principal | Mejor Para |
|---|---|---|
| CXL | Coherencia de memoria + pooling | Expansión CPU-memoria, pools de memoria compartida |
| NVLink | Escalado GPU-a-GPU | Comunicación GPU dentro del nodo |
| UALink | Interconexión de aceleradores | Alternativa estándar abierta a NVLink |
| Ultra Ethernet | Redes scale-out | Multi-rack, 10,000+ endpoints |
CXL funciona en SerDes PCIe: menor tasa de error, menor latencia, pero menor ancho de banda que los SerDes estilo Ethernet de NVLink/UALink.[^17] NVLink 5 entrega 1.8 TB/s por GPU—excediendo por mucho los 512 GB/s por puerto x16 de CXL 4.0.[^18]
Las tecnologías se complementan en lugar de competir:
- Dentro de un nodo GPU: NVLink conecta GPUs
- Entre nodos: UALink o InfiniBand/Ethernet
- Expansión de memoria: CXL agrega capacidad a CPUs y aceleradores
- Pools de memoria fabric-wide: Los switches CXL habilitan compartición entre hosts
Panmnesia propone arquitecturas "CXL-over-XLink" integrando las tres, reportando entrenamiento de AI 5.3x más rápido y reducción de latencia de inferencia 6x vs líneas base PCIe/RDMA.[^19]
Marco de Decisión: Cuándo Usar Qué
| Escenario | Interconexión Recomendada | Fundamento |
|---|---|---|
| Entrenamiento multi-GPU dentro del servidor | NVLink | Mayor ancho de banda, menor latencia |
| Pod de inferencia multi-GPU (no-NVIDIA) | UALink | Estándar abierto, alto ancho de banda |
| Expandir memoria más allá de VRAM | CXL | Coherencia de caché, latencia similar a DRAM |
| Clúster GPU multi-rack | InfiniBand o Ultra Ethernet | Diseñado para scale-out |
| Pool de memoria compartida entre servidores | Switches CXL | Memory pooling con coherencia |
| Mercados de China/restringidos | Considerar UB-Mesh | Evita dependencias de IP occidental |
Ecosistema CXL: Proveedores y Productos
Expansores de Memoria
Los tres principales fabricantes de DRAM envían expansores de memoria CXL:
| Proveedor | Producto | Capacidad | Interfaz | Estado |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Producción masiva 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Producción masiva finales 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Muestreo[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Anunciado[^23] |
El CMS (Computational Memory Solution) de SK Hynix agrega capacidades de cómputo directamente en el módulo de memoria—una implementación temprana de processing-near-memory para CXL.
Proveedores de Switches
Los switches CXL habilitan memory pooling entre múltiples hosts:
| Proveedor | Producto | Generación | Estado | Característica Clave |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Enviando | Switch de 256 carriles, primero en el mercado[^24] |
| XConn | Apollo | CXL 2.0 | Enviando | Demostraciones de memory pooling en SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Muestreo Nov 2025 | Primera implementación PBR[^26] |
| Astera Labs | Leo | CXL 2.0 | Enviando | Controlador de memoria inteligente[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Enviando | Controlador de expansión de memoria[^28] |
El CXL 3.2 Fabric Switch de Panmnesia representa un salto generacional: primer silicio implementando enrutamiento basado en puertos para verdaderas arquitecturas de fabric con hasta 4,096 nodos.[^29]
Proveedores de Controladores
Los controladores de memoria CXL traducen entre el protocolo CXL y DRAM:
| Proveedor | Rol | Productos Clave |
|---|---|---|
| Marvell | Controlador | Controladores CXL Structera[^30] |
| Montage | Controlador | Chips buffer de memoria CXL |
| Astera Labs | Controlador | Controlador de memoria inteligente Leo |
| Microchip | Controlador | Serie SMC 2000 |
El Structera de Marvell completó pruebas de interoperabilidad con los tres principales proveedores de memoria (Samsung, Micron, SK Hynix) en plataformas tanto Intel como AMD.[^31]
Guía de Planificación de Implementación
Cronograma
| Período | Generación CXL | Capacidad Esperada | Recomendación |
|---|---|---|---|
| Ahora-Q2 2026 | CXL 2.0 | Expansión de memoria, pooling básico | Evaluación en producción |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nodos | Adopción temprana para AI |
| 2027+ | CXL 4.0 | Pooling multi-rack, 1.5 TB/s | Planificación comienza ahora |
ABI Research espera soluciones CXL 3.0/3.1 con suficiente soporte de software para adopción comercial para 2027.[^32]
Qué Evaluar Ahora
Inmediato (2025): 1. Probar expansores de memoria CXL 2.0 en servidores existentes Intel Sapphire Rapids o AMD EPYC Genoa 2. Evaluar switches XConn o Astera Labs para memory pooling