Expansión de Memoria CXL: Rompiendo la Barrera de Memoria en Centros de Datos de IA

Microsoft lanzando las primeras instancias en la nube equipadas con CXL en noviembre de 2025. La especificación CXL 4.0 duplica el ancho de banda a 128GT/s. El mercado de CXL proyectado en $15 mil millones para 2028 ($12 mil millones+ en DRAM detrás de CXL). KV cache habilitado por CXL...

Expansión de Memoria CXL: Rompiendo la Barrera de Memoria en Centros de Datos de IA

Expansión de Memoria CXL: Rompiendo la Barrera de Memoria en Centros de Datos de IA

Actualizado el 11 de diciembre de 2025

Actualización de diciembre de 2025: Microsoft lanzando las primeras instancias en la nube equipadas con CXL en noviembre de 2025. La especificación CXL 4.0 duplica el ancho de banda a 128GT/s. El mercado de CXL proyectado en $15 mil millones para 2028 ($12 mil millones+ en DRAM detrás de CXL). KV cache habilitado por CXL ofreciendo mejora de rendimiento de 21.9x, 60x menor energía por token. Pools de CXL comerciales alcanzando 100TiB en 2025.

Los cuellos de botella de memoria matan el rendimiento de la IA. Los grandes modelos de lenguaje rutinariamente exceden de 80 a 120GB por GPU solo para el KV cache, sobrepasando incluso los aceleradores más costosos equipados con HBM.¹ La tecnología de expansión de memoria Compute Express Link (CXL) aborda directamente la crisis de capacidad de memoria al permitir que los servidores accedan a pools de memoria más allá de los límites de DRAM conectada a la CPU. Con Microsoft lanzando las primeras instancias en la nube equipadas con CXL de la industria en noviembre de 2025 y la especificación CXL 4.0 duplicando el ancho de banda a 128GT/s, las arquitecturas de memoria desagregada transicionan de concepto de investigación a realidad de producción.²

El mercado refleja la urgencia. Las proyecciones de ingresos del mercado CXL alcanzan los $15 mil millones para 2028, con DRAM detrás de CXL esperada a constituir más de $12 mil millones de ese total.³ Para las organizaciones que despliegan infraestructura de IA a escala, entender las capacidades de expansión de memoria CXL determina si los sistemas pueden manejar cargas de trabajo de próxima generación sin actualizaciones constantes de hardware.

Cómo funciona realmente la expansión de memoria CXL

CXL opera como un protocolo de interconexión con coherencia de caché que se ejecuta sobre capas físicas PCIe estándar. La tecnología mantiene coherencia completa entre las cachés de CPU y los dispositivos de memoria externos, permitiendo que las aplicaciones accedan a la memoria conectada por CXL con el mismo modelo de programación que la DRAM local.⁴ Tres subtipos de protocolo manejan diferentes interacciones de dispositivos: CXL.io gestiona transacciones estilo PCIe, CXL.cache permite que los dispositivos almacenen en caché la memoria del host, y CXL.mem permite que los hosts accedan a la memoria conectada a dispositivos.⁵

Los dispositivos expansores de memoria, designados como CXL Type-3, conectan módulos DDR5 a servidores a través de ranuras PCIe o factores de forma EDSFF. Los controladores CXL modernos añaden aproximadamente 70 nanosegundos de latencia comparado con DRAM directamente conectada.⁶ Aunque sustancial, la latencia de memoria CXL es de 20x a 50x más rápida que el almacenamiento NVMe, llenando un nivel de rendimiento crítico entre la memoria rápida del host y el acceso lento a disco.⁷

La evolución de la especificación se aceleró rápidamente. CXL 2.0 introdujo el pooling de memoria, permitiendo que múltiples hosts accedan a dispositivos de memoria comunes con asignaciones distintas.⁸ CXL 3.0 habilitó la memoria compartida verdadera, donde múltiples hosts acceden simultáneamente al mismo segmento de memoria con vistas de datos consistentes.⁹ El lanzamiento de noviembre de 2025 de CXL 4.0 duplicó el ancho de banda de 64GT/s a 128GT/s mientras mantenía el formato FLIT de 256 bytes, habilitando hasta 1.536TB/s de ancho de banda bidireccional total en enlaces x16 a través de la nueva función de puertos agrupados.¹⁰

El pooling de memoria transforma la economía de los servidores

Las arquitecturas de servidor tradicionales fuerzan a los operadores a difíciles compromisos. Los requisitos de memoria varían dramáticamente entre cargas de trabajo, sin embargo los servidores se envían con configuraciones de DRAM fijas. La memoria promedia alrededor del 30% del valor del servidor en 2022 y las proyecciones empujan esa cifra por encima del 40% para 2025.¹¹ Las organizaciones rutinariamente sobreaprovisionan memoria para manejar cargas pico, dejando DRAM costosa varada durante períodos de utilización promedio.

El pooling de memoria CXL cambia fundamentalmente la ecuación. Múltiples servidores comparten acceso a pools de memoria centralizados, asignando capacidad dinámicamente basándose en demandas de carga de trabajo en tiempo real. Microsoft encontró que adoptar pooling de memoria basado en CXL podría reducir la memoria total necesaria en alrededor del 10%, generando una reducción del 5% en el costo general del servidor.¹² SMART Modular Technologies estima que emparejar DIMMs más baratos con tarjetas adicionales CXL proporciona hasta 40% de ahorro para configuraciones de 1TB de memoria comparado con actualizar a CPUs que soportan más RAM.¹³

Los sistemas híbridos DRAM-CXL logran 95-100% del rendimiento de configuraciones de DRAM pura mientras reducen los costos de memoria en 50% a través de compresión y pooling eficiente.¹⁴ El caso económico se fortalece a medida que los precios de memoria permanecen elevados debido a que la demanda de HBM consume capacidad de producción de DRAM. Los costos crecientes de DRAM empujan a las empresas hacia software de eficiencia de memoria y soluciones de expansión basadas en CXL como alternativas a costosas actualizaciones de memoria.¹⁵

Las cargas de trabajo de inferencia de IA impulsan la adopción de CXL

La inferencia de grandes modelos de lenguaje crea la demanda más urgente de capacidad de memoria expandida. Los requisitos de almacenamiento del KV cache escalan linealmente con la longitud del contexto, y los modelos modernos que soportan contextos de múltiples millones de tokens generan tamaños de caché que exceden la memoria de GPU por completo. La investigación demuestra que la gestión de KV cache habilitada por CXL ofrece hasta 21.9x de mejora en rendimiento, 60x menor energía por token, y 7.3x mejor eficiencia de costo total comparado con implementaciones base.¹⁶

XConn Technologies y MemVerge demostraron en Supercomputing 2025 cómo las cargas de trabajo de inferencia de IA pueden descargar y compartir recursos masivos de KV cache dinámicamente entre GPUs y CPUs. La demostración logró más del 5x de mejoras de rendimiento comparado con caché basado en SSD o descarga de KV cache basada en RDMA.¹⁷ Comparado con alternativas basadas en red, el pool de memoria CXL logró 3.8x de aceleración sobre 200G RDMA y 6.5x de aceleración sobre 100G RDMA para cargas de trabajo de inferencia.¹⁸

Los pools de memoria CXL comerciales alcanzando 100TiB estuvieron disponibles en 2025, con despliegues aún más grandes planificados para 2026.¹⁹ Astera Labs demostró en OCP Global Summit 2025 cómo los Leo CXL Smart Memory Controllers eliminan los cuellos de botella de infraestructura de IA, logrando 3x instancias concurrentes de LLM a mayor rendimiento y 3x menor latencia con CXL.²⁰ SK Hynix mostró una máquina de IA centrada en memoria conectando múltiples servidores y GPUs sin redes tradicionales, soportando tareas de inferencia distribuida a través de tecnología de memoria pooled CXL.²¹

Más allá de la inferencia, la expansión de memoria CXL beneficia sistemas de recomendación, bases de datos en memoria y análisis de grafos. El sistema de memoria desagregada basado en CXL H3 Falcon de Micron ofrece hasta 20x de ganancias de rendimiento para bases de datos de grafos.²² Los controladores Leo CXL emparejados con procesadores AMD EPYC de 5ta generación proporcionan aumentos de rendimiento del 70% para modelos de recomendación de deep learning.²³

El panorama de controladores CXL

Tres proveedores dominan la producción de controladores de memoria CXL: Astera Labs, Montage Technology y Microchip. Sus controladores alimentan módulos de memoria de todos los principales fabricantes de DRAM.

Astera Labs lidera el mercado con Leo CXL Smart Memory Controllers soportando CXL 2.0 con hasta 2TB de capacidad de memoria por controlador.²⁴ Leo implementa los protocolos CXL.mem, CXL.cache y CXL.io, realiza entrelazado por hardware para presentar memoria agregada a los sistemas operativos, y proporciona características RAS a través de la suite de gestión COSMOS.²⁵ Las tarjetas adicionales A-Series permiten despliegue plug-and-play, mientras que las implementaciones E-Series y P-Series soportan integración personalizada. La vista previa de memoria CXL de Microsoft Azure de noviembre de 2025 usa controladores Leo, marcando el primer despliegue de memoria conectada por CXL en nube pública de la industria.²⁶

Montage Technology envió el primer CXL Memory eXpander Controller (MXC) del mundo y actualmente suministra controladores a Samsung, SK Hynix y otros principales fabricantes de memoria.²⁷ El controlador CXL 3.1 de la compañía de septiembre de 2025 (M88MX6852) logra tasas de transferencia de datos de hasta 64GT/s en configuraciones x8, integra DDR5 de doble canal a velocidades de 8000MT/s, y añade solo 70ns de latencia.²⁸ El paquete de 25mm x 25mm soporta tanto factores de forma EDSFF E3.S como tarjetas adicionales PCIe.²⁹ Tanto Samsung como SK Hynix pasaron las pruebas de cumplimiento CXL 2.0 usando chips MXC de Montage.³⁰

Microchip entró en CXL con el controlador SMC 1000 8x25G soportando aplicaciones de expansión y pooling de memoria. La compañía integra capacidades CXL en su portafolio más amplio de conectividad de memoria junto con chips buffer de memoria y controladores hub SPD.

Productos de módulos de memoria de los principales proveedores

La serie CMM-D (CXL Memory Module - DDR5) de Samsung representa la línea de producción CXL de la compañía. El CMM-D 2.0 ofrece capacidades de 128GB y 256GB con hasta 36GB/s de ancho de banda, cumplimiento CXL 2.0 y soporte PCIe Gen 5.³¹ Samsung posiciona CMM-D como complementario a los DIMMs locales existentes, reclamando expansión de capacidad de memoria de hasta 50% e incrementos de ancho de banda de hasta 100% mientras reduce el costo total de propiedad.³² Las muestras para clientes se enviaron en 2025, con variantes CXL 3.1 proyectadas para fin de año.³³

SK Hynix demostró múltiples productos de memoria CXL en Supercomputing 2025. El CMM-DDR5 se asocia con controladores Montage para expandir capacidad de memoria, mientras que el CMM-Ax (CXL Memory Module Accelerator) integra capacidades de cómputo directamente en la memoria.³⁴ La nube de IA Petasus de SK Telecom desplegó CMM-Ax, demostrando aplicaciones prácticas de infraestructura de IA.³⁵ SK Hynix se prepara para producir controladores CXL propietarios para CXL 3.0 y 3.1, reduciendo la dependencia de silicio de terceros.³⁶

Micron lanzó módulos de expansión de memoria basados en CXL 2.0 usando capacidades DDR5 de 96GB.³⁷ La compañía posiciona la memoria CXL como tecnología crítica para cerrar la brecha con Samsung y SK Hynix en el segmento de memoria de servidor de alto margen. El sistema H3 Falcon de Micron combina memoria desagregada basada en CXL con el sistema de archivos FAMFS soportado por Linux para aceleración de bases de datos de grafos.³⁸

Soporte de plataformas de servidor de Intel y AMD

Los procesadores AMD EPYC Genoa llegaron en 2022 con soporte nativo para dispositivos CXL Type-3, dando a AMD una ventaja de varios años sobre Intel.³⁹ Los actuales procesadores EPYC 9005 Turin mantienen compatibilidad CXL a través de toda la línea. Los benchmarks de rendimiento demuestran ganancias sustanciales: los controladores Leo CXL con AMD EPYC de 5ta generación ofrecen mejoras de rendimiento del 70% para modelos de recomendación y habilitan arquitecturas de memoria híbrida que igualan el 95-100% del rendimiento de DRAM nativa.⁴⁰

El viaje de Intel con CXL resultó más accidentado. Los Xeon Scalable de 4ta generación "Sapphire Rapids" se lanzaron sin soporte para dispositivos CXL Type-3 a pesar de implementar el protocolo base CXL.⁴¹ El soporte oficial para Type-3 llegó con la 5ta generación "Emerald Rapids" hace aproximadamente un año. Los procesadores Intel Xeon 6 incluyen CXL Flat Memory Mode, una capacidad única que mejora la flexibilidad de la relación cómputo-memoria sin sacrificar rendimiento.⁴² Microsoft destacó específicamente las capacidades de Flat Memory Mode al anunciar la vista previa de CXL de Azure.⁴³

Los servidores Lenovo ThinkSystem V4 con procesadores Intel Xeon 6 soportan memoria CXL 2.0 en factor de forma E3.S 2T.⁴⁴ Líderes de la industria incluyendo Dell Technologies, HPE, ASUS e Inventec construyen plataformas alineadas con CXL 3.0, preparándose para una adopción más amplia del ecosistema.⁴⁵ Las proyecciones de DRAM detrás de CXL alcanzan aproximadamente el 10% de la DRAM de servidor para 2029.⁴⁶

CXL 4.0 traza el futuro multi-rack

El lanzamiento de la especificación CXL 4.0 de noviembre de 2025 establece la base para arquitecturas de centros de datos verdaderamente desagregadas. Duplicar el ancho de banda a 128GT/s a través de capas físicas PCIe 7.0 aborda las preocupaciones de rendimiento que limitaron la adopción anterior.⁴⁷ Los puertos agrupados agregan múltiples conexiones físicas en conexiones lógicas únicas, habilitando 768GB/s de ancho de banda en cada dirección (1.536TB/s total) en configuraciones x16 mientras mantienen modelos de software simples.⁴⁸

El soporte nativo de ancho de enlace x2 aumenta las capacidades de fan-out para topologías de pooling de memoria. Las versiones anteriores de CXL solo soportaban x2 como modo de respaldo para fallos de lanes; CXL 4.0 optimiza completamente x2 para rendimiento como los anchos x4 a x16.⁴⁹ El soporte de alcance extendido a través de hasta cuatro retimers habilita configuraciones multi-rack sin degradación de señal.⁵⁰

Los sistemas CXL 4.0 multi-rack pueden desplegarse a finales de 2026 o 2027.⁵¹ La especificación mantiene compatibilidad hacia atrás con todas las versiones anteriores de CXL, protegiendo las inversiones en equipos CXL 2.0 y 3.x existentes.⁵² Con la madurez del ecosistema CXL 3.0 esperada durante 2025, los centros de datos comenzarán a adoptar arquitecturas donde la memoria y el cómputo se desagregan, agrupan y reasignan dinámicamente para 2026.⁵³

Construyendo la pila de infraestructura CXL

Desplegar expansión de memoria CXL requiere coordinación del ecosistema más allá

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO