Computación Desagregada para IA: Arquitectura de Infraestructura Componible
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: El pooling de memoria CXL logra una aceleración de 3.8x frente a RDMA de 200G y 6.5x frente a RDMA de 100G para inferencia de LLM. Jensen Huang: "Cuando puedes colocar aceleradores en cualquier lugar de un centro de datos y componer y reconfigurar para cargas de trabajo específicas—eso es una revolución." La infraestructura componible está rompiendo las proporciones fijas de servidores para adaptarse dinámicamente a los requisitos exactos de las cargas de trabajo de IA.
El pooling de memoria CXL logra una aceleración de 3.8x en comparación con RDMA de 200G y una aceleración de 6.5x en comparación con RDMA de 100G al compartir memoria entre servidores GPU que ejecutan inferencia de modelos de lenguaje grande.[^1] La demostración utilizó dos servidores con GPUs NVIDIA H100 ejecutando el modelo OPT-6.7B, mostrando cómo la memoria CXL compartida acelera las cargas de trabajo de IA más allá de lo que permite la red tradicional. Como señaló Jensen Huang de NVIDIA: "Cuando eres capaz de desagregar el servidor convergente, cuando puedes colocar aceleradores en cualquier lugar de un centro de datos y luego puedes componer y reconfigurar ese centro de datos para esta carga de trabajo específica—eso es una revolución."[^2]
La infraestructura componible representa un enfoque arquitectónico donde los recursos de cómputo, almacenamiento y red existen como pools abstraídos gestionados de forma independiente a través de planos de control definidos por software.[^3] A diferencia de las arquitecturas tradicionales que acoplan CPU, memoria, almacenamiento y red a servidores específicos, la infraestructura componible trata los recursos de hardware como pools flexibles asignados dinámicamente entre cargas de trabajo. El enfoque promete mejoras dramáticas en la utilización de recursos y flexibilidad de implementación para infraestructura de IA.
Rompiendo el límite del servidor
Los servidores tradicionales empaquetan proporciones fijas de CPU, memoria, GPU y almacenamiento. Las cargas de trabajo de IA rara vez coinciden con estas proporciones fijas. Los trabajos de entrenamiento demandan máxima densidad de GPU con requisitos de CPU relativamente modestos. Las cargas de trabajo de inferencia pueden necesitar más memoria por GPU de lo que proporcionan las configuraciones estándar. Los pipelines de preprocesamiento requieren capacidad de CPU y almacenamiento sin GPUs.
La infraestructura componible rompe el límite del servidor, permitiendo a las organizaciones ensamblar sistemas virtuales que coincidan con los requisitos exactos de la carga de trabajo.[^4] Una carga de trabajo de entrenamiento recibe una composición de 8 GPUs, CPU mínimo y almacenamiento de alto ancho de banda. Una carga de trabajo de inferencia recibe 2 GPUs con memoria expandida. Los mismos recursos físicos sirven ambas cargas de trabajo en diferentes momentos sin reconfiguración de hardware.
El modelo de desagregación
Las arquitecturas desagregadas separan los nodos físicos en tipos de recursos dedicados: nodos de cómputo, nodos de memoria, nodos de GPU y nodos de almacenamiento.[^5] Estructuras de alta velocidad conectan los nodos, permitiendo que el software componga sistemas lógicos a partir de recursos físicos distribuidos. La composición ocurre en software sin necesidad de recablear físicamente.
Los recursos ya no permanecen inactivos esperando cargas de trabajo específicas. Un nodo GPU sirve trabajos de entrenamiento durante las horas pico y trabajos de inferencia durante la noche. Los nodos de memoria expanden la capacidad para cargas de trabajo intensivas en memoria sin sobredimensionar cada servidor. La flexibilidad mejora la utilización mientras reduce los requisitos totales de hardware.
CXL habilita el pooling de memoria
Compute Express Link (CXL) proporciona la interconexión coherente de caché que permite la desagregación práctica de memoria.[^6] CXL ofrece acceso con semántica de memoria con latencia en el rango de 200-500 nanosegundos, comparado con aproximadamente 100 microsegundos para NVMe y más de 10 milisegundos para compartición de memoria basada en almacenamiento.[^7] La mejora en latencia permite una compartición de memoria verdaderamente dinámica y de grano fino entre nodos de cómputo.
Cómo funciona el pooling de memoria CXL
Los pools de memoria CXL crean un nuevo nivel de memoria desagregada de alta velocidad que está transformando cómo las organizaciones construyen infraestructura de IA.[^8] Los nodos CPU acceden a la memoria en pool como si estuviera conectada localmente, con la estructura CXL manejando la coherencia y el movimiento de datos de forma transparente. Las aplicaciones ven capacidad de memoria expandida sin modificación.
El CXL Memory Box permite el pooling de memoria entre múltiples servidores GPU, permitiendo acceso a pools de memoria más grandes de los que proporcionan los servidores individuales.[^9] Las cargas de trabajo de IA que procesan conjuntos de datos que exceden la capacidad de memoria local se benefician de la memoria en pool sin las penalizaciones de rendimiento del acceso tradicional a memoria remota. El enfoque permite tamaños de lote más grandes y ventanas de contexto más largas sin actualizar servidores individuales.
Más allá de la memoria: pooling completo de recursos
CXL permite más que el pooling de memoria. El estándar soporta conexiones componibles entre CPUs, buffers de memoria y aceleradores.[^10] GPUs, FPGAs, DPUs y otros aceleradores se conectan a través de la estructura CXL para asignación dinámica entre cargas de trabajo.
La visión se extiende a la desagregación completa de recursos donde ningún recurso se vincula permanentemente a ningún otro. Las organizaciones construyen pools de recursos dimensionados para la demanda agregada en lugar de la demanda pico por carga de trabajo. La orquestación por software compone los recursos apropiados para cada carga de trabajo en tiempo real.
Soluciones de la industria
Varios proveedores ofrecen soluciones de infraestructura componible que abordan los requisitos de cargas de trabajo de IA.
Plataforma componible Liqid
Liqid lanzó servidores GPU componibles con pooling de memoria CXL 2.0 que soporta hasta 100 TB de memoria componible desagregada.[^11] La plataforma incluye el EX-5410P, una caja de GPU de 10 ranuras que soporta GPUs de 600W incluyendo NVIDIA H200, RTX Pro 6000 y aceleradores Intel Gaudi 3. El software Matrix orquesta la composición de recursos a través de la plataforma de hardware.
El enfoque de Liqid empaqueta la componibilidad en soluciones integradas en lugar de requerir que los clientes diseñen sistemas desagregados desde componentes. Las organizaciones obtienen los beneficios de la componibilidad sin necesidad de desarrollar experiencia en diseño de estructuras y desarrollo de software de orquestación.
Sistemas componibles de IBM Research
IBM Research explora los estándares CXL para construir sistemas completamente componibles a través de estructuras de alta velocidad y baja latencia.[^12] En su arquitectura, los recursos existen como parte de grandes pools conectados a través de estructuras de red en lugar de estar agrupados estáticamente en servidores. Los recursos componibles se agrupan para recrear abstracciones de servidor que coincidan con los requisitos específicos de la carga de trabajo.
El programa de investigación aborda desafíos que incluyen diseño de topología de estructura, optimización de latencia y orquestación de software para infraestructura de IA componible. El trabajo avanza la comprensión de cómo deberían operar los sistemas componibles a escala de producción.
Colaboración GigaIO y Microchip
GigaIO y Microchip desarrollaron infraestructura desagregada componible de clase nube combinando tecnologías PCIe y CXL.[^13] El enfoque está dirigido a centros de datos que requieren la flexibilidad de recursos componibles con las características de rendimiento del hardware conectado directamente.
Consideraciones arquitectónicas
Implementar infraestructura componible requiere decisiones arquitectónicas que abarcan diseño de estructura, software de orquestación y gestión de cargas de trabajo.
Topología de estructura
La estructura de interconexión determina la latencia y el ancho de banda alcanzables entre recursos desagregados. Las estructuras CXL deben proporcionar suficiente ancho de banda para patrones de acceso a velocidad de memoria mientras mantienen la latencia dentro de límites aceptables. La topología de la estructura afecta tanto el rendimiento como el costo.
Las topologías basadas en switches ofrecen flexibilidad pero añaden latencia en comparación con las conexiones directas. El equilibrio entre la complejidad de la topología y el presupuesto de latencia depende de los requisitos específicos de la carga de trabajo. Las cargas de trabajo intensivas en memoria demandan menor latencia que las cargas de trabajo intensivas en almacenamiento.
Requisitos de orquestación
La orquestación por software gestiona la composición de recursos, manejando solicitudes de asignación, rastreando el estado de los recursos y manteniendo el aislamiento entre composiciones. La capa de orquestación debe responder lo suficientemente rápido para soportar cambios dinámicos de carga de trabajo sin convertirse en un cuello de botella.
La integración con Kubernetes permite que los recursos componibles sirvan cargas de trabajo de IA contenerizadas usando primitivas de orquestación familiares. El GPU Operator y extensiones similares gestionan recursos de aceleradores, con extensiones de componibilidad que permiten la asignación dinámica del pool de GPUs.
Consideraciones de dominio de falla
La desagregación cambia las características del dominio de falla. Un nodo de memoria fallido afecta a todas las composiciones que usan esa memoria en lugar de a un solo servidor. El radio de impacto de las fallas de componentes se expande en comparación con las arquitecturas de servidor convergente.
Las estrategias de redundancia deben tener en cuenta los modos de falla desagregados. Los pools de memoria requieren redundancia entre nodos físicos. Las políticas de composición deben evitar concentrar cargas de trabajo críticas en recursos compartidos. El monitoreo debe rastrear la salud a través de la estructura en lugar de servidores individuales.
Experiencia en implementación de infraestructura
La complejidad de la infraestructura componible excede la implementación tradicional de servidores. La instalación de estructuras, la validación de rendimiento y la configuración de orquestación requieren experiencia especializada que la mayoría de las organizaciones carecen internamente.
Los 550 ingenieros de campo de Introl apoyan a organizaciones que implementan arquitecturas de infraestructura avanzadas, incluyendo sistemas componibles y desagregados.[^14] La empresa ocupó el puesto #14 en el Inc. 5000 de 2025 con un crecimiento del 9,594% en tres años, reflejando la demanda de servicios profesionales de infraestructura.[^15] Las implementaciones componibles se benefician de la experiencia en instalación y validación de estructuras de alta velocidad.
Implementar infraestructura en 257 ubicaciones globales requiere prácticas consistentes independientemente de la geografía.[^16] Introl gestiona implementaciones que alcanzan 100,000 GPUs con más de 40,000 millas de infraestructura de red de fibra óptica, proporcionando escala operativa para organizaciones que construyen infraestructura de IA componible.[^17]
El futuro componible
Las arquitecturas desagregadas y de compartición de recursos permitirán la infraestructura para procesar los petabytes de datos necesarios para IA, aprendizaje automático y otras tecnologías intensivas en datos.[^18] La adopción de CXL se acelerará a medida que el estándar madure y las soluciones de proveedores proliferen.
Las organizaciones que planifican inversiones en infraestructura de IA deben evaluar las arquitecturas componibles para implementaciones donde la variabilidad de las cargas de trabajo hace que los servidores de proporción fija sean ineficientes. Los beneficios de flexibilidad se multiplican con la escala: las implementaciones más grandes logran mayores mejoras de utilización a partir del pooling de recursos.
La transición de infraestructura convergente a componible representa un cambio fundamental en la arquitectura de centros de datos. Las organizaciones que dominan la implementación componible obtienen ventajas de flexibilidad que se traducen en eficiencia de costos y agilidad de implementación. La revolución que Jensen Huang describió comienza con entender cómo la desagregación cambia la economía de la infraestructura.
Puntos clave
Para arquitectos de infraestructura: - El pooling de memoria CXL logra una aceleración de 3.8x frente a RDMA de 200G y 6.5x frente a RDMA de 100G para cargas de trabajo de inferencia LLM - Latencia CXL: 200-500ns de acceso con semántica de memoria vs ~100μs NVMe vs >10ms compartición basada en almacenamiento - La desagregación permite: composición de 8 GPUs para entrenamiento, 2 GPUs + memoria expandida para inferencia, del mismo pool de hardware
Para equipos de adquisiciones: - Liqid EX-5410P: caja de GPU de 10 ranuras que soporta GPUs de 600W (H200, RTX Pro 6000, Gaudi 3) con pooling de memoria CXL de 100TB - Los servidores tradicionales de proporción fija desperdician recursos: el entrenamiento necesita máximo GPU con CPU modesto; la inferencia necesita más memoria por GPU - Lo componible reduce el hardware total al hacer pooling de recursos entre cargas de trabajo; los nodos GPU sirven entrenamiento de día, inferencia de noche
Para ingenieros de plataforma: - IBM Research explorando CXL para sistemas completamente componibles a través de estructuras de alta velocidad y baja latencia - Colaboración GigaIO/Microchip: componibilidad de clase nube combinando tecnologías PCIe y CXL - Integración con Kubernetes a través de extensiones del GPU Operator permite recursos componibles con orquestación familiar
Para equipos de operaciones: - El dominio de falla cambia: un nodo de memoria fallido afecta a todas las composiciones que lo usan vs un solo servidor en arquitectura convergente - Las estrategias de redundancia deben tener en cuenta los modos de falla desagregados; evitar concentrar cargas de trabajo en recursos compartidos - El monitoreo de salud de la estructura reemplaza el monitoreo de servidores individuales; las políticas de composición previe
[Contenido truncado para traducción]