Expansão de Memória CXL: Quebrando a Barreira da Memória em Data Centers de IA

Microsoft lançando primeiras instâncias cloud equipadas com CXL em novembro de 2025. Especificação CXL 4.0 dobrando largura de banda para 128GT/s. Mercado CXL projetado em $15B até 2028 ($12B+ em DRAM atrás de CXL). KV cache habilitado para CXL...

Expansão de Memória CXL: Quebrando a Barreira da Memória em Data Centers de IA

Expansão de Memória CXL: Quebrando a Barreira da Memória em Data Centers de IA

Atualizado em 11 de dezembro de 2025

Atualização de dezembro de 2025: Microsoft lançando primeiras instâncias cloud equipadas com CXL em novembro de 2025. Especificação CXL 4.0 dobrando largura de banda para 128GT/s. Mercado CXL projetado em $15B até 2028 ($12B+ em DRAM atrás de CXL). KV cache habilitado para CXL entregando melhoria de throughput de 21,9x, 60x menor energia por token. Pools CXL comerciais alcançando 100TiB em 2025.

Gargalos de memória destroem o desempenho de IA. Grandes modelos de linguagem rotineiramente excedem 80 a 120GB por GPU apenas para KV cache, sobrecarregando até os aceleradores mais caros equipados com HBM.¹ A tecnologia de expansão de memória Compute Express Link (CXL) aborda diretamente a crise de capacidade de memória, permitindo que servidores acessem pools de memória além dos limites de DRAM conectada à CPU. Com a Microsoft lançando as primeiras instâncias cloud equipadas com CXL da indústria em novembro de 2025 e a especificação CXL 4.0 dobrando a largura de banda para 128GT/s, arquiteturas de memória desagregada transitam de conceito de pesquisa para realidade de produção.²

O mercado reflete a urgência. Projeções de receita do mercado CXL alcançam $15 bilhões até 2028, com DRAM atrás de CXL esperada para constituir mais de $12 bilhões desse total.³ Para organizações implantando infraestrutura de IA em escala, entender as capacidades de expansão de memória CXL determina se os sistemas podem lidar com cargas de trabalho de próxima geração sem upgrades constantes de hardware.

Como a expansão de memória CXL realmente funciona

CXL opera como um protocolo de interconexão coerente de cache que roda sobre camadas físicas PCIe padrão. A tecnologia mantém coerência total entre caches de CPU e dispositivos de memória externa, permitindo que aplicações acessem memória conectada via CXL com o mesmo modelo de programação da DRAM local.⁴ Três subtipos de protocolo lidam com diferentes interações de dispositivos: CXL.io gerencia transações estilo PCIe, CXL.cache permite que dispositivos façam cache da memória do host, e CXL.mem permite que hosts acessem memória conectada ao dispositivo.⁵

Dispositivos expansores de memória, designados como CXL Type-3, conectam módulos DDR5 a servidores através de slots PCIe ou form factors EDSFF. Controladores CXL modernos adicionam aproximadamente 70 nanossegundos de latência comparado à DRAM conectada diretamente.⁶ Embora substancial, a latência de memória CXL é 20x a 50x mais rápida que armazenamento NVMe, preenchendo uma camada crítica de desempenho entre memória rápida do host e acesso lento a disco.⁷

A evolução da especificação acelerou rapidamente. CXL 2.0 introduziu pooling de memória, permitindo que múltiplos hosts acessem dispositivos de memória comuns com alocações distintas.⁸ CXL 3.0 habilitou memória verdadeiramente compartilhada, onde múltiplos hosts acessam simultaneamente o mesmo segmento de memória com visões de dados consistentes.⁹ O lançamento de novembro de 2025 do CXL 4.0 dobrou a largura de banda de 64GT/s para 128GT/s mantendo o formato FLIT de 256 bytes, habilitando até 1,536TB/s de largura de banda bidirecional total em links x16 através do novo recurso de portas agrupadas.¹⁰

Pooling de memória transforma a economia de servidores

Arquiteturas tradicionais de servidores forçam operadores a fazer tradeoffs difíceis. Requisitos de memória variam dramaticamente entre cargas de trabalho, mas servidores são enviados com configurações fixas de DRAM. Memória representa em média cerca de 30% do valor do servidor em 2022 e projeções empurram essa cifra acima de 40% até 2025.¹¹ Organizações rotineiramente superprovisionam memória para lidar com cargas de pico, deixando DRAM cara ociosa durante períodos de utilização média.

O pooling de memória CXL muda fundamentalmente a equação. Múltiplos servidores compartilham acesso a pools de memória centralizados, alocando capacidade dinamicamente baseado em demandas de carga de trabalho em tempo real. A Microsoft descobriu que adotar pooling de memória baseado em CXL poderia cortar a memória total necessária em cerca de 10%, gerando uma redução de 5% no custo total do servidor.¹² A SMART Modular Technologies estima que combinar DIMMs mais baratas com placas add-in CXL proporciona até 40% de economia para configurações de memória de 1TB comparado a fazer upgrade para CPUs que suportam mais RAM.¹³

Sistemas híbridos DRAM-CXL alcançam 95-100% do throughput de setups puramente DRAM enquanto cortam custos de memória em 50% através de compressão e pooling eficiente.¹⁴ O caso econômico se fortalece conforme preços de memória permanecem elevados devido à demanda de HBM consumindo capacidade de produção de DRAM. Custos crescentes de DRAM empurram empresas em direção a software de eficiência de memória e soluções de expansão baseadas em CXL como alternativas a upgrades caros de memória.¹⁵

Cargas de trabalho de inferência de IA impulsionam adoção de CXL

Inferência de grandes modelos de linguagem cria a demanda mais urgente por capacidade expandida de memória. Requisitos de armazenamento de KV cache escalam linearmente com comprimento de contexto, e modelos modernos suportando contextos de multi-milhões de tokens geram tamanhos de cache que excedem a memória da GPU inteiramente. Pesquisas demonstram que gerenciamento de KV cache habilitado para CXL entrega até 21,9x de melhoria de throughput, 60x menor energia por token, e 7,3x melhor eficiência de custo total comparado a implementações baseline.¹⁶

XConn Technologies e MemVerge demonstraram no Supercomputing 2025 como cargas de trabalho de inferência de IA podem descarregar e compartilhar recursos massivos de KV cache dinamicamente entre GPUs e CPUs. A demonstração alcançou melhorias de desempenho maiores que 5x comparado com cache baseado em SSD ou offloading de KV cache baseado em RDMA.¹⁷ Comparado a alternativas baseadas em rede, o pool de memória CXL alcançou speedup de 3,8x sobre RDMA 200G e speedup de 6,5x sobre RDMA 100G para cargas de trabalho de inferência.¹⁸

Pools comerciais de memória CXL alcançando 100TiB tornaram-se disponíveis em 2025, com implantações ainda maiores planejadas para 2026.¹⁹ Astera Labs demonstrou no OCP Global Summit 2025 como os Leo CXL Smart Memory Controllers eliminam gargalos de infraestrutura de IA, alcançando 3x instâncias LLM concorrentes com maior throughput e 3x menor latência com CXL.²⁰ SK Hynix apresentou uma máquina de IA centrada em memória conectando múltiplos servidores e GPUs sem rede tradicional, suportando tarefas de inferência distribuída através de tecnologia de memória pooled CXL.²¹

Além da inferência, expansão de memória CXL beneficia sistemas de recomendação, bancos de dados in-memory e analytics de grafos. O sistema de memória desagregada H3 Falcon baseado em CXL da Micron entrega até 20x ganhos de desempenho para bancos de dados de grafos.²² Controladores Leo CXL combinados com processadores AMD EPYC 5ª Geração proporcionam aumentos de 70% de desempenho para modelos de recomendação de deep learning.²³

O panorama de controladores CXL

Três fornecedores dominam a produção de controladores de memória CXL: Astera Labs, Montage Technology e Microchip. Seus controladores alimentam módulos de memória de todos os principais fabricantes de DRAM.

Astera Labs lidera o mercado com Leo CXL Smart Memory Controllers suportando CXL 2.0 com até 2TB de capacidade de memória por controlador.²⁴ Leo implementa protocolos CXL.mem, CXL.cache e CXL.io, realiza interleaving em hardware para apresentar memória agregada aos sistemas operacionais, e fornece recursos RAS através da suíte de gerenciamento COSMOS.²⁵ As placas add-in A-Series permitem implantação plug-and-play, enquanto implementações E-Series e P-Series suportam integração customizada. A preview de memória CXL do Microsoft Azure de novembro de 2025 usa controladores Leo, marcando a primeira implantação de cloud pública da indústria de memória conectada via CXL.²⁶

Montage Technology enviou o primeiro CXL Memory eXpander Controller (MXC) do mundo e atualmente fornece controladores para Samsung, SK Hynix e outros grandes fabricantes de memória.²⁷ O controlador CXL 3.1 da empresa de setembro de 2025 (M88MX6852) alcança taxas de transferência de dados de até 64GT/s em configurações x8, integra DDR5 dual-channel a velocidades de 8000MT/s, e adiciona apenas 70ns de latência.²⁸ O pacote de 25mm x 25mm suporta form factors EDSFF E3.S e placas add-in PCIe.²⁹ Samsung e SK Hynix passaram nos testes de conformidade CXL 2.0 usando chips MXC da Montage.³⁰

Microchip entrou em CXL com o controlador SMC 1000 8x25G suportando aplicações de expansão e pooling de memória. A empresa integra capacidades CXL em seu portfólio mais amplo de conectividade de memória junto com chips de buffer de memória e controladores de hub SPD.

Produtos de módulos de memória dos principais fornecedores

A série CMM-D (CXL Memory Module - DDR5) da Samsung representa a linha CXL de produção da empresa. O CMM-D 2.0 oferece capacidades de 128GB e 256GB com até 36GB/s de largura de banda, conformidade CXL 2.0 e suporte PCIe Gen 5.³¹ A Samsung posiciona CMM-D como complementar aos DIMMs locais existentes, alegando expansão de capacidade de memória de até 50% e aumentos de largura de banda de até 100% enquanto reduz o custo total de propriedade.³² Amostras para clientes foram enviadas em 2025, com variantes CXL 3.1 programadas para o final do ano.³³

SK Hynix demonstrou múltiplos produtos de memória CXL no Supercomputing 2025. O CMM-DDR5 faz parceria com controladores Montage para expandir capacidade de memória, enquanto o CMM-Ax (CXL Memory Module Accelerator) integra capacidades de computação diretamente na memória.³⁴ O Petasus AI Cloud da SK Telecom implantou CMM-Ax, demonstrando aplicações práticas de infraestrutura de IA.³⁵ SK Hynix se prepara para produzir controladores CXL proprietários para CXL 3.0 e 3.1, reduzindo dependência de silício de terceiros.³⁶

A Micron lançou módulos de expansão de memória baseados em CXL 2.0 usando capacidades de DDR5 de 96GB.³⁷ A empresa posiciona memória CXL como tecnologia crítica para fechar a lacuna com Samsung e SK Hynix no segmento de memória de servidor de alta margem. O sistema H3 Falcon da Micron combina memória desagregada baseada em CXL com o sistema de arquivos FAMFS suportado por Linux para aceleração de banco de dados de grafos.³⁸

Suporte de plataforma de servidor da Intel e AMD

Processadores AMD EPYC Genoa chegaram em 2022 com suporte nativo a dispositivos CXL Type-3, dando à AMD uma vantagem de múltiplos anos sobre a Intel.³⁹ Os processadores atuais EPYC 9005 Turin mantêm compatibilidade CXL em toda a linha. Benchmarks de desempenho demonstram ganhos substanciais: controladores Leo CXL com AMD EPYC 5ª Geração entregam melhorias de 70% de desempenho para modelos de recomendação e habilitam arquiteturas de memória híbrida atingindo 95-100% do desempenho de DRAM nativa.⁴⁰

A jornada CXL da Intel provou ser mais acidentada. Xeon Scalable 4ª Geração "Sapphire Rapids" foi lançado sem suporte a dispositivos CXL Type-3 apesar de implementar o protocolo CXL base.⁴¹ Suporte oficial Type-3 chegou com a 5ª Geração "Emerald Rapids" há cerca de um ano. Processadores Intel Xeon 6 incluem CXL Flat Memory Mode, uma capacidade única que melhora a flexibilidade da razão computação-memória sem sacrificar desempenho.⁴² A Microsoft destacou especificamente as capacidades do Flat Memory Mode ao anunciar a preview CXL do Azure.⁴³

Servidores Lenovo ThinkSystem V4 com processadores Intel Xeon 6 suportam memória CXL 2.0 em form factor E3.S 2T.⁴⁴ Líderes da indústria incluindo Dell Technologies, HPE, ASUS e Inventec constroem plataformas alinhadas com CXL 3.0, preparando-se para adoção mais ampla do ecossistema.⁴⁵ Projeções de DRAM atrás de CXL alcançam aproximadamente 10% da DRAM de servidor até 2029.⁴⁶

CXL 4.0 traça o futuro multi-rack

O lançamento da especificação CXL 4.0 em novembro de 2025 estabelece a fundação para arquiteturas de data center verdadeiramente desagregadas. Dobrar a largura de banda para 128GT/s via camadas físicas PCIe 7.0 aborda preocupações de desempenho que limitaram adoção anterior.⁴⁷ Portas agrupadas agregam múltiplas conexões físicas em anexos lógicos únicos, habilitando 768GB/s de largura de banda em cada direção (1,536TB/s total) em configurações x16 mantendo modelos de software simples.⁴⁸

Suporte nativo a largura de link x2 aumenta capacidades de fan-out para topologias de pooling de memória. Versões anteriores de CXL apenas suportavam x2 como modo fallback para falhas de lane; CXL 4.0 otimiza totalmente x2 para desempenho como larguras x4 até x16.⁴⁹ Suporte de alcance estendido através de até quatro retimers habilita configurações multi-rack sem degradação de sinal.⁵⁰

Sistemas CXL 4.0 multi-rack podem ser implantados no final de 2026 a 2027.⁵¹ A especificação mantém compatibilidade retroativa com todas as versões CXL anteriores, protegendo investimentos em equipamentos CXL 2.0 e 3.x existentes.⁵² Com maturidade do ecossistema CXL 3.0 esperada ao longo de 2025, data centers começarão a adotar arquiteturas onde memória e computação se desagregam, agrupam e realocam dinamicamente até 2026.⁵³

Construindo a pilha de infraestrutura CXL

Implantar expansão de memória CXL requer coordenação de ecossistema além

[Conteúdo truncado para tradução]

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO