Guia de Planejamento de Infraestrutura CXL 4.0: Pool de Memória para IA em Escala

Guia completo de implantação CXL 4.0 cobrindo portas agrupadas, pool de memória multi-rack, offloading de cache KV, ecossistema de fornecedores e cronograma de planejamento 2026-2027.

Blake Crosley

Mar 29, 2026 9 min read Disclaimer

Guia de Planejamento de Infraestrutura CXL 4.0: Pool de Memória para IA em Escala

13 de dezembro de 2025

Atualização de dezembro de 2025: O CXL Consortium lançou o CXL 4.0 em 18 de novembro de 2025, dobrando a largura de banda para 128 GT/s via PCIe 7.0 e introduzindo portas agrupadas para conexões de 1,5 TB/s. Este guia cobre o planejamento de implantação para organizações que se preparam para implementar pool de memória baseado em CXL em sua infraestrutura de IA.

Resumo Executivo

O CXL 4.0 permite pool de memória em escala sem precedentes, permitindo que cargas de trabalho de inferência de IA acessem mais de 100 terabytes de memória compartilhada com coerência de cache entre múltiplos racks. As portas agrupadas da especificação agregam múltiplas conexões físicas em anexos lógicos únicos entregando 1,5 TB/s de largura de banda. Para planejadores de infraestrutura, as decisões-chave envolvem entender quando adotar o CXL (2026-2027 para produção), quais produtos avaliar agora (switches CXL 2.0/3.0 em distribuição) e como o CXL complementa em vez de substituir o NVLink e o UALink. Este guia fornece a profundidade técnica e os frameworks de decisão necessários para planejar implantações CXL.

O Problema do Memory Wall

Grandes modelos de linguagem encontram uma restrição fundamental: capacidade de memória da GPU. Cargas de trabalho modernas de inferência de IA rotineiramente excedem 80-120 GB por GPU, e o cache key-value (KV) cresce com o comprimento do contexto.[^1] Uma única requisição de inferência com uma janela de contexto de 128K pode consumir dezenas de gigabytes apenas para armazenamento de cache KV.

O problema se intensifica em escala. Pesos de modelo para LLMs de fronteira consomem centenas de gigabytes. Os requisitos de cache KV crescem linearmente tanto com o tamanho do batch quanto com o comprimento da sequência. A VRAM da GPU permanece fixa em 80GB (H100) ou 192GB (B200).[^2]

Soluções tradicionais ficam aquém:

Abordagem	Limitação
Adicionar mais GPUs	Aumento linear de custo, memória ainda isolada por GPU
Offloading NVMe	~100 μs de latência, 100x mais lento que DRAM
Compartilhamento baseado em RDMA	Ainda 10-20 μs de latência, rede complexa
Memória de GPU maior	Oferta restrita, cara

O CXL muda essa equação ao permitir pool de memória com latência similar à DRAM (200-500 ns) através do data center.[^3]

Análise Técnica Detalhada do CXL 4.0

Evolução do CXL 1.0 ao 4.0

O CXL amadureceu rapidamente desde sua introdução em 2019. Cada geração expandiu as capacidades:

Geração	Lançamento	Base PCIe	Velocidade	Avanço Principal
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Anexo básico de memória coerente
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, pool de memória, multi-dispositivo
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Suporte a fabric, peer-to-peer, 4.096 nós
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Portas agrupadas, multi-rack, RAS aprimorado

O CXL 2.0 introduziu o conceito fundamental de pool de memória. Múltiplos dispositivos de memória Tipo 3 conectam-se a um switch, formando um pool compartilhado do qual o switch aloca recursos dinamicamente para diferentes hosts.[^4] Isso permite melhorias na utilização de memória de típicos 50-60% para 85%+ em um cluster.

O CXL 3.0 adicionou capacidades de fabric suportando switching multi-nível e até 4.096 nós com roteamento baseado em porta (PBR).[^5] A mudança para FLITs de 256 bytes e os 64 GT/s do PCIe 6.0 dobrou a largura de banda disponível.

O CXL 4.0 dobra a largura de banda novamente enquanto introduz recursos críticos para implantações de IA multi-rack.

Arquitetura de Portas Agrupadas

O recurso mais significativo do CXL 4.0 para computação de alto desempenho: portas agrupadas agregam múltiplas portas físicas de dispositivos CXL em uma única entidade lógica.[^6]

Como funcionam as portas agrupadas:

Um host e um dispositivo Tipo 1/2 combinam múltiplas portas físicas
O software do sistema vê um único dispositivo apesar das múltiplas conexões físicas
A largura de banda agrega através de todas as portas agrupadas
Otimizado para modo FLIT de 256 bytes, eliminando overhead legado

Cálculos de largura de banda:

Configuração	Direção	Largura de Banda
Porta única x16 @ 128 GT/s	Unidirecional	256 GB/s
Porta única x16 @ 128 GT/s	Bidirecional	512 GB/s
3 portas agrupadas x16 @ 128 GT/s	Unidirecional	768 GB/s
3 portas agrupadas x16 @ 128 GT/s	Bidirecional	1.536 GB/s

Para contexto, memória HBM3e em um H200 entrega 4,8 TB/s de largura de banda.[^7] Uma conexão CXL 4.0 agrupada a 1,5 TB/s representa aproximadamente 30% dessa largura de banda—suficiente para muitos casos de uso de expansão de memória onde a capacidade importa mais que o pico de largura de banda.

Fundação PCIe 7.0

O CXL 4.0 se baseia nas melhorias da camada física do PCIe 7.0:[^8]

Taxa de transferência de 128 GT/s: O dobro dos 64 GT/s do PCIe 6.0
Sinalização PAM4: Mesmo esquema de codificação do PCIe 6.0
FEC aprimorado: Correção de erro antecipada para integridade do sinal
Suporte óptico: Permite conexões de maior alcance

A especificação mantém o formato FLIT de 256 bytes do CXL 3.x enquanto adiciona uma variante otimizada para latência para operações sensíveis ao tempo.[^9]

Capacidades de Fabric Multi-Rack

O CXL 4.0 estende o alcance através de dois mecanismos:

Quatro retimers suportados: Gerações anteriores permitiam dois retimers. Quatro retimers permitem conexões físicas mais longas abrangendo múltiplos racks sem degradação de sinal.[^10]

Largura x2 nativa: Anteriormente um modo de fallback degradado, links x2 agora operam em desempenho total. Isso permite configurações de maior fan-out onde muitas conexões de menor largura de banda servem mais endpoints.[^11]

Esses recursos se combinam para permitir "pool de memória multi-rack"—uma capacidade que o CXL Consortium explicitamente direciona para implantação em produção no final de 2026-2027.[^12]

Casos de Uso do CXL para Infraestrutura de IA

Offloading de Cache KV para Inferência de LLM

O caso de uso de maior impacto no curto prazo: offloading de cache KV da VRAM da GPU para memória anexada via CXL.

O problema: Inferência de LLM com contextos longos gera caches KV massivos. Um modelo de 70B de parâmetros com contexto de 128K e tamanho de batch 32 pode requerer mais de 150 GB apenas para cache KV.[^13] Isso excede a VRAM do H100, forçando reduções caras no tamanho do batch ou múltiplas GPUs.

A solução CXL: Armazene o cache KV em memória CXL em pool enquanto mantém camadas quentes na VRAM da GPU. XConn e MemVerge demonstraram isso no SC25 e OCP 2025:[^14]

Duas GPUs H100 (80GB cada) executando OPT-6.7B
Cache KV descarregado para pool de memória CXL compartilhada
3,8x de speedup vs RDMA 200G
6,5x de speedup vs RDMA 100G
>5x de melhoria vs cache KV baseado em SSD

Pesquisas da academia confirmam a oportunidade. PNM-KV (Processing-Near-Memory para cache KV) alcança até 21,9x de melhoria de throughput ao descarregar a seleção de página de tokens para aceleradores dentro da memória CXL.[^15]

Expansão de Memória para Treinamento

Cargas de trabalho de treinamento se beneficiam da capacidade de memória expandida para:

Tamanhos de batch maiores: Mais amostras por iteração sem acumulação de gradiente
Redução de checkpointing de ativação: Armazene mais ativações em memória vs recomputação
Estado do otimizador: O otimizador Adam requer 2x parâmetros para momentum/variância

A expansão de memória CXL permite configurações de treinamento que anteriormente requeriam distribuição multi-nó para rodar em nós únicos, reduzindo overhead de comunicação.

Cargas de Trabalho Científicas e HPC

O projeto Crete do PNNL usa pools CXL para compartilhamento de memória de alto throughput entre nós de computação em simulações científicas.[^16] Casos de uso incluem:

Dinâmica molecular com grandes listas de vizinhos
Análise de grafos em datasets de trilhões de arestas
Bancos de dados em memória excedendo a capacidade de servidor único

O Panorama de Interconexões

CXL vs NVLink vs UALink

Entender onde o CXL se encaixa requer reconhecer que essas tecnologias servem propósitos diferentes:

Padrão	Propósito Principal	Melhor Para
CXL	Coerência de memória + pooling	Expansão de memória CPU, pools de memória compartilhada
NVLink	Escalonamento GPU-para-GPU	Comunicação GPU dentro do nó
UALink	Interconexão de aceleradores	Alternativa de padrão aberto ao NVLink
Ultra Ethernet	Rede scale-out	Multi-rack, 10.000+ endpoints

O CXL roda em SerDes PCIe: menor taxa de erro, menor latência, mas menor largura de banda que o SerDes estilo Ethernet do NVLink/UALink.[^17] O NVLink 5 entrega 1,8 TB/s por GPU—muito excedendo os 512 GB/s por porta x16 do CXL 4.0.[^18]

As tecnologias se complementam em vez de competir:

Dentro de um nó GPU: NVLink conecta GPUs
Entre nós: UALink ou InfiniBand/Ethernet
Expansão de memória: CXL adiciona capacidade a CPUs e aceleradores
Pools de memória em nível de fabric: Switches CXL permitem compartilhamento entre hosts

A Panmnesia propõe arquiteturas "CXL-over-XLink" integrando todos os três, reportando treinamento de IA 5,3x mais rápido e redução de latência de inferência de 6x vs baselines PCIe/RDMA.[^19]

Framework de Decisão: Quando Usar o Quê

Cenário	Interconexão Recomendada	Justificativa
Treinamento multi-GPU dentro do servidor	NVLink	Maior largura de banda, menor latência
Pod de inferência multi-GPU (não-NVIDIA)	UALink	Padrão aberto, alta largura de banda
Expandir memória além da VRAM	CXL	Coerência de cache, latência similar à DRAM
Cluster GPU multi-rack	InfiniBand ou Ultra Ethernet	Projetado para scale-out
Pool de memória compartilhado entre servidores	Switches CXL	Pool de memória com coerência
China/mercados restritos	Considere UB-Mesh	Evita dependências de IP ocidental

Ecossistema CXL: Fornecedores e Produtos

Expansores de Memória

Os três principais fabricantes de DRAM distribuem expansores de memória CXL:

Fornecedor	Produto	Capacidade	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Produção em massa 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Produção em massa final de 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Amostragem[^22]
SK Hynix	CMS	512 GB	CXL (habilitado para computação)	Anunciado[^23]

O CMS (Computational Memory Solution) da SK Hynix adiciona capacidades de computação diretamente no módulo de memória—uma implementação inicial de processing-near-memory para CXL.

Fornecedores de Switches

Switches CXL permitem pool de memória entre múltiplos hosts:

Fornecedor	Produto	Geração	Status	Recurso Principal
XConn	XC50256	CXL 2.0	Distribuindo	Switch de 256 lanes, primeiro no mercado[^24]
XConn	Apollo	CXL 2.0	Distribuindo	Demonstrações de pool de memória no SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Amostragem Nov 2025	Primeira implementação PBR[^26]
Astera Labs	Leo	CXL 2.0	Distribuindo	Controlador de memória inteligente[^27]
Microchip	SMC 2000	CXL 2.0	Distribuindo	Controlador de expansão de memória[^28]

O CXL 3.2 Fabric Switch da Panmnesia representa um salto geracional: primeiro silício implementando roteamento baseado em porta para arquiteturas de fabric verdadeiras com até 4.096 nós.[^29]

Fornecedores de Controladores

Controladores de memória CXL traduzem entre o protocolo CXL e DRAM:

Fornecedor	Função	Produtos Principais
Marvell	Controlador	Controladores Structera CXL[^30]
Montage	Controlador	Chips de buffer de memória CXL
Astera Labs	Controlador	Controlador de memória inteligente Leo
Microchip	Controlador	Série SMC 2000

O Structera da Marvell completou testes de interoperabilidade com todos os três principais fornecedores de memória (Samsung, Micron, SK Hynix) em plataformas Intel e AMD.[^31]

Guia de Planejamento de Implantação

Cronograma

Período	Geração CXL	Capacidade Esperada	Recomendação
Agora-Q2 2026	CXL 2.0	Expansão de memória, pooling básico	Avaliação em produção
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nós	Adoção inicial para IA
2027+	CXL 4.0	Pooling multi-rack, 1,5 TB/s	Planejamento começa agora

A ABI Research espera soluções CXL 3.0/3.1 com suporte de software suficiente para adoção comercial até 2027.[^32]

O Que Avaliar Agora

Imediato (2025): 1. Teste expansores de memória CXL 2.0 em servidores Intel Sapphire Rapids ou AMD EPYC Genoa existentes 2. Avalie switches XConn ou Astera Labs para pool de memória

[Conteúdo truncado para tradução]

Guia de Planejamento de Infraestrutura CXL 4.0: Pool de Memória para IA em Escala

Resumo Executivo

O Problema do Memory Wall

Análise Técnica Detalhada do CXL 4.0

Evolução do CXL 1.0 ao 4.0

Arquitetura de Portas Agrupadas

Fundação PCIe 7.0

Capacidades de Fabric Multi-Rack

Casos de Uso do CXL para Infraestrutura de IA

Offloading de Cache KV para Inferência de LLM

Expansão de Memória para Treinamento

Cargas de Trabalho Científicas e HPC

O Panorama de Interconexões

CXL vs NVLink vs UALink

Framework de Decisão: Quando Usar o Quê

Ecossistema CXL: Fornecedores e Produtos

Expansores de Memória

Fornecedores de Switches

Fornecedores de Controladores

Guia de Planejamento de Implantação

Cronograma

O Que Avaliar Agora

You Might Also Like

Malásia e Tailândia: Centros Emergentes de Data Centers de I...

O Boom de US$ 27 Bilhões em Infraestrutura de IA de Singapur...

Backup e Recuperação para AI: Protegendo Dados de Treinament...

Solicitar Orçamento_

Solicitação Recebida_