Guia de Planejamento de Infraestrutura CXL 4.0: Pooling de Memória para AI em Escala
13 de dezembro de 2025
Atualização de dezembro de 2025: O CXL Consortium lançou o CXL 4.0 em 18 de novembro de 2025, dobrando a largura de banda para 128 GT/s via PCIe 7.0 e introduzindo portas agrupadas para conexões de 1,5 TB/s. Este guia cobre o planejamento de implementação para organizações que se preparam para implementar pooling de memória baseado em CXL em sua infraestrutura de AI.
Resumo Executivo
O CXL 4.0 possibilita pooling de memória em escala sem precedentes, permitindo que cargas de trabalho de inferência de AI acessem mais de 100 terabytes de memória compartilhada com coerência de cache em múltiplos racks. As portas agrupadas da especificação agregam múltiplas conexões físicas em anexos lógicos únicos que entregam largura de banda de 1,5 TB/s. Para planejadores de infraestrutura, as decisões-chave envolvem entender quando adotar CXL (2026-2027 para produção), quais produtos avaliar agora (switches CXL 2.0/3.0 em produção) e como o CXL complementa em vez de substituir NVLink e UALink. Este guia fornece a profundidade técnica e frameworks de decisão necessários para planejar implementações de CXL.
O Problema da Barreira de Memória
Modelos de linguagem grandes enfrentam uma restrição fundamental: capacidade de memória da GPU. Cargas de trabalho modernas de inferência de AI rotineiramente excedem 80-120 GB por GPU, e o cache de chave-valor (KV) cresce com o comprimento do contexto.[^1] Uma única solicitação de inferência com uma janela de contexto de 128K pode consumir dezenas de gigabytes apenas para armazenamento de cache KV.
O problema se intensifica em escala. Pesos de modelo para LLMs de fronteira consomem centenas de gigabytes. Requisitos de cache KV crescem linearmente com o tamanho do lote e comprimento da sequência. A VRAM da GPU permanece fixa em 80GB (H100) ou 192GB (B200).[^2]
Soluções tradicionais ficam aquém:
| Abordagem | Limitação |
|---|---|
| Adicionar mais GPUs | Aumento de custo linear, memória ainda isolada por GPU |
| Offloading NVMe | ~100 μs de latência, 100x mais lento que DRAM |
| Compartilhamento baseado em RDMA | Ainda 10-20 μs de latência, rede complexa |
| Memória maior da GPU | Limitado por fornecimento, caro |
O CXL muda essa equação ao possibilitar pooling de memória com latência similar à DRAM (200-500 ns) em todo o data center.[^3]
Análise Técnica Profunda do CXL 4.0
Evolução do CXL 1.0 para 4.0
O CXL amadureceu rapidamente desde sua introdução em 2019. Cada geração expandiu as capacidades:
| Geração | Lançamento | Base PCIe | Velocidade | Avanço Principal |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Anexo básico de memória coerente |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, pooling de memória, multi-dispositivo |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Suporte a fabric, peer-to-peer, 4.096 nós |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Portas agrupadas, multi-rack, RAS aprimorado |
O CXL 2.0 introduziu o conceito fundamental de pooling de memória. Múltiplos dispositivos de memória Type 3 se conectam a um switch, formando um pool compartilhado do qual o switch aloca dinamicamente recursos para diferentes hosts.[^4] Isso permite melhorias na utilização de memória de típicos 50-60% para 85%+ em um cluster.
O CXL 3.0 adicionou capacidades de fabric suportando switching multi-nível e até 4.096 nós com roteamento baseado em porta (PBR).[^5] A mudança para FLITs de 256 bytes e 64 GT/s do PCIe 6.0 dobrou a largura de banda disponível.
O CXL 4.0 dobra a largura de banda novamente enquanto introduz recursos críticos para implementações de AI multi-rack.
Arquitetura de Portas Agrupadas
O recurso mais significativo do CXL 4.0 para computação de alto desempenho: portas agrupadas agregam múltiplas portas físicas de dispositivo CXL em uma única entidade lógica.[^6]
Como funcionam as portas agrupadas:
- Um host e dispositivo Type 1/2 combinam múltiplas portas físicas
- O software do sistema vê um único dispositivo apesar de múltiplas conexões físicas
- A largura de banda se agrega em todas as portas agrupadas
- Otimizado para modo FLIT de 256 bytes, eliminando overhead legado
Cálculos de largura de banda:
| Configuração | Direção | Largura de Banda |
|---|---|---|
| Porta única x16 @ 128 GT/s | Unidirecional | 256 GB/s |
| Porta única x16 @ 128 GT/s | Bidirecional | 512 GB/s |
| 3 portas agrupadas x16 @ 128 GT/s | Unidirecional | 768 GB/s |
| 3 portas agrupadas x16 @ 128 GT/s | Bidirecional | 1.536 GB/s |
Para contexto, a memória HBM3e em um H200 entrega largura de banda de 4,8 TB/s.[^7] Uma conexão CXL 4.0 agrupada a 1,5 TB/s representa aproximadamente 30% dessa largura de banda—suficiente para muitos casos de uso de expansão de memória onde a capacidade importa mais que a largura de banda pico.
Base PCIe 7.0
O CXL 4.0 se baseia nas melhorias da camada física do PCIe 7.0:[^8]
- Taxa de transferência de 128 GT/s: Dobra os 64 GT/s do PCIe 6.0
- Sinalização PAM4: Mesmo esquema de codificação do PCIe 6.0
- FEC melhorado: Correção de erro direta para integridade do sinal
- Suporte óptico: Possibilita conexões de maior alcance
A especificação mantém o formato FLIT de 256 bytes do CXL 3.x enquanto adiciona uma variante otimizada para latência para operações sensíveis ao tempo.[^9]
Capacidades de Fabric Multi-Rack
O CXL 4.0 estende o alcance através de dois mecanismos:
Quatro retimers suportados: Gerações anteriores permitiam dois retimers. Quatro retimers possibilitam conexões físicas mais longas abrangendo múltiplos racks sem degradação de sinal.[^10]
Largura x2 nativa: Anteriormente um modo de fallback degradado, links x2 agora operam com desempenho total. Isso possibilita configurações de maior fan-out onde muitas conexões de menor largura de banda servem mais endpoints.[^11]
Esses recursos se combinam para possibilitar "pooling de memória multi-rack"—uma capacidade que o CXL Consortium explicitamente visa para implementação em produção no final de 2026-2027.[^12]
Casos de Uso de CXL para Infraestrutura de AI
Offloading de Cache KV para Inferência LLM
O caso de uso de maior impacto a curto prazo: fazer offload de cache KV da VRAM da GPU para memória anexada por CXL.
O problema: Inferência LLM com contextos longos gera caches KV massivos. Um modelo de 70B parâmetros com contexto de 128K e tamanho de lote 32 pode exigir 150+ GB apenas para cache KV.[^13] Isso excede a VRAM do H100, forçando reduções caras no tamanho do lote ou múltiplas GPUs.
A solução CXL: Armazenar cache KV em pool de memória CXL enquanto mantém camadas quentes na VRAM da GPU. XConn e MemVerge demonstraram isso no SC25 e OCP 2025:[^14]
- Duas GPUs H100 (80GB cada) executando OPT-6.7B
- Cache KV com offload para pool de memória CXL compartilhado
- Aceleração de 3,8x vs RDMA 200G
- Aceleração de 6,5x vs RDMA 100G
- Melhoria >5x vs cache KV baseado em SSD
Pesquisa acadêmica confirma a oportunidade. PNM-KV (Processing-Near-Memory para cache KV) alcança até 21,9x melhoria de throughput fazendo offload da seleção de página de token para aceleradores dentro da memória CXL.[^15]
Expansão de Memória para Treinamento
Cargas de trabalho de treinamento se beneficiam da capacidade expandida de memória para:
- Tamanhos de lote maiores: Mais amostras por iteração sem acumulação de gradiente
- Redução de checkpointing de ativação: Armazenar mais ativações na memória vs recomputação
- Estado do otimizador: Otimizador Adam requer 2x parâmetros para momentum/variância
A expansão de memória CXL possibilita configurações de treinamento que anteriormente requeriam distribuição multi-nó para executar em nós únicos, reduzindo overhead de comunicação.
Cargas de Trabalho Científicas e HPC
O projeto Crete da PNNL usa pools CXL para compartilhamento de memória de alto throughput entre nós de computação em simulações científicas.[^16] Casos de uso incluem:
- Dinâmica molecular com listas de vizinhos grandes
- Análise de grafos em datasets de trilhões de arestas
- Bancos de dados em memória excedendo capacidade de servidor único
O Panorama de Interconexões
CXL vs NVLink vs UALink
Entender onde o CXL se encaixa requer reconhecer que essas tecnologias servem propósitos diferentes:
| Padrão | Propósito Principal | Melhor Para |
|---|---|---|
| CXL | Coerência de memória + pooling | Expansão CPU-memória, pools de memória compartilhados |
| NVLink | Escalonamento GPU-to-GPU | Comunicação GPU dentro do nó |
| UALink | Interconexão de acelerador | Alternativa de padrão aberto ao NVLink |
| Ultra Ethernet | Rede scale-out | Multi-rack, 10.000+ endpoints |
O CXL executa em SerDes PCIe: menor taxa de erro, menor latência, mas menor largura de banda que SerDes estilo Ethernet do NVLink/UALink.[^17] O NVLink 5 entrega 1,8 TB/s por GPU—muito excedendo os 512 GB/s por porta x16 do CXL 4.0.[^18]
As tecnologias se complementam em vez de competir:
- Dentro de um nó GPU: NVLink conecta GPUs
- Entre nós: UALink ou InfiniBand/Ethernet
- Expansão de memória: CXL adiciona capacidade a CPUs e aceleradores
- Pools de memória fabric-wide: Switches CXL possibilitam compartilhamento entre hosts
A Panmnesia propõe arquiteturas "CXL-over-XLink" integrando todas as três, relatando treinamento de AI 5,3x mais rápido e redução de latência de inferência de 6x vs baselines PCIe/RDMA.[^19]
Framework de Decisão: Quando Usar O Quê
| Cenário | Interconexão Recomendada | Justificativa |
|---|---|---|
| Treinamento multi-GPU dentro do servidor | NVLink | Maior largura de banda, menor latência |
| Pod de inferência multi-GPU (não-NVIDIA) | UALink | Padrão aberto, alta largura de banda |
| Expandir memória além da VRAM | CXL | Coerência de cache, latência similar à DRAM |
| Cluster GPU multi-rack | InfiniBand ou Ultra Ethernet | Projetado para scale-out |
| Pool de memória compartilhado entre servidores | Switches CXL | Pooling de memória com coerência |
| Mercados China/restritivos | Considerar UB-Mesh | Evita dependências de PI ocidental |
Ecossistema CXL: Fornecedores e Produtos
Expansores de Memória
Os três principais fabricantes de DRAM todos fornecem expansores de memória CXL:
| Fornecedor | Produto | Capacidade | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Produção em massa 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Produção em massa final 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Amostragem[^22] |
| SK Hynix | CMS | 512 GB | CXL (habilitado para computação) | Anunciado[^23] |
O CMS (Computational Memory Solution) da SK Hynix adiciona capacidades de computação diretamente no módulo de memória—uma implementação inicial de processing-near-memory para CXL.
Fornecedores de Switch
Switches CXL possibilitam pooling de memória entre múltiplos hosts:
| Fornecedor | Produto | Geração | Status | Recurso Principal |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Produção | Switch 256-lane, primeiro no mercado[^24] |
| XConn | Apollo | CXL 2.0 | Produção | Demonstrações de pooling de memória no SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Amostragem Nov 2025 | Primeira implementação PBR[^26] |
| Astera Labs | Leo | CXL 2.0 | Produção | Controlador de memória inteligente[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Produção | Controlador de expansão de memória[^28] |
O CXL 3.2 Fabric Switch da Panmnesia representa um salto geracional: primeiro silício implementando roteamento baseado em porta para arquiteturas de fabric verdadeiras com até 4.096 nós.[^29]
Fornecedores de Controlador
Controladores de memória CXL traduzem entre protocolo CXL e DRAM:
| Fornecedor | Papel | Produtos Principais |
|---|---|---|
| Marvell | Controlador | Controladores CXL Structera[^30] |
| Montage | Controlador | Chips buffer de memória CXL |
| Astera Labs | Controlador | Controlador de memória inteligente Leo |
| Microchip | Controlador | Série SMC 2000 |
O Structera da Marvell completou testes de interoperabilidade com todos os três principais fornecedores de memória (Samsung, Micron, SK Hynix) em plataformas Intel e AMD.[^31]
Guia de Planejamento de Implementação
Cronograma
| Período | Geração CXL | Capacidade Esperada | Recomendação |
|---|---|---|---|
| Agora-T2 2026 | CXL 2.0 | Expansão de memória, pooling básico | Avaliação em produção |
| T3 2026-T4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nós | Adoção inicial para AI |
| 2027+ | CXL 4.0 | Pooling multi-rack, 1,5 TB/s | Planejamento começa agora |
A ABI Research espera soluções CXL 3.0/3.1 com suporte de software suficiente para adoção comercial até 2027.[^32]
O Que Avaliar Agora
Imediato (2025): 1. Testar expansores de memória CXL 2.0 em servidores Intel Sapphire Rapids ou AMD EPYC Genoa existentes 2. Avaliar switches XConn ou Astera Labs para pooling de memória