UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU
A especificação UALink 1.0 publicada em abril de 2025 permite escalar até 1.024 aceleradores em um único fabric, desafiando diretamente o ecossistema proprietário NVLink e NVSwitch da Nvidia. Sete meses depois, o CXL Consortium lançou o CXL 4.0 em 18 de novembro de 2025, dobrando a largura de banda para 128 GT/s e permitindo o pooling de memória multi-rack. Juntos, esses padrões abertos representam o desafio mais significativo ao domínio de interconexão da Nvidia desde que a empresa introduziu o NVLink em 2016.
TL;DR
O UALink 1.0 oferece 200 GT/s por lane com suporte para até 1.024 aceleradores, comparado ao máximo de 576 GPUs do NVLink. O CXL 4.0 dobra a largura de banda de memória para 128 GT/s e introduz portas agrupadas para cargas de trabalho de IA que exigem memória compartilhada em escala de terabytes. O hardware compatível com UALink chegará no final de 2026 da AMD, Intel e Astera Labs, enquanto as implantações multi-rack do CXL 4.0 estão previstas para 2027. Para equipes de infraestrutura planejando clusters GPU de próxima geração, essas especificações sinalizam uma mudança em direção a arquiteturas neutras em relação a fornecedores que reduzem o vendor lock-in enquanto permitem escala sem precedentes.
O Cenário de Interconexão em 2025
As interconexões de GPU determinam quão efetivamente os clusters de IA escalam. Quanto mais rápido os aceleradores podem trocar dados, maiores são os modelos que podem treinar e mais eficientemente podem atender requisições de inferência.
Tecnologias de Interconexão Atuais
| Tecnologia | Proprietário | Largura de Banda | Escala Máxima | Status |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 TB/s por GPU | 576 GPUs | Produção (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s por GPU | 256 GPUs | Produção (Hopper) |
| Infinity Fabric | AMD | ~1,075 TB/s por placa | 8 GPUs (mesh direto) | Produção (MI300X) |
| UALink 1.0 | Consórcio | 800 GB/s (4 lanes) | 1.024 aceleradores | Spec publicada abril 2025 |
| CXL 4.0 | Consórcio | 128 GT/s | Multi-rack | Spec publicada nov 2025 |
O NVLink da Nvidia domina as implantações em produção, mas o sistema GB200 NVL72 exemplifica tanto seu poder quanto suas restrições: 72 GPUs Blackwell interconectadas com 130 TB/s de largura de banda agregada, mas exclusivamente dentro do ecossistema proprietário da Nvidia.
UALink 1.0: Quebrando o Vendor Lock-in
Formação do Consórcio
O Ultra Accelerator Link Consortium foi incorporado em outubro de 2024 com membros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta e Microsoft. O esforço se baseia no trabalho que AMD e Broadcom anunciaram em dezembro de 2023.
Em janeiro de 2025, Alibaba Cloud, Apple e Synopsys se juntaram em nível de conselho, elevando o total de membros para 75 organizações.
Especificações Técnicas
A Especificação UALink 200G 1.0 define uma interconexão de baixa latência e alta largura de banda para comunicação entre aceleradores e switches em pods de computação de IA.
| Especificação | UALink 1.0 |
|---|---|
| Taxa de Dados por Lane | 200 GT/s bidirecional |
| Taxa de Sinalização | 212,5 GT/s (com overhead de FEC) |
| Larguras de Link | x1, x2, x4 |
| Largura de Banda Máxima | 800 GB/s (config x4) |
| Escala Máxima | 1.024 aceleradores |
| Comprimento do Cabo | <4 metros otimizado |
| Meta de Latência | <1 µs round-trip (payloads 64B/640B) |
Os switches UALink atribuem uma porta por acelerador e usam identificadores únicos de 10 bits para roteamento preciso através do fabric.
UALink vs NVLink: Comparação Direta
| Métrica | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Largura de Banda por GPU | 800 GB/s | 900 GB/s | 1,8 TB/s |
| Links por GPU | 4 | 18 | 18 |
| GPUs Máximas | 1.024 | 256 | 576 |
| Vendor Lock-in | Padrão aberto | Apenas Nvidia | Apenas Nvidia |
| Disponibilidade de Hardware | Final 2026/2027 | Produção | Produção |
O NVLink 5.0 oferece mais de 3x a largura de banda por conexão do UALink 1.0 (2.538 GB/s vs 800 GB/s). No entanto, o UALink suporta quase 2x o tamanho máximo de cluster (1.024 vs 576 GPUs) e opera com múltiplos fornecedores.
Diferenças na Filosofia de Design
O NVLink otimiza para clusters de GPU densos e homogêneos onde a largura de banda máxima entre aceleradores compactados importa mais. A tecnologia se destaca em sistemas DGX e racks NVL72 onde todos os componentes vêm da Nvidia.
O UALink visa arquiteturas modulares em escala de rack onde organizações misturam aceleradores de diferentes fornecedores ou requerem clusters lógicos maiores. O padrão aberto permite que AMD série MI, Intel Gaudi e futuros aceleradores se comuniquem através de um fabric comum.
Posição Atual da AMD
O Infinity Fabric da AMD conecta até oito GPUs MI300X ou MI355X em uma malha totalmente conectada. Cada MI300X possui sete links Infinity Fabric com 16 lanes por link, entregando aproximadamente 1,075 TB/s de largura de banda peer-to-peer.
A limitação: escalar além de 8 GPUs requer rede Ethernet. O roadmap da AMD inclui AFL (Accelerated Fabric Link) trabalhando sobre links PCIe Gen7, além da adoção do UALink para interoperabilidade multi-vendor.
CXL 4.0: Memória Sem Fronteiras
O Problema do Memory Wall
Cargas de trabalho de IA cada vez mais atingem gargalos de memória antes dos limites de computação. Modelos de linguagem grandes requerem terabytes de memória para caches KV durante inferência, enquanto execuções de treinamento exigem ainda mais para ativações e estados do otimizador.
Arquiteturas de servidor tradicionais conectam memória diretamente às CPUs, criando capacidade ociosa quando as cargas de trabalho variam. O CXL desacopla memória de computação, permitindo alocação dinâmica entre nós.
Especificações do CXL 4.0
O CXL Consortium lançou o CXL 4.0 na Supercomputing 2025 em 18 de novembro de 2025.
| Especificação | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Taxa de Sinalização | 64 GT/s | 128 GT/s |
| Geração PCIe | PCIe 6.0 | PCIe 7.0 |
| Largura de Banda | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimers | 2 | 4 |
| Larguras de Link | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Topologia | Single-rack | Multi-rack |
Recursos Principais do CXL 4.0
Portas Agrupadas: O CXL 4.0 introduz agregação de portas permitindo que hosts e dispositivos combinem múltiplas portas físicas em uma única conexão lógica. Isso oferece maior largura de banda enquanto mantém um modelo de software simples onde o sistema vê um dispositivo.
Alcance Estendido: Quatro retimers permitem configurações multi-rack sem sacrificar a qualidade do sinal. O CXL 3.x limitava implantações a topologias de rack único; o CXL 4.0 estende o pooling de memória através dos corredores do data center.
Capacidade de Memória: O pooling de memória CXL permite mais de 100 terabytes de memória conectados a uma única CPU, valioso para organizações minerando grandes conjuntos de dados ou executando cargas de trabalho de IA intensivas em memória.
Links x2 Nativos: A nova opção de largura de link x2 reduz custos para aplicações que requerem largura de banda moderada, melhorando a economia do CXL para implantações de borda.
Desempenho do CXL Memory Pooling
Demonstrações no CXL DevCon 2025 mostraram dois servidores com GPUs NVIDIA H100 executando o modelo OPT-6.7B:
| Configuração | Desempenho |
|---|---|
| CXL Memory Pool | Linha de base |
| 200G RDMA | 3,8x mais lento |
| 100G RDMA | 6,5x mais lento |
O CXL fornece acesso com semântica de memória com latência na faixa de 200-500 ns, comparado a ~100 µs para NVMe e >10 ms para compartilhamento de memória baseado em armazenamento.
Ganhos de Energia e Eficiência
Pesquisas mostram que o CXL pode [reduzir o consumo de energia de memória em 20-30%](https://computeexpresslink.org/blog/over