UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

UALink 1.0 desafia o NVLink com escalabilidade para 1.024 GPUs. CXL 4.0 dobra a largura de banda para 128 GT/s. Guia técnico sobre padrões abertos de interconexão para infraestrutura de IA.

UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

A especificação UALink 1.0 publicada em abril de 2025 permite escalar até 1.024 aceleradores em um único fabric, desafiando diretamente o ecossistema proprietário NVLink e NVSwitch da Nvidia. Sete meses depois, o CXL Consortium lançou o CXL 4.0 em 18 de novembro de 2025, dobrando a largura de banda para 128 GT/s e permitindo o pooling de memória multi-rack. Juntos, esses padrões abertos representam o desafio mais significativo ao domínio de interconexão da Nvidia desde que a empresa introduziu o NVLink em 2016.

TL;DR

O UALink 1.0 oferece 200 GT/s por lane com suporte para até 1.024 aceleradores, comparado ao máximo de 576 GPUs do NVLink. O CXL 4.0 dobra a largura de banda de memória para 128 GT/s e introduz portas agrupadas para cargas de trabalho de IA que exigem memória compartilhada em escala de terabytes. O hardware compatível com UALink chegará no final de 2026 da AMD, Intel e Astera Labs, enquanto as implantações multi-rack do CXL 4.0 estão previstas para 2027. Para equipes de infraestrutura planejando clusters GPU de próxima geração, essas especificações sinalizam uma mudança em direção a arquiteturas neutras em relação a fornecedores que reduzem o vendor lock-in enquanto permitem escala sem precedentes.


O Cenário de Interconexão em 2025

As interconexões de GPU determinam quão efetivamente os clusters de IA escalam. Quanto mais rápido os aceleradores podem trocar dados, maiores são os modelos que podem treinar e mais eficientemente podem atender requisições de inferência.

Tecnologias de Interconexão Atuais

Tecnologia Proprietário Largura de Banda Escala Máxima Status
NVLink 5.0 Nvidia 1,8 TB/s por GPU 576 GPUs Produção (Blackwell)
NVLink 4.0 Nvidia 900 GB/s por GPU 256 GPUs Produção (Hopper)
Infinity Fabric AMD ~1,075 TB/s por placa 8 GPUs (mesh direto) Produção (MI300X)
UALink 1.0 Consórcio 800 GB/s (4 lanes) 1.024 aceleradores Spec publicada abril 2025
CXL 4.0 Consórcio 128 GT/s Multi-rack Spec publicada nov 2025

O NVLink da Nvidia domina as implantações em produção, mas o sistema GB200 NVL72 exemplifica tanto seu poder quanto suas restrições: 72 GPUs Blackwell interconectadas com 130 TB/s de largura de banda agregada, mas exclusivamente dentro do ecossistema proprietário da Nvidia.


Formação do Consórcio

O Ultra Accelerator Link Consortium foi incorporado em outubro de 2024 com membros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta e Microsoft. O esforço se baseia no trabalho que AMD e Broadcom anunciaram em dezembro de 2023.

Em janeiro de 2025, Alibaba Cloud, Apple e Synopsys se juntaram em nível de conselho, elevando o total de membros para 75 organizações.

Especificações Técnicas

A Especificação UALink 200G 1.0 define uma interconexão de baixa latência e alta largura de banda para comunicação entre aceleradores e switches em pods de computação de IA.

Especificação UALink 1.0
Taxa de Dados por Lane 200 GT/s bidirecional
Taxa de Sinalização 212,5 GT/s (com overhead de FEC)
Larguras de Link x1, x2, x4
Largura de Banda Máxima 800 GB/s (config x4)
Escala Máxima 1.024 aceleradores
Comprimento do Cabo <4 metros otimizado
Meta de Latência <1 µs round-trip (payloads 64B/640B)

Os switches UALink atribuem uma porta por acelerador e usam identificadores únicos de 10 bits para roteamento preciso através do fabric.

Métrica UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Largura de Banda por GPU 800 GB/s 900 GB/s 1,8 TB/s
Links por GPU 4 18 18
GPUs Máximas 1.024 256 576
Vendor Lock-in Padrão aberto Apenas Nvidia Apenas Nvidia
Disponibilidade de Hardware Final 2026/2027 Produção Produção

O NVLink 5.0 oferece mais de 3x a largura de banda por conexão do UALink 1.0 (2.538 GB/s vs 800 GB/s). No entanto, o UALink suporta quase 2x o tamanho máximo de cluster (1.024 vs 576 GPUs) e opera com múltiplos fornecedores.

Diferenças na Filosofia de Design

O NVLink otimiza para clusters de GPU densos e homogêneos onde a largura de banda máxima entre aceleradores compactados importa mais. A tecnologia se destaca em sistemas DGX e racks NVL72 onde todos os componentes vêm da Nvidia.

O UALink visa arquiteturas modulares em escala de rack onde organizações misturam aceleradores de diferentes fornecedores ou requerem clusters lógicos maiores. O padrão aberto permite que AMD série MI, Intel Gaudi e futuros aceleradores se comuniquem através de um fabric comum.

Posição Atual da AMD

O Infinity Fabric da AMD conecta até oito GPUs MI300X ou MI355X em uma malha totalmente conectada. Cada MI300X possui sete links Infinity Fabric com 16 lanes por link, entregando aproximadamente 1,075 TB/s de largura de banda peer-to-peer.

A limitação: escalar além de 8 GPUs requer rede Ethernet. O roadmap da AMD inclui AFL (Accelerated Fabric Link) trabalhando sobre links PCIe Gen7, além da adoção do UALink para interoperabilidade multi-vendor.


CXL 4.0: Memória Sem Fronteiras

O Problema do Memory Wall

Cargas de trabalho de IA cada vez mais atingem gargalos de memória antes dos limites de computação. Modelos de linguagem grandes requerem terabytes de memória para caches KV durante inferência, enquanto execuções de treinamento exigem ainda mais para ativações e estados do otimizador.

Arquiteturas de servidor tradicionais conectam memória diretamente às CPUs, criando capacidade ociosa quando as cargas de trabalho variam. O CXL desacopla memória de computação, permitindo alocação dinâmica entre nós.

Especificações do CXL 4.0

O CXL Consortium lançou o CXL 4.0 na Supercomputing 2025 em 18 de novembro de 2025.

Especificação CXL 3.0/3.1 CXL 4.0
Taxa de Sinalização 64 GT/s 128 GT/s
Geração PCIe PCIe 6.0 PCIe 7.0
Largura de Banda 256 GB/s (x16) 512 GB/s (x16)
Retimers 2 4
Larguras de Link x16, x8, x4, x1 x16, x8, x4, x2, x1
Topologia Single-rack Multi-rack

Recursos Principais do CXL 4.0

Portas Agrupadas: O CXL 4.0 introduz agregação de portas permitindo que hosts e dispositivos combinem múltiplas portas físicas em uma única conexão lógica. Isso oferece maior largura de banda enquanto mantém um modelo de software simples onde o sistema vê um dispositivo.

Alcance Estendido: Quatro retimers permitem configurações multi-rack sem sacrificar a qualidade do sinal. O CXL 3.x limitava implantações a topologias de rack único; o CXL 4.0 estende o pooling de memória através dos corredores do data center.

Capacidade de Memória: O pooling de memória CXL permite mais de 100 terabytes de memória conectados a uma única CPU, valioso para organizações minerando grandes conjuntos de dados ou executando cargas de trabalho de IA intensivas em memória.

Links x2 Nativos: A nova opção de largura de link x2 reduz custos para aplicações que requerem largura de banda moderada, melhorando a economia do CXL para implantações de borda.

Desempenho do CXL Memory Pooling

Demonstrações no CXL DevCon 2025 mostraram dois servidores com GPUs NVIDIA H100 executando o modelo OPT-6.7B:

Configuração Desempenho
CXL Memory Pool Linha de base
200G RDMA 3,8x mais lento
100G RDMA 6,5x mais lento

O CXL fornece acesso com semântica de memória com latência na faixa de 200-500 ns, comparado a ~100 µs para NVMe e >10 ms para compartilhamento de memória baseado em armazenamento.

Ganhos de Energia e Eficiência

Pesquisas mostram que o CXL pode [reduzir o consumo de energia de memória em 20-30%](https://computeexpresslink.org/blog/over

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO