UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

UALink 1.0 desafia o NVLink com escalabilidade para 1.024 GPUs. CXL 4.0 dobra a largura de banda para 128 GT/s. Guia técnico sobre padrões abertos de interconexão para infraestrutura de IA.

Blake Crosley

Feb 06, 2026 6 min read Disclaimer

UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

A especificação UALink 1.0 publicada em abril de 2025 permite escalar até 1.024 aceleradores em um único fabric, desafiando diretamente o ecossistema proprietário NVLink e NVSwitch da Nvidia. Sete meses depois, o CXL Consortium lançou o CXL 4.0 em 18 de novembro de 2025, dobrando a largura de banda para 128 GT/s e permitindo o pooling de memória multi-rack. Juntos, esses padrões abertos representam o desafio mais significativo ao domínio de interconexão da Nvidia desde que a empresa introduziu o NVLink em 2016.

TL;DR

O UALink 1.0 oferece 200 GT/s por lane com suporte para até 1.024 aceleradores, comparado ao máximo de 576 GPUs do NVLink. O CXL 4.0 dobra a largura de banda de memória para 128 GT/s e introduz portas agrupadas para cargas de trabalho de IA que exigem memória compartilhada em escala de terabytes. O hardware compatível com UALink chegará no final de 2026 da AMD, Intel e Astera Labs, enquanto as implantações multi-rack do CXL 4.0 estão previstas para 2027. Para equipes de infraestrutura planejando clusters GPU de próxima geração, essas especificações sinalizam uma mudança em direção a arquiteturas neutras em relação a fornecedores que reduzem o vendor lock-in enquanto permitem escala sem precedentes.

O Cenário de Interconexão em 2025

As interconexões de GPU determinam quão efetivamente os clusters de IA escalam. Quanto mais rápido os aceleradores podem trocar dados, maiores são os modelos que podem treinar e mais eficientemente podem atender requisições de inferência.

Tecnologias de Interconexão Atuais

Tecnologia	Proprietário	Largura de Banda	Escala Máxima	Status
NVLink 5.0	Nvidia	1,8 TB/s por GPU	576 GPUs	Produção (Blackwell)
NVLink 4.0	Nvidia	900 GB/s por GPU	256 GPUs	Produção (Hopper)
Infinity Fabric	AMD	~1,075 TB/s por placa	8 GPUs (mesh direto)	Produção (MI300X)
UALink 1.0	Consórcio	800 GB/s (4 lanes)	1.024 aceleradores	Spec publicada abril 2025
CXL 4.0	Consórcio	128 GT/s	Multi-rack	Spec publicada nov 2025

O NVLink da Nvidia domina as implantações em produção, mas o sistema GB200 NVL72 exemplifica tanto seu poder quanto suas restrições: 72 GPUs Blackwell interconectadas com 130 TB/s de largura de banda agregada, mas exclusivamente dentro do ecossistema proprietário da Nvidia.

UALink 1.0: Quebrando o Vendor Lock-in

Formação do Consórcio

O Ultra Accelerator Link Consortium foi incorporado em outubro de 2024 com membros fundadores AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta e Microsoft. O esforço se baseia no trabalho que AMD e Broadcom anunciaram em dezembro de 2023.

Em janeiro de 2025, Alibaba Cloud, Apple e Synopsys se juntaram em nível de conselho, elevando o total de membros para 75 organizações.

Especificações Técnicas

A Especificação UALink 200G 1.0 define uma interconexão de baixa latência e alta largura de banda para comunicação entre aceleradores e switches em pods de computação de IA.

Especificação	UALink 1.0
Taxa de Dados por Lane	200 GT/s bidirecional
Taxa de Sinalização	212,5 GT/s (com overhead de FEC)
Larguras de Link	x1, x2, x4
Largura de Banda Máxima	800 GB/s (config x4)
Escala Máxima	1.024 aceleradores
Comprimento do Cabo	<4 metros otimizado
Meta de Latência	<1 µs round-trip (payloads 64B/640B)

Os switches UALink atribuem uma porta por acelerador e usam identificadores únicos de 10 bits para roteamento preciso através do fabric.

UALink vs NVLink: Comparação Direta

Métrica	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Largura de Banda por GPU	800 GB/s	900 GB/s	1,8 TB/s
Links por GPU	4	18	18
GPUs Máximas	1.024	256	576
Vendor Lock-in	Padrão aberto	Apenas Nvidia	Apenas Nvidia
Disponibilidade de Hardware	Final 2026/2027	Produção	Produção

O NVLink 5.0 oferece mais de 3x a largura de banda por conexão do UALink 1.0 (2.538 GB/s vs 800 GB/s). No entanto, o UALink suporta quase 2x o tamanho máximo de cluster (1.024 vs 576 GPUs) e opera com múltiplos fornecedores.

Diferenças na Filosofia de Design

O NVLink otimiza para clusters de GPU densos e homogêneos onde a largura de banda máxima entre aceleradores compactados importa mais. A tecnologia se destaca em sistemas DGX e racks NVL72 onde todos os componentes vêm da Nvidia.

O UALink visa arquiteturas modulares em escala de rack onde organizações misturam aceleradores de diferentes fornecedores ou requerem clusters lógicos maiores. O padrão aberto permite que AMD série MI, Intel Gaudi e futuros aceleradores se comuniquem através de um fabric comum.

Posição Atual da AMD

O Infinity Fabric da AMD conecta até oito GPUs MI300X ou MI355X em uma malha totalmente conectada. Cada MI300X possui sete links Infinity Fabric com 16 lanes por link, entregando aproximadamente 1,075 TB/s de largura de banda peer-to-peer.

A limitação: escalar além de 8 GPUs requer rede Ethernet. O roadmap da AMD inclui AFL (Accelerated Fabric Link) trabalhando sobre links PCIe Gen7, além da adoção do UALink para interoperabilidade multi-vendor.

CXL 4.0: Memória Sem Fronteiras

O Problema do Memory Wall

Cargas de trabalho de IA cada vez mais atingem gargalos de memória antes dos limites de computação. Modelos de linguagem grandes requerem terabytes de memória para caches KV durante inferência, enquanto execuções de treinamento exigem ainda mais para ativações e estados do otimizador.

Arquiteturas de servidor tradicionais conectam memória diretamente às CPUs, criando capacidade ociosa quando as cargas de trabalho variam. O CXL desacopla memória de computação, permitindo alocação dinâmica entre nós.

Especificações do CXL 4.0

O CXL Consortium lançou o CXL 4.0 na Supercomputing 2025 em 18 de novembro de 2025.

Especificação	CXL 3.0/3.1	CXL 4.0
Taxa de Sinalização	64 GT/s	128 GT/s
Geração PCIe	PCIe 6.0	PCIe 7.0
Largura de Banda	256 GB/s (x16)	512 GB/s (x16)
Retimers	2	4
Larguras de Link	x16, x8, x4, x1	x16, x8, x4, x2, x1
Topologia	Single-rack	Multi-rack

Recursos Principais do CXL 4.0

Portas Agrupadas: O CXL 4.0 introduz agregação de portas permitindo que hosts e dispositivos combinem múltiplas portas físicas em uma única conexão lógica. Isso oferece maior largura de banda enquanto mantém um modelo de software simples onde o sistema vê um dispositivo.

Alcance Estendido: Quatro retimers permitem configurações multi-rack sem sacrificar a qualidade do sinal. O CXL 3.x limitava implantações a topologias de rack único; o CXL 4.0 estende o pooling de memória através dos corredores do data center.

Capacidade de Memória: O pooling de memória CXL permite mais de 100 terabytes de memória conectados a uma única CPU, valioso para organizações minerando grandes conjuntos de dados ou executando cargas de trabalho de IA intensivas em memória.

Links x2 Nativos: A nova opção de largura de link x2 reduz custos para aplicações que requerem largura de banda moderada, melhorando a economia do CXL para implantações de borda.

Desempenho do CXL Memory Pooling

Demonstrações no CXL DevCon 2025 mostraram dois servidores com GPUs NVIDIA H100 executando o modelo OPT-6.7B:

Configuração	Desempenho
CXL Memory Pool	Linha de base
200G RDMA	3,8x mais lento
100G RDMA	6,5x mais lento

O CXL fornece acesso com semântica de memória com latência na faixa de 200-500 ns, comparado a ~100 µs para NVMe e >10 ms para compartilhamento de memória baseado em armazenamento.

Ganhos de Energia e Eficiência

Pesquisas mostram que o CXL pode [reduzir o consumo de energia de memória em 20-30%](https://computeexpresslink.org/blog/over

UALink e CXL 4.0: Os Padrões Abertos que Estão Reformulando a Arquitetura de Clusters GPU

TL;DR

O Cenário de Interconexão em 2025

Tecnologias de Interconexão Atuais

UALink 1.0: Quebrando o Vendor Lock-in

Formação do Consórcio

Especificações Técnicas

UALink vs NVLink: Comparação Direta

Diferenças na Filosofia de Design

Posição Atual da AMD

CXL 4.0: Memória Sem Fronteiras

O Problema do Memory Wall

Especificações do CXL 4.0

Recursos Principais do CXL 4.0

Desempenho do CXL Memory Pooling

Ganhos de Energia e Eficiência

You Might Also Like

Calculadora de ROI para Resfriamento por Imersão: Retorno de...

Corredor de IA do Reino Unido: O Hub de Computação Emergente...

Eficiência no Uso da Água: Refrigeração de Data Centers de I...

Solicitar Orçamento_

Solicitação Recebida_