NVLink e rede scale-up: quando 800G Ethernet não é suficiente
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: NVLink 5 entregando 1,8TB/s por GPU (18 links × 100GB/s)—14x a largura de banda do PCIe Gen5. GB200 NVL72 conectando 72 GPUs com 130TB/s agregados. NVSwitch habilitando 576 GPUs em fabric non-blocking com 1PB/s de largura de banda total. NVLink de quinta geração alcançando 12x a largura de banda da primeira geração (2014). Rede scale-up cria capacidades que redes scale-out não conseguem igualar.
Uma única GPU NVIDIA Blackwell suporta até 18 conexões NVLink a 100 gigabytes por segundo cada, entregando 1,8 terabytes por segundo de largura de banda total—14 vezes a largura de banda do PCIe Gen5.¹ O sistema GB200 NVL72 conecta 72 GPUs em um único domínio NVLink com 130 terabytes por segundo de largura de banda agregada.² O NVLink Switch da NVIDIA habilita 576 GPUs em um fabric de computação non-blocking com mais de 1 petabyte por segundo de largura de banda total.³ Rede scale-up cria capacidades de infraestrutura que redes scale-out Ethernet e InfiniBand não conseguem igualar.
A distinção entre rede scale-up e scale-out define a arquitetura moderna de infraestrutura de IA. NVLink e NVSwitch lidam com comunicação dentro de nós e racks, entregando a largura de banda e latência necessárias para paralelismo de tensores em modelos grandes. InfiniBand e Ethernet lidam com comunicação entre racks, fornecendo o alcance necessário para paralelismo de dados através de milhares de GPUs. Entender quando cada tecnologia se aplica determina se os investimentos em infraestrutura entregam o desempenho esperado.
Especificações do NVLink de quinta geração
O NVLink de quinta geração dobra a largura de banda em comparação com a geração anterior.⁴ Cada link opera a 100 gigabytes por segundo bidirecional, com 18 links por GPU Blackwell fornecendo 1,8 terabytes por segundo de largura de banda agregada.⁵ A melhoria excede a largura de banda do PCIe Gen5 em mais de 14 vezes.⁶
A evolução através das gerações demonstra a trajetória:
| Geração | Arquitetura | Links | Largura de Banda por GPU |
|---|---|---|---|
| 1ª (2018) | Volta V100 | 6 | 300 GB/s |
| 2ª (2020) | Ampere A100 | 12 | 600 GB/s |
| 3ª (2022) | Hopper H100 | 18 | 900 GB/s |
| 4ª (2024) | Blackwell B200 | 18 | 1,8 TB/s |
O NVLink de quinta geração alcança 12 vezes a largura de banda do NVLink de primeira geração introduzido em 2014.⁷ A duplicação de Hopper para Blackwell reflete os requisitos crescentes de largura de banda de modelos com trilhões de parâmetros.
O aumento de largura de banda por link de 50 gigabytes por segundo no NVLink 4 para 100 gigabytes por segundo no NVLink 5 permite que a mesma configuração de 18 links duplique o throughput total.⁸ A arquitetura mantém a contagem de links enquanto melhora as taxas de sinalização.
Evolução da arquitetura NVSwitch
A NVIDIA introduziu o NVSwitch com o sistema DGX-2 em 2018 para habilitar conectividade total entre GPUs dentro de um único sistema.⁹ O NVSwitch atua como um switch crossbar non-blocking de alta velocidade para tráfego NVLink, permitindo que cada GPU em um sistema se comunique com todas as outras GPUs em velocidade máxima.¹⁰
O DGX-2 apresentava 16 GPUs V100 conectadas através do NVSwitch de primeira geração.¹¹ Cada chip NVSwitch fornecia 18 portas NVLink com 900 gigabytes por segundo de capacidade de switching agregada.¹² O chip de 100 watts fabricado em TSMC 12nm continha 2 bilhões de transistores.¹³
O NVSwitch de segunda geração chegou com o DGX A100 em 2020, suportando NVLink 3.0 a 600 gigabytes por segundo por GPU.¹⁴ Seis chips NVSwitch criavam uma topologia de rede totalmente conectada para oito GPUs A100.¹⁵
O NVSwitch de terceira geração para Hopper aumentou para 25,6 terabits por segundo de largura de banda bidirecional total por chip.¹⁶ Quatro chips NVSwitch em cada sistema HGX H100 e HGX H200 fornecem 3,6 terabytes por segundo de largura de banda de rede bidirecional através de oito GPUs.¹⁷ O NVSwitch de terceira geração introduziu funcionalidade SHARP para computação in-network, agregando e atualizando resultados através de múltiplas unidades GPU sem exigir ida e volta para GPUs individuais.¹⁸
O NVSwitch de quarta geração para Blackwell apresenta 72 portas NVLink 5.0 por chip.¹⁹ O NVLink 5 Switch fornece 144 portas NVLink com 14,4 terabytes por segundo de capacidade de switching non-blocking.²⁰ Esta geração introduziu switching em nível de rack, movendo o NVSwitch de servidores para bandejas de switch dedicadas.
Arquitetura scale-up GB200 NVL72
O GB200 NVL72 conecta 36 CPUs Grace e 72 GPUs Blackwell em um design de escala de rack com refrigeração líquida.²¹ O domínio NVLink de 72 GPUs atua como uma única GPU massiva e entrega inferência de modelos de linguagem grandes com trilhões de parâmetros em tempo real 30 vezes mais rápida comparada às gerações anteriores.²²
A arquitetura física distribui componentes através de bandejas de computação e bandejas de switch.²³ Cada bandeja de computação contém dois Superchips GB200, com cada Superchip compreendendo duas GPUs B200 e uma CPU Grace.²⁴ O sistema contém 18 bandejas de computação totalizando 72 GPUs.
Nove bandejas de switch NVLink fornecem conectividade full-mesh.²⁵ Cada bandeja de switch contém dois chips NVLink Switch com 144 portas NVLink no total.²⁶ Os nove switches conectam completamente cada uma das 18 portas NVLink em cada GPU Blackwell.²⁷
Não existe conectividade direta GPU-para-GPU dentro de um único servidor ou bandeja de computação.²⁸ Toda comunicação é roteada através do fabric NVSwitch externo.²⁹ Esta arquitetura torna todas as 72 GPUs equivalentes de uma perspectiva de conectividade—qualquer GPU pode se comunicar com qualquer outra na mesma largura de banda e latência.³⁰
Os 130 terabytes por segundo de largura de banda NVLink agregada habilitam paralelismo de tensores através de todas as 72 GPUs.³¹ Modelos grandes que excedem a capacidade de memória de uma única GPU podem distribuir tensores através de todo o domínio com overhead mínimo de comunicação. A arquitetura elimina o limite tradicional entre rede de servidor e rack para cargas de trabalho scale-up.
Rede scale-up versus scale-out
Rede scale-up (NVLink) e rede scale-out (InfiniBand e Ethernet) servem propósitos fundamentalmente diferentes na infraestrutura de IA.³²
NVLink se destaca em comunicação rápida entre GPUs dentro de um único domínio—muito mais rápido que InfiniBand, com largura de banda na ordem de terabytes por segundo para conexões locais.³³ A baixa latência e alta largura de banda suportam paralelismo de tensores, onde pesos do modelo se distribuem através de GPUs e devem sincronizar em cada camada. Os 1,8 terabytes por segundo por GPU do NVLink habilitam essa sincronização sem se tornar um gargalo.
NVLink não ajuda uma vez que a comunicação cruza os limites do nó.³⁴ Rede inter-nós requer InfiniBand ou Ethernet independentemente da capacidade NVLink intra-nó. As tecnologias operam em diferentes camadas da hierarquia.
InfiniBand fornece o padrão da indústria para conectar milhares de nós de servidor.³⁵ Remote Direct Memory Access (RDMA) permite que servidores troquem dados diretamente entre espaços de memória, contornando overhead de CPU e SO.³⁶ O recurso se prova essencial para treinamento distribuído em larga escala usando paralelismo de dados, onde cada nó processa diferentes lotes e sincroniza gradientes.
InfiniBand permanece o padrão ouro para treinamento de IA em escala, conectando mais de 270 dos principais supercomputadores do mundo.³⁷ O roteamento adaptativo, controle de congestionamento e capacidades RDMA foram projetados especificamente para computação de alto desempenho síncrona.
Ethernet está superando InfiniBand para implantações scale-out.³⁸ O Spectrum-X da NVIDIA traz inovações do InfiniBand para Ethernet, incluindo controle de congestionamento orientado por telemetria, balanceamento de carga adaptativo e posicionamento direto de dados.³⁹ Sistemas em larga escala com Spectrum-X alcançaram 95% de throughput de dados com zero degradação de latência de aplicação, comparado a apenas 60% de throughput de fabrics Ethernet padrão.⁴⁰
O modelo hierárquico combina essas tecnologias apropriadamente. NVLink lida com scale-up dentro do rack, entregando aproximadamente 18 vezes a largura de banda de rede scale-out.⁴¹ InfiniBand ou Ethernet lida com scale-out entre racks, fornecendo alcance através de milhares de nós. Cada bandeja de GPU em sistemas GB200 NVL72 inclui NICs RDMA de 800 gigabits por segundo para comunicação inter-rack.⁴²
Domínios de 576 GPUs e arquitetura SuperPOD
O NVLink Switch habilita 576 GPUs totalmente conectadas em um fabric de computação non-blocking.⁴³ Oito racks GB200 NVL72 formam um SuperPOD, criando um supernó de 576 GPUs com mais de 1 petabyte por segundo de largura de banda total e 240 terabytes de memória rápida.⁴⁴
DGX SuperPOD é construído em unidades escaláveis (SU), cada uma contendo oito sistemas DGX GB200.⁴⁵ O design modular permite implantação rápida de SuperPODs em qualquer escala. A arquitetura de referência inclui especificações para InfiniBand, rede NVLink, topologias de fabric Ethernet, sistemas de armazenamento, layouts de rack e cabeamento.⁴⁶
O domínio de 576 GPUs mantém a topologia NVLink totalmente conectada através de todos os racks no SuperPOD.⁴⁷ Qualquer GPU pode se comunicar com qualquer outra a 1,8 terabytes por segundo sem atravessar rede scale-out.⁴⁸ O tamanho do domínio corresponde aos requisitos dos maiores modelos de fundação atualmente em treinamento.
A implantação de SuperPOD requer instalação on-premises.⁴⁹ Clientes possuem e gerenciam o hardware dentro de seus data centers ou instalações comerciais co-localizadas. A arquitetura espelha os sistemas internos de pesquisa e desenvolvimento da NVIDIA, significando que software de infraestrutura, aplicações e suporte são testados em configurações idênticas.⁵⁰
Os provedores de nuvem Microsoft Azure, Oracle Cloud e CoreWeave se comprometeram a suportar a arquitetura X800 quando disponível em 2025.⁵¹ Implantações em nuvem estendem as capacidades do SuperPOD para organizações que não conseguem justificar infraestrutura on-premises dedicada.
Implantação Kubernetes empresarial
Sistemas Multi-Node NVLink (MNNVL) requerem configuração Kubernetes especializada.⁵² Kubernetes não reconhece nativamente a arquitetura MNNVL da NVIDIA, tornando o gerenciamento de carga de trabalho e agendamento mais complexos que implantações GPU padrão.⁵³
Requisitos de implantação incluem Kubernetes 1.32 ou posterior e NVIDIA GPU Operator versão 25.3 ou superior.⁵⁴ A versão do GPU Operator deve incluir o driver Dynamic Resource Allocation (DRA), que fornece suporte para recursos de rede acelerada GB200 e o recurso ComputeDomain.⁵⁵ NVIDIA Network Operator lida com configuração de rede.
O serviço IMEX suporta exportação e importação de memória GPU através de domínios de SO em implantações NVLink multi-nó.⁵⁶ O serviço habilita comunicação peer-to-peer NVLink e operações de memória compartilhada através do domínio.
Quando cargas de trabalho distribuídas visam pools de nós MNNVL, a plataforma cria um Custom Resource Definition (CRD) ComputeDomain para gerenciar atribuições de domínio NVLink.⁵⁷ Uma referência ao ComputeDomain é automaticamente anexada às especificações de carga de trabalho como uma reivindicação de recurso, permitindo que o agendador vincule cargas de trabalho a domínios NVLink específicos.⁵⁸
Regras de afinidade de pod usam a chave de label MNNVL (nvidia.com/gpu.clique) como chave de topologia.⁵⁹ A configuração garante que pods dentro de cargas de trabalho distribuídas aterrissem em nós com interconexões NVLink, mantendo a topologia necessária para desempenho.⁶⁰
Considerações de planejamento de infraestrutura
Organizações avaliando infraestrutura NVLink devem considerar características de carga de trabalho primeiro. Paralelismo de tensores através de modelos grandes se beneficia diretamente da largura de banda NVLink. Paralelismo de dados através de muitos modelos menores pode não exigir as capacidades do NVLink e pode alcançar desempenho adequado apenas com rede scale-out.
O GB200 NVL72 representa um compromisso significativo de infraestrutura. Requisitos de refrigeração líquida, integração em escala de rack e rede especializada excedem a complexidade de arquiteturas refrigeradas a ar centradas em servidor. Organizações devem validar que cargas de trabalho requerem essas capacidades antes de se comprometerem.
Infraestrutura de energia e refrigeração deve acomodar refrigeração líquida desde a implantação inicial. O GB200 NVL72 não pode operar com refrigeração a ar. Retrofit de instalações para refrigeração líquida após a implantação é caro e disruptivo.
Planejamento de rede deve abordar requisitos tanto scale-up quanto scale-out. O fabric NVLink lida com comunicação intra-rack, mas inter
[Conteúdo truncado para tradução]