Switches InfiniBand: NVIDIA Quantum-X800 e a Geração XDR Impulsionando Supercomputadores de IA
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: Mercado InfiniBand alcançando US$ 25,7 bilhões em 2025, projetado US$ 126,99 bilhões até 2030 (CAGR de 37,60%). Quantum-X800 entregando 144 portas de 800Gbps XDR com 14,4 TFLOPS de computação in-network (9x vs NDR). Latência porta-a-porta sub-100ns. Os 64.000 GB200s do Stargate e o supercluster de escala zetta de 131.000 GPUs da Oracle rodando em InfiniBand.
As vendas de switches InfiniBand dispararam no Q2 de 2025, à medida que a plataforma Blackwell Ultra da NVIDIA impulsionou a demanda por redes de 800Gbps.¹ O mercado InfiniBand, avaliado em US$ 25,74 bilhões em 2025, projeta crescimento para US$ 126,99 bilhões até 2030 com uma taxa de crescimento anual composta de 37,60%.² Enquanto o Ethernet mantém liderança geral de mercado para redes back-end de IA, o InfiniBand domina as implantações de maior desempenho onde a latência medida em centenas de nanossegundos determina a eficiência do treinamento.
A plataforma Quantum-X800 representa a resposta da NVIDIA aos requisitos de modelos de trilhões de parâmetros. Com 144 portas de conectividade de 800Gbps, 14,4 teraflops de computação in-network através do SHARP v4 e latência porta-a-porta sub-100 nanossegundos, a geração XDR dobra a largura de banda enquanto entrega 9x mais computação in-network que a plataforma NDR anterior.³ Instalações importantes, incluindo os sistemas de 64.000 GB200 do Stargate e o supercluster de escala zetta de 131.000 GPUs da Oracle, dependem do NVIDIA InfiniBand para manter a sincronização precisa que o treinamento distribuído de IA requer.⁴
A evolução do NDR para o XDR
As gerações InfiniBand avançam através de incrementos de velocidade padronizados: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps) e agora XDR (800Gbps).⁵ Cada geração dobra a largura de banda por porta enquanto mantém a baixa latência e confiabilidade em nível de hardware que diferenciam o InfiniBand das alternativas Ethernet.
O NDR (Next Data Rate), introduzido em 2021, entregou portas de 400Gbps usando quatro lanes de SerDes codificado em PAM-4 rodando a 51,6 GHz.⁶ Os ASICs Quantum-2 que alimentam os switches NDR fornecem 256 lanes SerDes com largura de banda unidirecional de 25,6Tbps, processando 66,5 bilhões de pacotes por segundo através de 64 portas de conectividade de 400Gbps.⁷ O NDR trouxe conectores OSFP para o InfiniBand, habilitando um ou dois links em configurações 2x (NDR200) ou 4x (NDR400).⁸
A especificação XDR (eXtreme Data Rate), lançada pela InfiniBand Trade Association em outubro de 2023, dobra a largura de banda para atender às demandas de data centers de IA e HPC.⁹ O suporte SerDes a 200Gbps por lane habilita portas de 800Gbps, com conexões switch-para-switch alcançando 1,6Tbps.¹⁰ O XDR introduz SHARP de quarta geração, melhorias de latência ultra-baixa, capacidades de auto-recuperação e integração de fotônica de silício.¹¹
O roadmap continua em direção à tecnologia GDR (Giga Data Rate) fornecendo 1,6Tbps por porta para gerações futuras, garantindo que o InfiniBand mantenha sua posição de liderança em desempenho.¹²
Arquitetura da plataforma NVIDIA Quantum-X800
A plataforma Quantum-X800 entrega a primeira implementação InfiniBand XDR, construída especificamente para modelos de IA em escala de trilhões de parâmetros.¹³ O switch Q3400-RA de 4U utiliza tecnologia SerDes de 200Gbps por lane, o primeiro silício de switch a alcançar este grau de velocidade.¹⁴
A densidade de portas escala substancialmente. O switch fornece 144 portas de conectividade de 800Gbps distribuídas em 72 cages OSFP.¹⁵ O alto radix habilita topologias de fabric eficientes, com um fat-tree de dois níveis capaz de conectar até 10.368 NICs ConnectX-8 com latência mínima e localidade de job otimizada.¹⁶
As especificações de desempenho visam as cargas de trabalho de IA mais exigentes. A latência porta-a-porta mede abaixo de 100 nanossegundos.¹⁷ O roteamento adaptativo distribui o tráfego através dos caminhos disponíveis dinamicamente. O controle de congestionamento baseado em telemetria previne a saturação da rede antes que ela impacte a utilização das GPUs.¹⁸
Enclosures de switch duplo em modelos como o Q3200-RA fornecem 72 portas de 800Gbps através de 1,6Tbps de largura de banda agregada switch-para-switch, habilitando as topologias spine-leaf que grandes clusters de IA requerem.¹⁹ Capacidades opcionais de roteador facilitam a expansão de clusters InfiniBand através de múltiplos sites, suportando ambientes de treinamento distribuído abrangendo localizações geográficas.²⁰
Computação in-network SHARP elimina gargalos
O Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) da NVIDIA representa a vantagem tecnológica definidora do InfiniBand sobre alternativas Ethernet. Ao descarregar operações coletivas como all-reduce e broadcast para switches de rede, o SHARP reduz significativamente o volume de transferência de dados e minimiza o jitter do servidor durante o treinamento distribuído.²¹
A evolução através de quatro gerações expandiu as capacidades do SHARP progressivamente:
SHARPv1 focou em operações de redução de mensagens pequenas para computação científica, demonstrando melhorias substanciais de desempenho adotadas pelas principais bibliotecas MPI.²²
SHARPv2, introduzido com os switches Quantum HDR de 200Gbps, adicionou suporte a cargas de trabalho de IA incluindo operações de redução de mensagens grandes. Benchmarks demonstraram 17% de melhoria no desempenho de treinamento do BERT.²³
SHARPv3 habilitou computação in-network multi-tenant, permitindo que múltiplas cargas de trabalho de IA aproveitem as capacidades do SHARP simultaneamente. O Microsoft Azure demonstrou benefício de desempenho de quase uma ordem de magnitude para latência de AllReduce usando esta geração.²⁴
SHARPv4 vem como padrão com os switches Quantum-X800 e Quantum-X Photonics, habilitando agregação e redução in-network que minimiza a sobrecarga de comunicação GPU-para-GPU.²⁵ Combinado com suporte à precisão FP8, o SHARP v4 acelera o treinamento de modelos de trilhões de parâmetros reduzindo tanto as demandas de largura de banda quanto de computação, entregando convergência mais rápida e maior throughput.²⁶
A tecnologia se integra com a NVIDIA Collective Communication Library (NCCL), permitindo que frameworks de treinamento distribuído de IA aproveitem o SHARP automaticamente. Provedores de serviços relatam 10-20% de melhorias de desempenho para cargas de trabalho de IA através da integração com SHARP.²⁷ Os switches de rede realizam agregação e redução diretamente, contornando CPUs e GPUs para essas tarefas enquanto dobram a largura de banda de AllReduce comparado a configurações sem SHARP.²⁸
ConnectX-8 SuperNIC entrega endpoints de 800Gbps
A plataforma Quantum-X800 é pareada com adaptadores ConnectX-8 SuperNIC para alcançar throughput de 800Gbps de ponta a ponta.²⁹ O C8180 representa a primeira SuperNIC de 800Gbps de protocolo dual da NVIDIA, suportando tanto InfiniBand quanto Ethernet, projetada para clusters de computação de alto desempenho de IA, redes de supercomputação e arquiteturas de data center de próxima geração.³⁰
As especificações técnicas impulsionam as capacidades do adaptador significativamente. A interface OSFP de porta única entrega 800Gbps InfiniBand XDR ou duas portas de 400Gbps Ethernet.³¹ A conectividade PCIe Gen6 x16 fornece a largura de banda da interface do host correspondendo às velocidades de rede.³² A auto-negociação suporta compatibilidade retroativa através das velocidades InfiniBand XDR, NDR, NDR200, HDR, HDR100, EDR, FDR e SDR.³³
As inovações de arquitetura se estendem além da largura de banda bruta. O ConnectX-8 integra suporte nativo a PCIe Gen6 com um fabric de switching PCIe integrado, eliminando requisitos de switch PCIe externo.³⁴ O adaptador contém 48 lanes de PCIe Gen6 atrás da interface do conector x16.³⁵ O suporte nativo ao SHARP acelera operações de agregação e redução diretamente no hardware do adaptador.³⁶
A tecnologia Socket Direct aborda arquiteturas de servidor de socket duplo. O acesso direto de cada CPU à rede através de interfaces PCIe dedicadas melhora o desempenho em sistemas onde a topologia CPU-para-rede impacta a latência.³⁷ O GB300 NVL72 representa a primeira implantação da capacidade SuperNIC PCIe Gen6, conectando a CPUs Grace em velocidades Gen5 enquanto mantém links Gen6 para GPUs B300.³⁸
Unified Fabric Manager orquestra em escala
A plataforma UFM revoluciona o gerenciamento de fabric InfiniBand combinando telemetria de rede em tempo real com análises impulsionadas por IA.³⁹ A solução baseada em host fornece visibilidade completa sobre gerenciamento de fabric, roteamento, provisionamento e troubleshooting.
A arquitetura UFM abrange múltiplos componentes. O UFM Server mantém visibilidade completa do fabric e gerencia o roteamento através de todos os dispositivos. Managed Switching Devices incluem switches de fabric, gateways e roteadores sob controle do UFM. UFM Host Agents opcionais em nós de computação fornecem dados locais do host e funcionalidade de gerenciamento de dispositivos.⁴⁰
Três níveis de plataforma abordam diferentes requisitos operacionais:
UFM Telemetry coleta mais de 120 contadores únicos por porta incluindo taxa de erro de bits, temperatura, histogramas e retransmissões.⁴¹ Os dados habilitam a previsão de cabos marginais antes que falhas impactem cargas de trabalho de produção.
UFM Enterprise adiciona monitoramento de rede, gerenciamento, otimizações de carga de trabalho e validação periódica de configuração.⁴² A integração com escalonadores de jobs como Slurm e Platform LSF habilita provisionamento de rede automatizado alinhado com o escalonamento de cargas de trabalho. Integrações com OpenStack e Azure suportam modelos de implantação em nuvem.⁴³
UFM Cyber-AI fornece capacidades de manutenção preventiva e cibersegurança para reduzir custos operacionais de supercomputação.⁴⁴ A implantação de appliance dedicado habilita análise de fabric impulsionada por IA on-premises.
O UFM SDK oferece integrações extensivas de terceiros incluindo plug-ins Grafana, FluentD, Zabbix e Slurm através de acesso via REST API.⁴⁵ Projetos open-source habilitam integração com SLURM para monitorar largura de banda de rede, congestionamento, erros e utilização de recursos através de nós de computação de jobs.
Implantações em grandes supercomputadores validam a plataforma
Os maiores sistemas de IA do mundo padronizam em redes NVIDIA InfiniBand. Implantações atuais e planejadas demonstram as capacidades da plataforma Quantum em escala.
Stargate AI Data Center começou a instalar 64.000 sistemas GB200 em março de 2025, interconectados por InfiniBand de 800Gbps para serviços de IA multi-exaflop.⁴⁶ A implantação representa uma das primeiras implementações XDR em larga escala.
xAI Colossus opera 100.000 GPUs H100 usando switches Quantum-2, mantendo latência de pior caso de 850 nanossegundos através de três camadas de rede.⁴⁷ O cluster de Memphis treina a família Grok de grandes modelos de linguagem da xAI.
Oracle Zetta-scale Supercluster planeja 131.000 GPUs GB200 conectadas através de fabric Quantum InfiniBand, demonstrando o compromisso do provedor de nuvem com InfiniBand para infraestrutura de IA de máximo desempenho.⁴⁸
El Capitan no Lawrence Livermore National Laboratory ultrapassará 2 exaflops usando InfiniBand de 200Gbps, demonstrando a relevância contínua de redes de classe NDR para computação científica.⁴⁹
JUPITER (EUR 250 milhões) e Blue Lion (EUR 250 milhões) na Europa selecionaram fabrics Quantum-2 atendendo a requisitos rigorosos de eficiência energética enquanto entregam o desempenho que cargas de trabalho científicas exigem.⁵⁰
A receita de networking da NVIDIA alcançou US$ 10 bilhões anualmente, quase toda vinculada a fabrics InfiniBand alimentando nuvens comerciais de IA.⁵¹ Microsoft Azure e Oracle Cloud Infrastructure representam os adotantes iniciais do Quantum InfiniBand entre provedores de hyperscale.⁵²
Posicionamento InfiniBand versus Ethernet
A dinâmica de mercado reflete posicionamento distinto para cada tecnologia. Quando o Dell'Oro Group iniciou a cobertura de redes back-end de IA no final de 2023, o InfiniBand detinha mais de 80% de participação de mercado.⁵³ O Ethernet desde então ganhou terreno através da adoção por hyperscalers e vantagens de custo, mantendo liderança geral de mercado em 2025.⁵⁴
As características de desempenho diferenciam as tecnologias. O InfiniBand entrega latência sub-microssegundo através de RDMA acelerado por hardware e computação in-network. O Ethernet alcança throughput competitivo quando configurado adequadamente com RoCE, mas requer configuração cuidadosa de rede lossless e carece de capacidades equivalentes de computação in-network.
As estruturas de custo favorecem o Ethernet para muitas implantações. Empresas de segundo e terceiro nível implantando clusters de 256-1.024 GPUs tipicamente encontram que Ethernet com RoCE entrega desempenho aceitável com aproximadamente metade do custo de rede.⁵⁵ A proposta de valor do InfiniBand se fortalece em escalas maiores onde a computação in-network SHARP e limites de latência mais apertados se traduzem