Redes 800G para IA: planejando seu fabric GPU de próxima geração
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: As plataformas Quantum-X800 InfiniBand e Spectrum-X800 Ethernet da NVIDIA agora estão sendo enviadas em volume. A Microsoft Azure está implantando fabrics 800G full fat-tree non-blocking para clusters GB200/GB300. O Ultra Ethernet Consortium está acelerando melhorias específicas para IA enquanto os testes de 1,6T começam. A densidade de energia permanece como a restrição de implantação—módulos 800G consumindo 14-20W por porta sobrecarregam os designs de refrigeração de rack.
A maioria dos embarques de portas de switch em clusters de IA durante 2025 opera a 800 gigabits por segundo.¹ Até 2027, a maioria fará a transição para 1,6 terabits. Até 2030, a maioria das portas funcionará a 3,2 terabits.² Isso implica que as camadas elétricas de rede de data centers exigirão substituição a cada geração de largura de banda, um ciclo de atualização muito mais agressivo do que historicamente visto em redes corporativas. Organizações planejando infraestrutura de IA devem considerar transições de rede que ocorrerão mais rapidamente do que qualquer geração tecnológica anterior.
A receita de networking da NVIDIA quase dobrou ano a ano para US$ 7,3 bilhões, impulsionada pela forte adoção do Spectrum-X Ethernet, InfiniBand XDR e sistemas de scale-up NVLink.³ O Spectrum-X ultrapassou uma taxa de execução anualizada de US$ 10 bilhões.⁴ O investimento sinaliza que redes para IA representam um mercado distinto das redes tradicionais de data center, com requisitos e economia que justificam desenvolvimento de produtos dedicados e planejamento de infraestrutura.
800G se torna o padrão de 2025
Pesquisas da indústria e roadmaps de fornecedores posicionam ópticas 800G como a tecnologia dominante para novos clusters de IA e grandes implantações de data center em 2025, particularmente nos formatos OSFP e QSFP-DD.⁵ Fornecedores e analistas esperam que transceivers 800G sejam o carro-chefe em grandes fabrics de IA, com testes iniciais para 1,6T já em desenvolvimento.⁶
O rápido crescimento da plataforma Blackwell Ultra da NVIDIA alimentou forte demanda por switches InfiniBand de 800 Gbps, impulsionando um aumento nas vendas de switches InfiniBand no Q2 de 2025.⁷ Enquanto as vendas de switches InfiniBand em redes back-end de IA dispararam, o Ethernet mantém a liderança geral. Switches de 800 Gbps compõem a maior parte dos embarques e receitas de switches tanto Ethernet quanto InfiniBand em redes back-end de IA.⁸
As implantações mais recentes de NVIDIA GB200 e GB300 da Microsoft se comunicam via NVLink e NVSwitch a terabytes por segundo no nível do rack.⁹ Para conectar através de múltiplos racks em um pod, o Azure usa fabrics tanto InfiniBand quanto Ethernet entregando 800 Gbps em uma arquitetura full fat-tree non-blocking.¹⁰ A abordagem híbrida reflete os papéis complementares de diferentes tecnologias de rede em infraestrutura de IA de grande escala.
A conectividade óptica impulsionada por IA, incluindo módulos 400G e 800G, crescerá a uma taxa anual composta superior a 22% até 2030, em grande parte devido a clusters de treinamento e inferência de IA em grande escala.¹¹ A trajetória de crescimento justifica investimentos em infraestrutura que antecipem a expansão plurianual dos requisitos de rede para IA.
Plataformas de rede 800G da NVIDIA
NVIDIA Quantum-X800 InfiniBand e Spectrum-X800 Ethernet representam as primeiras plataformas de rede do mundo capazes de throughput ponta a ponta de 800Gb/s.¹² A plataforma Quantum-X800, construída especificamente para modelos de IA em escala de trilhões de parâmetros, inclui o switch Quantum-X800 InfiniBand, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC e cabos e transceivers LinkX.¹³
O switch Quantum-X800 InfiniBand fornece 144 portas de conectividade de 800 Gb/s por porta.¹⁴ A densidade de portas permite construir fabrics de grande escala com menos camadas de switching, reduzindo latência e complexidade. Para organizações treinando os maiores modelos de IA, o InfiniBand continua fornecendo a menor latência e melhor consistência de desempenho em escala.
Os switches Quantum-X e Spectrum-X Photonics da NVIDIA integram fotônica de silício diretamente no pacote do switch, entregando 128 a 512 portas de 800 Gb/s com larguras de banda totais variando de 100 Tb/s a 400 Tb/s.¹⁵ A integração oferece 3,5x mais eficiência energética e 10x melhor resiliência comparada com ópticas tradicionais.¹⁶
O Cisco Nexus Hyperfabric AI com o switch Cisco G200 Silicon One gerenciado na nuvem entrega Ethernet 800G de alta densidade, agora disponível como opção de implantação em AI PODs.¹⁷ A parceria entre Cisco e NVIDIA em redes para IA demonstra como fornecedores tradicionais de rede corporativa estão se adaptando aos requisitos de infraestrutura de IA.
Considerações sobre InfiniBand versus Ethernet
O Ethernet dominará a maioria das implantações de IA empresarial devido a vantagens de custo e ecossistema, enquanto o InfiniBand permanecerá a escolha para clusters de IA e HPC em escala extrema.¹⁸ A distinção importa para o planejamento de infraestrutura: organizações devem escolher a tecnologia baseada nas características da carga de trabalho em vez de defaultar para opções familiares.
O InfiniBand fornece menor latência de aproximadamente 1-2 microssegundos e melhor consistência de desempenho em escala.¹⁹ Ethernet com RoCEv2 oferece latência de aproximadamente 5-10 microssegundos e pode ser ajustado para cargas de trabalho de IA.²⁰ A diferença de latência importa para trabalhos de treinamento onde operações coletivas sincronizam através de milhares de GPUs. Cargas de trabalho de inferência com menores requisitos de sincronização podem não se beneficiar das vantagens de latência do InfiniBand.
Analistas projetam que o Ethernet se tornará a tecnologia mais proeminente para redes de IA, superando o InfiniBand conforme o 800G se expande e o 1,6T toma forma.²¹ A participação fundadora da NVIDIA no Ultra Ethernet Consortium e o lançamento de switches Ethernet Spectrum-X 800G otimizados para IA sinalizam confiança no futuro do Ethernet para IA.²² O Ultra Ethernet Consortium desenvolve melhorias especificamente para cargas de trabalho de IA.
Implantar um fabric Ethernet 800G de alto desempenho e sem perdas maximiza o valor do investimento em IA.²³ A rede serve como o sistema nervoso central, crucial para maximizar eficiência e retorno sobre investimento. O ajuste fino do fabric de rede acelera o tempo de conclusão de trabalhos e garante alta utilização de GPU.²⁴
Desafios de migração e planejamento
Ópticas 800G introduzem novos desafios que as organizações devem abordar durante o planejamento de migração. A densidade de energia e térmica aumenta substancialmente, com módulos 800G consumindo 14-20 watts ou mais, sobrecarregando o design de refrigeração de switches e orçamentos de energia de rack.²⁵ As organizações devem verificar se a infraestrutura existente pode suportar os requisitos aumentados de energia e refrigeração.
O gerenciamento de fibra se torna mais complexo. Migrar para 800G frequentemente requer maiores contagens de fibra, cabeamento MTP e requisitos mais rigorosos de polaridade e limpeza.²⁶ A infraestrutura de camada física que funcionava para 100G ou 400G pode não suportar 800G sem atualizações. Investimentos em planta de cabos devem antecipar requisitos futuros de largura de banda para evitar substituição repetida de infraestrutura.
Interoperabilidade e validação entre fornecedores de switches e NICs requerem planejamento cuidadoso.²⁷ Ambientes multi-fornecedor podem encontrar problemas de compatibilidade que implantações homogêneas evitam. As organizações devem validar interoperabilidade em ambientes de laboratório antes da implantação em produção.
O ciclo agressivo de atualização de 800G para 1,6T para 3,2T em menos de cinco anos difere das transições históricas de rede. O planejamento deve considerar substituição de infraestrutura mais frequente do que as redes tradicionais de data center experimentaram. Designs modulares que permitem atualizações no nível de componentes podem reduzir os custos totais de substituição.
Recomendações estratégicas
Organizações planejando infraestrutura de IA devem avaliar requisitos de rede com o mesmo rigor aplicado à seleção de GPU. A rede determina quão efetivamente os recursos caros de GPU são utilizados. Subinvestir em redes cria gargalos que desperdiçam capacidade de GPU.
Para novas implantações de IA em 2025, 800G deve ser a especificação padrão para conectividade no nível spine. Conectividade no nível leaf pode usar 400G dependendo das configurações de GPU e tolerância a oversubscription. O investimento em infraestrutura 800G fornece margem para crescimento de carga de trabalho e prepara para transições futuras.
O InfiniBand permanece apropriado para os maiores clusters de treinamento de IA onde a minimização de latência melhora diretamente a eficiência do treinamento. Implantações de IA empresarial, serviços de IA baseados em nuvem e cargas de trabalho de inferência geralmente se beneficiam das vantagens de custo do Ethernet e integração com o ecossistema sem sacrificar desempenho significativo.
Restrições de energia e refrigeração podem limitar a adoção de 800G mais do que os requisitos de largura de banda. As organizações devem auditar a capacidade de infraestrutura antes de se comprometer com implantações 800G. O orçamento de energia para rede pode competir com requisitos de energia de GPU em instalações com restrições.
Framework de decisão rápida
Seleção de Tecnologia:
| Se Sua Carga de Trabalho É... | Escolha | Justificativa |
|---|---|---|
| Treinamento LLM (>1000 GPUs) | InfiniBand 800G | Latência 1-2µs, melhor consistência |
| IA empresarial/inferência | Ethernet 800G | Custo-benefício, integração com ecossistema |
| Treinamento híbrido + inferência | Fabric duplo | InfiniBand para treinamento, Ethernet para inferência |
| IA implantada em nuvem | Dependente do provedor | GCP é apenas Ethernet; AWS/Azure oferecem ambos |
Planejamento de Largura de Banda:
| Escala do Cluster | Spine | Leaf | Oversubscription |
|---|---|---|---|
| <256 GPUs | 400G | 100G | 4:1 aceitável |
| 256-1024 GPUs | 800G | 400G | 2:1 recomendado |
| 1024-4096 GPUs | 800G | 800G | 1:1 (non-blocking) |
| >4096 GPUs | Multi-tier 800G | 800G | Design fat-tree |
Principais conclusões
Para arquitetos de rede: - 800G é o padrão de 2025; planeje para 1,6T até 2027, 3,2T até 2030 - NVIDIA Quantum-X800 entrega 144 portas × 800Gb/s por switch - InfiniBand: ~1-2µs de latência; Ethernet com RoCEv2: ~5-10µs - Consumo de energia: módulos 800G consomem 14-20W, impactando orçamentos de rack
Para planejadores de infraestrutura: - Camadas elétricas de rede requerem substituição a cada geração de largura de banda - Ópticas 800G precisam de maiores contagens de fibra, cabeamento MTP, limpeza mais rigorosa - Validação de interoperabilidade é crítica em ambientes multi-fornecedor - Designs modulares reduzem custos totais de substituição durante transições
Para planejamento estratégico: - Ethernet projetado para superar InfiniBand em redes de IA conforme 800G se expande - NVIDIA Spectrum-X atingiu taxa de execução anualizada de US$ 10B—redes de IA é um mercado distinto - Ultra Ethernet Consortium desenvolvendo melhorias específicas para IA - Investimento em rede determina utilização de GPU—subinvestir desperdiça computação
Redes representam um componente significativo, mas frequentemente subestimado, do custo de infraestrutura de IA. O investimento necessário para suportar clusters de GPU com largura de banda apropriada justifica planejamento cuidadoso e avaliação de fornecedores. Organizações que tratam redes como uma reflexão tardia descobrirão que as limitações de rede restringem as capacidades de IA que seus investimentos em GPU poderiam de outra forma habilitar.
Referências
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[Conteúdo truncado para tradução]