NVIDIA Blackwell Ultra e B300: o que a próxima geração de GPUs exige
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: B300 entregando 15 PFLOPS FP4, 288GB HBM3e (pilhas de 12 camadas), 8TB/s de largura de banda, 1.400W TDP. Rack GB300 NVL72 alcançando 1,1 EXAFLOPS—escala exa em um único nó. DGX B200 entregando 3x em treinamento, 15x em inferência vs Hopper. Sistemas sendo enviados no segundo semestre de 2025. Requer refrigeração líquida, rede de 800Gbps, densidades de energia além da maioria das instalações existentes.
A GPU NVIDIA Blackwell Ultra entrega 15 petaflops de computação densa FP4, 50% mais memória que a B200 e desempenho 1,5 vezes mais rápido.¹ Um único rack GB300 NVL72 alcança 1,1 exaflops de computação FP4, operando como um supercomputador de escala exa em um único nó.² Equipado com oito GPUs NVIDIA Blackwell, o DGX B200 entrega 3x o desempenho de treinamento e 15x o desempenho de inferência dos sistemas Hopper da geração anterior.³ Os requisitos de infraestrutura para Blackwell diferem substancialmente de qualquer coisa que as organizações implantaram anteriormente, exigindo refrigeração líquida, rede de 800 gigabits e densidades de energia que a maioria das instalações existentes não consegue suportar.
A NVIDIA anunciou o B300 na GTC 2025, com sistemas sendo enviados no segundo semestre de 2025.⁴ O cronograma cria urgência de planejamento para organizações que precisam preparar instalações, garantir energia e construir capacidades operacionais antes da chegada do hardware. Entender os requisitos de infraestrutura do Blackwell agora determina se as organizações podem implantar efetivamente quando os sistemas estiverem disponíveis.
Especificações do Blackwell Ultra
A GPU Blackwell Ultra apresenta um design de retícula dupla com 208 bilhões de transistores e 160 multiprocessadores de streaming em dois dies conectados usando a Interface de Alta Largura de Banda da NVIDIA.⁵ O B200 continha 208 bilhões de transistores em comparação com 80 bilhões no H100.⁶ A contagem de transistores reflete a complexidade arquitetural necessária para cargas de trabalho de IA em escala de fronteira.
O B300 entrega 288 gigabytes de memória HBM3e por GPU, alcançado através de pilhas de memória de 12 camadas em vez da configuração de 8 camadas do B200.⁷ A largura de banda de memória atinge 8 terabytes por segundo.⁸ A capacidade de memória permite o processamento de modelos que anteriormente exigiam configurações multi-GPU em uma única GPU.
Os requisitos de energia aumentam significativamente. Cada chip B300 consome 1.400 watts no coração do GB300.⁹ O B200 consumia 1.000 watts, acima dos 700 watts do H100.¹⁰ A progressão de 700 para 1.000 para 1.400 watts por GPU ao longo de três gerações demonstra a trajetória de energia que as organizações devem planejar.
O desempenho denso FP4 atinge 14 petaflops no B300 em comparação com 9 petaflops no B200, representando uma melhoria de 55,6%.¹¹ A capacidade de computação FP4 reduz a pegada de memória em aproximadamente 1,8 vezes em comparação com FP8, mantendo precisão quase equivalente.¹² A capacidade de menor precisão atende cargas de trabalho de inferência onde a precisão reduzida melhora o throughput sem sacrificar a qualidade.
Desempenho versus Hopper
Dados de desempenho verificados mostram até 11 a 15 vezes mais throughput de LLM por GPU em comparação com a geração Hopper.¹³ O HGX B200 entrega até 15x em inferência e 3x em melhorias de treinamento versus HGX H100, com 12x de redução de energia e custo.¹⁴ O cluster GB200 NVL72 oferece treinamento 4x mais rápido e inferência em tempo real 30x mais rápida versus clusters H100.¹⁵
O B200 entrega 20 petaflops de desempenho de IA a partir de uma única GPU. Uma única H100 tinha um máximo de 4 petaflops em cálculos de IA.¹⁶ A melhoria de 5x por GPU muda a economia de implantações em larga escala. As organizações podem alcançar capacidade equivalente com menos GPUs ou capacidade substancialmente maior com contagens equivalentes de GPUs.
Melhorias de memória complementam os ganhos de computação. O B200 apresenta 192 gigabytes de HBM3e em comparação com 80 gigabytes de HBM3 do H100.¹⁷ A largura de banda de memória atinge 8 terabytes por segundo, 2,4x mais rápida que os 3,35 terabytes por segundo do H100.¹⁸ A capacidade de memória permite o processamento em GPU única de modelos que anteriormente exigiam configurações complexas multi-GPU.
Para cargas de trabalho de inferência, Blackwell entrega 25x menos energia por inferência que o H100.¹⁹ Um único B200 substitui 5x nós H100 para inferência Llama 3, reduzindo custos e pegadas de carbono.²⁰ Os ganhos de eficiência se multiplicam em grandes implantações onde a inferência domina a demanda de computação.
Diferenças arquiteturais do Hopper
Hopper visa uma ampla mistura de computação de alto desempenho e cargas de trabalho de IA com foco em precisão tradicional em FP64 e FP32.²¹ Blackwell otimiza explicitamente para tarefas de IA generativa em larga escala.²² O foco arquitetural reflete a avaliação da NVIDIA de que cargas de trabalho de IA, particularmente inferência, dominarão a demanda por GPUs.
Blackwell introduz tensor cores de quinta geração com modos de ultra-baixa precisão suportando operações de 4 bits e 6 bits.²³ As capacidades de baixa precisão aceleram cargas de trabalho de inferência onde modelos quantizados mantêm qualidade aceitável. Cargas de trabalho de treinamento que requerem maior precisão se beneficiam menos das mudanças arquiteturais.
A conectividade NVLink aumenta dramaticamente. Cada GPU Blackwell tem 18 conexões NVLink de quinta geração, 18 vezes mais do que disponível no H100.²⁴ Cada conexão oferece 50 gigabytes por segundo de largura de banda bidirecional.²⁵ O interconnect expandido permite a arquitetura do GB300 NVL72 onde 72 GPUs operam como uma malha de computação unificada.
Para tarefas numéricas puras de HPC incluindo álgebra matricial, dinâmica de fluidos e dinâmica molecular com precisão dupla, os pontos fortes do Hopper em FP64 por watt, grande memória compartilhada e caches bem provisionados para FP32 mantêm vantagem.²⁶ Organizações com cargas de trabalho tradicionais de HPC não devem assumir que Blackwell melhora todos os casos de uso igualmente.
Arquitetura do rack GB300 NVL72
O rack GB300 NVL72 refrigerado a líquido integra 36 Grace Blackwell Superchips, interconectados através de NVLink 5 e NVLink Switching.²⁷ O rack contém 72 GPUs B300, cada uma com 288 gigabytes de memória HBM3e.²⁸ Com cada GPU interconectada via 1,8 terabytes por segundo de largura de banda NVLink, o sistema opera como um único nó de escala exa.²⁹
O GB300 NVL72 permite 50x maior produção de fábrica de IA, combinando 10x melhor latência e 5x maior throughput por megawatt em relação às plataformas Hopper.³⁰ Os ganhos de eficiência demonstram por que os requisitos de refrigeração líquida representam investimento em vez de overhead.
O sistema DGX B300 fornece 2,3 terabytes de memória HBM3e com oito ConnectX-8 SuperNICs para rede de 800 gigabits.³¹ Os requisitos de rede correspondem à capacidade de computação. Malhas de rede subdimensionadas criam gargalos que desperdiçam capacidade de GPU.
Junte oito racks NV72L para formar o DGX SuperPOD Blackwell Ultra completo: 288 CPUs Grace, 576 GPUs Blackwell Ultra, 300 terabytes de memória HBM3e e 11,5 exaflops de computação FP4.³² A escala representa o que laboratórios de IA de fronteira implantam para treinar os maiores modelos.
Requisitos de infraestrutura
Requisitos de energia e refrigeração excedem o que a maioria das instalações existentes fornece. O sistema HGX B300 4U usa a tecnologia DLC-2 da Supermicro para capturar até 98% do calor através de refrigeração líquida.³³ A refrigeração a ar não consegue dissipar a saída térmica. Organizações planejando implantações Blackwell devem implementar infraestrutura de refrigeração líquida.
O sistema HGX B300 refrigerado a líquido 2-OU OCP permite até 144 GPUs por rack para provedores de hiperescala e nuvem.³⁴ Um único rack ORV3 suporta até 18 nós com 144 GPUs no total, escalando com switches Quantum-X800 InfiniBand e unidades de distribuição de refrigerante in-row de 1,8 megawatts.³⁵ Oito racks de computação HGX B300, três racks de rede Quantum-X800 InfiniBand e duas CDUs in-row formam uma unidade escalável SuperCluster com 1.152 GPUs.³⁶
A rede requer conectividade de 800 gigabits. Tanto as plataformas 2-OU OCP quanto 4U dobram o throughput da rede de malha de computação para 800 gigabits por segundo via ConnectX-8 SuperNICs integrados.³⁷ O módulo de I/O do ConnectX-8 SuperNIC hospeda dois dispositivos ConnectX-8 para 800 gigabits por segundo de conectividade de rede por GPU.³⁸ Organizações com infraestrutura de 400 gigabits enfrentam requisitos de atualização.
Disponibilidade para hiperescaladores e empresas
O Google Cloud se tornou o primeiro hiperescalador a anunciar disponibilidade de preview de ofertas baseadas em B200.³⁹ AWS, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure estão entre os primeiros provedores de nuvem a oferecer instâncias com Blackwell.⁴⁰ A disponibilidade em hiperescaladores fornece acesso baseado em nuvem para organizações não prontas para implantar infraestrutura on-premises.
A HPE enviou sua primeira solução da família NVIDIA Blackwell, o GB200 NVL72, em fevereiro de 2025.⁴¹ Fabricantes de sistemas globais Cisco, Dell, HPE, Lenovo e Supermicro oferecem Servidores RTX PRO Certificados pela NVIDIA com Blackwell.⁴² O ecossistema de fornecedores amadureceu rapidamente do anúncio à disponibilidade de produção.
Pegatron e 5C implantaram com sucesso racks refrigerados a líquido baseados em HGX B200 com integração de CDU in-row em um data center de Maryland junto com sistemas refrigerados a ar.⁴³ A implantação demonstra infraestrutura pronta para produção para organizações construindo suas próprias fábricas de IA.
Restrições de fornecimento afetam a disponibilidade. A demanda de hiperescaladores e laboratórios de IA supera a capacidade de produção.⁴⁴ Grandes hiperescaladores e empresas de IA pedem numerosos nós enquanto organizações menores podem adquirir apenas quantidades limitadas.⁴⁵ A NVIDIA enfrenta um backlog de chips Blackwell, parcialmente devido a problemas de design na produção inicial.⁴⁶ Colocar grandes clusters em operação normalmente leva três meses adicionais além da entrega inicial.⁴⁷
Recomendações de implantação
As organizações devem determinar se as capacidades do Blackwell justificam investimentos em infraestrutura. Para cargas de trabalho dominadas por inferência, os ganhos de eficiência do Blackwell são convincentes. Para cargas de trabalho de treinamento que requerem precisão FP64, o Hopper pode permanecer apropriado.
As organizações podem continuar treinando grandes modelos em GPUs H100 ou H200 enquanto usam B200 ou B300 para tarefas de inferência e implantação onde Blackwell fornece os maiores ganhos de throughput e latência.⁴⁸ A abordagem híbrida otimiza o investimento em infraestrutura entre tipos de carga de trabalho.
Os preços refletem melhorias de capacidade. Listagens iniciais sugerem B200 192GB SXM a $45.000 a $50.000 por GPU.⁴⁹ Sistemas completos de servidor 8x B200 podem exceder $500.000.⁵⁰ Os requisitos de capital favorecem organizações com modelos claros de receita de IA ou mandatos estratégicos.
O B200 é adequado para inferência de modelos em escala, computação científica, cargas de trabalho FP64 e sistemas multi-GPU com 4 a 8 GPUs.⁵¹ O B300 é melhor para treinamento de LLM com maior throughput e malha NVLink, inferência de modelos em escala e supercomputadores.⁵² A distinção ajuda as organizações a escolher configurações apropriadas.
As decisões de investimento em infraestrutura devem considerar os requisitos de refrigeração líquida, rede de 800 gigabits e energia do Blackwell. Organizações com instalações existentes refrigeradas a ar enfrentam custos de retrofit ou nova construção. Aquelas sem infraestrutura de rede de 800 gigabits precisam de atualizações de malha. Instalações sem densidade de energia adequada não podem hospedar sistemas Blackwell independentemente de outras preparações.
A lacuna de infraestrutura entre os requisitos do Hopper e do Blackwell excede qualquer transição de geração anterior da NVIDIA. Organizações que começam a planejar agora se posicionam para implantação quando os sistemas estiverem disponíveis. Aquelas que atrasam descobrirão que as restrições de instalações limitam suas capacidades de IA independentemente do orçamento para GPUs.
Principais conclusões
Para arquitetos de infraestrutura: - B300: 15 PFLOPS FP4, 288GB HBM3e (pilhas de 12 camadas), 8TB/s de largura de banda de memória, 1.400W TDP por GPU - GB300 NVL72: 72 GPUs, 1,1 exaflops FP4, 1,8TB/s de largura de banda NVLink por GPU; DGX SuperPOD: 576 GPUs, 11,5 exaflops - Progressão de energia: H100 (700W) → B200 (1.000W) → B300 (1.400W); lacuna de infraestrutura excede qualquer transição de geração anterior
Para equipes de aquisição: - B200 192GB SXM: $45.000-$50.000 por GPU; sistemas completos de servidor 8x B200 excedem $500.000 - Restrições de fornecimento persistem; demanda de hiperescaladores supera capacidade de produção com atraso de implantação de 3+ meses após entrega - HPE enviou primeiro GB200
[Conteúdo truncado para tradução]