Implantação do GB200 NVL72: Gerenciando 72 GPUs em Configurações com Refrigeração Líquida
Atualizado em 8 de dezembro de 2025
Setenta e duas GPUs operando como uma única unidade computacional é agora realidade em produção. O GB200 NVL72 consome 120 quilowatts e entrega 1,4 exaflops de computação de IA em um único rack.¹ A arquitetura elimina as fronteiras tradicionais entre nós, criando uma malha computacional coerente que processa modelos de trilhões de parâmetros sem as penalidades de computação distribuída que prejudicam clusters convencionais. Organizações que implantam esses sistemas enfrentam desafios de engenharia que redefinem o que equipes de infraestrutura consideram possível.
Atualização de dezembro de 2025: Os sistemas GB200 NVL72 começaram a ser enviados para os principais provedores de nuvem a partir de dezembro de 2024, com a produção em massa atingindo escala total no segundo e terceiro trimestres de 2025. Analistas revisaram as previsões de envio para 2025 para 25.000-35.000 racks (abaixo das projeções iniciais de 50.000-80.000) devido a requisitos de otimização da cadeia de suprimentos. A NVIDIA já revelou o sucessor GB300 NVL72 na GTC 2025, apresentando GPUs Blackwell Ultra com 288GB de memória HBM3e, 1,4kW de potência por GPU e 50% mais desempenho (1.100 PFLOPS de inferência FP4). Os sistemas GB300 entraram em produção no terceiro trimestre de 2025, com a Quanta enviando unidades a partir de setembro. Organizações planejando novas implantações devem avaliar a disponibilidade do GB300 em comparação com necessidades imediatas do GB200.
Os números por si só impressionam arquitetos experientes de data centers: 13,5 terabytes de memória HBM3e acessível a 576 terabytes por segundo, conectados através de NVLink de quinta geração fornecendo 130 terabytes por segundo de largura de banda GPU-para-GPU.² Cada rack pesa 3.000 quilogramas e requer 2,4 megawatts de capacidade de refrigeração entregue através de sistemas obrigatórios de refrigeração líquida.³ Os manuais tradicionais de implantação tornam-se irrelevantes quando um único sistema custa 3 milhões de dólares e pode treinar modelos da classe GPT-4 em semanas em vez de meses.
A CoreWeave encomendou 2,3 bilhões de dólares em sistemas GB200 NVL72 para entrega em 2025, apostando toda sua estratégia de infraestrutura na capacidade da plataforma de dominar os mercados de treinamento e inferência de grandes modelos de linguagem.⁴ A Lambda Labs pré-comprou 200 unidades, apesar de ter que reconstruir completamente suas instalações para suportar os requisitos de energia e refrigeração.⁵ A corrida do ouro por esses sistemas revela uma verdade fundamental: organizações que não conseguem implantar infraestrutura GB200 NVL72 arriscam a irrelevância no desenvolvimento de modelos de base.
Arquitetura redefine fronteiras computacionais
O GB200 NVL72 conecta 36 Superchips Grace-Blackwell através de um sistema de switch NVLink de dois níveis que cria coerência computacional sem precedentes. Cada Superchip combina uma CPU Grace baseada em Arm com duas GPUs Blackwell, conectadas através de NVLink-C2C a 900GB/s de largura de banda bidirecional.⁶ As 72 GPUs compartilham memória e se comunicam como se fossem um único processador massivo, eliminando a sobrecarga de sincronização que limita o treinamento distribuído tradicional.
Os Switch Trays NVLink formam a espinha dorsal do sistema, com nove trays suportando cada um quatro chips NVLink Switch. Esses switches fornecem conectividade todos-para-todos entre GPUs a 1,8TB/s por GPU, permitindo que qualquer GPU acesse qualquer localização de memória no sistema em 300 nanossegundos.⁷ A uniformidade de latência significa que desenvolvedores podem tratar o sistema inteiro como uma única GPU com 72 vezes os recursos, simplificando dramaticamente o desenvolvimento de software.
A arquitetura de memória quebra todos os precedentes na história da computação. O sistema fornece 13,5TB de memória HBM3e com 576TB/s de largura de banda agregada, mais 2,25TB adicionais de LPDDR5X acessível pelas CPUs Grace.⁸ A coerência de memória se estende por todos os processadores, permitindo que CPUs e GPUs compartilhem estruturas de dados sem cópia explícita. Grandes modelos de linguagem que anteriormente exigiam paralelismo de modelo complexo através de múltiplos nós agora cabem inteiramente dentro do espaço de memória de um único NVL72.
A refrigeração torna-se parte integral da arquitetura em vez de uma reflexão tardia. A NVIDIA exige refrigeração líquida com especificações rigorosas: temperatura de entrada entre 20-25°C, vazão de 80 litros por minuto, e queda de pressão não excedendo 1,5 bar.⁹ O sistema de refrigeração mantém temperaturas de junção abaixo de 75°C apesar da geração contínua de calor de 120kW. Desvios das especificações disparam throttling automático que pode reduzir o desempenho em 60%, tornando a refrigeração tão crítica quanto os recursos de computação.
A entrega de energia requer redesenho completo da infraestrutura. O sistema consome 120kW continuamente através de quatro prateleiras de energia de 30kW, cada uma exigindo entrada trifásica de 480V.¹⁰ A conversão de energia acontece em dois estágios: CA para 54V CC nas prateleiras de energia, depois 54V para tensões de ponto de carga nas placas de computação. A arquitetura alcança 97% de eficiência de conversão, mas ainda gera 3,6kW de calor residual apenas da conversão de energia.
Desafios de implantação física se multiplicam
Instalar um GB200 NVL72 requer precisão militar e equipamento especializado. O sistema chega em quatro componentes separados: o rack de computação pesando 1.500kg, o rack NVLink Switch com 800kg, o CDU com 400kg, e a unidade de distribuição de energia com 300kg.¹¹ Portas padrão de data center não acomodam a largura, exigindo remoção de batentes de portas e às vezes paredes. As equipes de implantação da Introl usam elevadores hidráulicos especializados classificados para 2.000kg para posicionar componentes sem danificar superfícies de piso.
A carga do piso apresenta preocupações estruturais imediatas. O rack de computação concentra 1.500kg em apenas 0,8 metros quadrados, criando cargas pontuais de 1.875 kg/m².¹² Pisos elevados padrão classificados para 1.000 kg/m² requerem placas de reforço de aço para distribuir o peso. Muitas instalações optam por instalação direta no solo com bases de concreto armado concretadas especificamente para implantações NVL72. Zonas sísmicas requerem ancoragem adicional para prevenir movimento durante terremotos.
O gerenciamento de cabos torna-se um quebra-cabeça tridimensional com mais de 5.000 conexões individuais. O sistema usa 144 cabos de cobre NVLink para interconexões de GPU, 288 cabos ópticos para conectividade de rede, 72 tubos de refrigeração líquida, e centenas de cabos de energia.¹³ A NVIDIA fornece comprimentos exatos de cabos e diagramas de roteamento, pois desvios causam problemas de integridade de sinal em velocidades de 1,8TB/s. Equipes de instalação gastam 60-80 horas apenas em gerenciamento de cabos, usando headsets de realidade aumentada para verificar se cada conexão corresponde às especificações.
A infraestrutura de refrigeração líquida exige limpeza de grau farmacêutico. O circuito de refrigeração contém 200 litros de refrigerante especialmente formulado que deve manter níveis específicos de condutividade, pH e partículas.¹⁴ Uma única partícula contaminante pode entupir as placas frias de microcanal que refrigeram chips individuais. Equipes de instalação lavam todo o sistema três vezes com água deionizada antes de introduzir o refrigerante. O processo leva 12-16 horas e requer equipamento de bombeamento especializado.
A integração de rede requer provisionamento de largura de banda sem precedentes. Cada NVL72 precisa de oito conexões 400GbE para conectividade externa, totalizando 3,2Tb/s por sistema.¹⁵ O requisito de largura de banda excede a conectividade externa total de muitas instalações. Organizações tipicamente implantam fibras ópticas dedicadas dos sistemas NVL72 para roteadores centrais, contornando arquiteturas tradicionais de switching top-of-rack. O design de rede deve considerar padrões de tráfego leste-oeste enquanto sistemas NVL72 trocam checkpoints e gradientes durante treinamento distribuído.
Orquestração de software em escala extrema
Gerenciar 72 GPUs como um sistema coerente requer mudanças fundamentais na arquitetura de software. O software do sistema NVLink Switch da NVIDIA cria um único espaço de memória através de todas as GPUs, mas aplicações devem ser projetadas para explorar essa capacidade. Frameworks tradicionais de treinamento distribuído como Horovod e PyTorch Distributed tornam-se sobrecarga desnecessária. Desenvolvedores usam as bibliotecas Transformer Engine da NVIDIA que particionam automaticamente modelos através das 72 GPUs sem intervenção manual.¹⁶
Plataformas de orquestração de containers lutam com o modelo de recursos do NVL72. O Kubernetes vê o sistema como 72 GPUs separadas por padrão, levando a conflitos de agendamento e fragmentação de recursos. A NVIDIA fornece plugins de dispositivo customizados que apresentam o NVL72 como uma única unidade agendável, mas isso quebra compatibilidade com plataformas ML padrão.¹⁷ Organizações frequentemente dedicam sistemas NVL72 inteiros a cargas de trabalho únicas em vez de tentar multi-tenancy.
O gerenciamento de memória requer consideração cuidadosa de efeitos NUMA apesar do espaço de memória unificado. Cada CPU Grace tem memória LPDDR5X local com 500GB/s de largura de banda para GPUs locais, mas apenas 100GB/s para GPUs remotas.¹⁸ Desempenho ótimo requer algoritmos de posicionamento de dados que minimizem acesso de memória entre sockets. As bibliotecas Magnum IO da NVIDIA lidam com algumas otimizações automaticamente, mas aplicações customizadas precisam de consciência NUMA explícita.
O tratamento de falhas torna-se complexo quando 72 GPUs operam como uma só. Uma falha de GPU única tradicionalmente significava perder 1/8 da computação de um nó. No NVL72, uma GPU falha pode desestabilizar todo o sistema devido a dependências da topologia NVLink. A NVIDIA implementa isolamento de falhas em nível de hardware que reconfigura dinamicamente o roteamento NVLink ao redor de componentes falhos, mas o desempenho degrada 15-20% por GPU falha.¹⁹ A maioria das implantações mantém sistemas NVL72 sobressalentes em vez de tentar reparos em unidades de produção.
O monitoramento de desempenho gera volumes avassaladores de telemetria. Cada GPU produz mais de 10.000 métricas por segundo cobrindo temperatura, energia, largura de banda de memória e utilização de computação.²⁰ Multiplicado por 72 GPUs mais CPUs e switches, um único NVL72 gera 1 milhão de métricas por segundo. Sistemas de monitoramento tradicionais não conseguem lidar com este volume. Organizações implantam bancos de dados de séries temporais dedicados e usam análises orientadas por IA para identificar anomalias no fluxo de telemetria.
Modelos econômicos desafiam o pensamento convencional
O preço de 3 milhões de dólares do GB200 NVL72 parece astronômico até ser comparado com alternativas. Construir computação equivalente a partir de sistemas DGX H100 discretos exigiria nove nós custando 2,7 milhões de dólares, mas com 5x maior consumo de energia e 10x mais espaço de rack.²¹ A arquitetura coerente do NVL72 elimina sobrecarga de comunicação entre nós, fornecendo 30% melhor throughput real para treinamento de grandes modelos. O prêmio se paga através de tempo de treinamento reduzido e custos operacionais menores.
A economia de energia favorece o NVL72 apesar de seu consumo de 120kW. Sistemas distribuídos tradicionais alcançando computação similar consumiriam 400-500kW incluindo sobrecarga de rede.²² A taxas industriais de $0,10 por kWh, a economia de energia equivale a $300.000 anualmente. A carga de refrigeração reduzida economiza outros $100.000 por ano. Ao longo de um período típico de depreciação de três anos, economias de energia compensam quase metade do prêmio inicial.
Reduções no tempo de treinamento se traduzem diretamente em vantagem competitiva. A OpenAI estima que o treinamento do GPT-4 em sistemas NVL72 seria completado em 45 dias versus 90 dias em infraestrutura anterior.²³ Para organizações gastando 1 milhão de dólares diariamente em recursos de computação, a economia de tempo justifica qualquer prêmio razoável de hardware. Vantagens de primeiro movimento em mercados de IA tornam a velocidade inestimável além de cálculos puramente financeiros.
As taxas de utilização melhoram dramaticamente com arquitetura unificada. Clusters tradicionais alcançam 50-60% de utilização de GPU devido a sobrecarga de comunicação e sincronização.²⁴ Sistemas NVL72 mantêm 85-90% de utilização eliminando gargalos entre nós. A utilização melhorada significa que cada NVL72 entrega a computação efetiva de 120-130 GPUs tradicionais, mudando a economia de infraestrutura de IA em larga escala.
Custos operacionais surpreendem muitos analistas financeiros. A complexidade do sistema requer equipes de engenharia dedicadas comandando salários de $200.000+. Apenas o refrigerante custa $10.000 anualmente com testes trimestrais a $2.000. Inventário de peças sobressalentes para um único NVL72 amarra $500.000 em capital. No entanto, esses custos são insignificantes comparados ao custo de oportunidade de não ter computação suficiente para desenvolvimento de modelos.
Implantações reais revelam realidades operacionais
Infraestrutura de treinamento Claude 3 da Anthropic
[Conteúdo truncado para tradução]