Aceleradores de AI além das GPUs: o cenário do silício alternativo
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: AWS Trainium3 entrando em operação com 2,52 PFLOPS FP8 por chip e 144GB HBM3e. Google TPU v7 Ironwood entrega 4.614 TFLOPS por chip—analistas chamando de "equivalente ao Blackwell." Intel confirma descontinuação do Gaudi quando as GPUs de próxima geração forem lançadas em 2026-2027. Groq LPU alcançando 750 tokens/sec em modelos menores enquanto Cerebras WSE-3 atinge 125 PFLOPS de pico. Silício alternativo ganhando tração para cargas de trabalho específicas apesar dos 80% de dominância de mercado da NVIDIA.
A NVIDIA detém aproximadamente 80% do mercado de aceleradores de AI, mas a demanda crescente por infraestrutura custo-eficiente e verticalmente integrada está lentamente aumentando a adoção de silício alternativo.¹ O Google lançou seu TPU Ironwood de sétima geração em novembro de 2025, que analistas descrevem como "indiscutivelmente equivalente ao NVIDIA Blackwell."² A AWS implantou mais de 500.000 chips Trainium2 para treinamento de modelos da Anthropic—o maior cluster de AI não-NVIDIA em produção.³ A Cerebras lançou o WSE-3 com 4 trilhões de transistores e 125 petaflops de desempenho de pico.⁴ O cenário de aceleradores de AI se estende muito além das GPUs, oferecendo arquiteturas otimizadas para cargas de trabalho específicas que as empresas avaliam cada vez mais.
A GPU permanece como a escolha padrão para flexibilidade e maturidade do ecossistema. A dominância do CUDA e a inovação sustentada da NVIDIA tornam os custos de mudança substanciais. Ainda assim, hyperscalers projetando seu próprio silício, startups desafiando premissas sobre arquitetura de chips e os preços agressivos da Intel criam opções que não existiam cinco anos atrás. Organizações executando AI em escala agora avaliam escolhas de aceleradores como decisões estratégicas de infraestrutura em vez de aquisição de commodities.
Google TPU: o benchmark dos hyperscalers
O Google anunciou o Trillium (TPU v6) em maio de 2024 e o disponibilizou em 2025.⁵ O TPU de sexta geração alcança 4,7 vezes o desempenho computacional de pico por chip comparado ao TPU v5e.⁶ O Google expandiu os tamanhos das unidades de multiplicação de matriz e aumentou as frequências de clock para atingir aproximadamente 926 teraflops de desempenho BF16.⁷
A capacidade e largura de banda de memória dobraram em relação à geração anterior.⁸ O Trillium fornece 32 gigabytes de capacidade HBM por chip com largura de banda proporcionalmente aumentada.⁹ A largura de banda de interconexão entre chips também dobrou, melhorando a eficiência de escalonamento multi-chip.¹⁰
A eficiência energética melhorou em mais de 67% comparado ao TPU v5e.¹¹ Analistas da indústria estimam que o TPU v6 opera 60-65% mais eficientemente que GPUs, comparado às vantagens de eficiência de 40-45% em gerações anteriores.¹² Os ganhos de eficiência se compostos em escala de data center onde restrições de energia limitam a densidade de implantação.
O Trillium escala para 256 TPUs em um único pod de alta largura de banda e baixa latência.¹³ Além da escalabilidade em nível de pod, a tecnologia multislice e as Unidades de Processamento de Inteligência Titanium permitem escalonamento para centenas de pods, conectando dezenas de milhares de chips em supercomputadores em escala de prédio.¹⁴ O maior cluster Trillium entrega 91 exaflops—quatro vezes mais que o maior cluster TPU v5p.¹⁵
Benchmarks de treinamento demonstram as melhorias de desempenho. O Trillium entregou mais de quatro vezes o aumento de desempenho de treinamento para Gemma 2-27B, MaxText Default-32B e Llama2-70B comparado ao TPU v5e.¹⁶ O throughput de inferência melhorou três vezes para Stable Diffusion XL.¹⁷ O Google usou Trillium para treinar o Gemini 2.0.¹⁸
O Google apresentou o TPU v7 (Ironwood) no Cloud Next em abril de 2025.¹⁹ O Ironwood entrega 4.614 teraflops por chip e será entregue em configurações de 256 chips e 9.216 chips.²⁰ A equipe do SemiAnalysis elogiou o silício, afirmando que a supremacia do Google entre hyperscalers é incomparável.²¹
O acesso ao TPU requer Google Cloud. Organizações comprometidas com multi-cloud ou implantação on-premises não podem usar diretamente a infraestrutura TPU. O modelo somente em nuvem limita a adoção para organizações com requisitos de residência ou soberania de dados que as regiões do Google Cloud não satisfazem.
AWS Trainium: a parceria Anthropic
A AWS lançou o Trainium3 em dezembro de 2025—o primeiro chip de AI de 3nm da empresa.²² Cada chip Trainium3 fornece 2,52 petaflops de computação FP8 com 144 gigabytes de memória HBM3e e 4,9 terabytes por segundo de largura de banda de memória.²³ As especificações representam 1,5 vezes mais capacidade de memória e 1,7 vezes mais largura de banda que o Trainium2.²⁴
Trn3 UltraServers escalam para 144 chips Trainium3 entregando 362 petaflops de desempenho FP8 total.²⁵ Um UltraServer totalmente configurado fornece 20,7 terabytes de HBM3e e 706 terabytes por segundo de largura de banda de memória agregada.²⁶ A AWS afirma 4,4 vezes mais desempenho computacional, 4 vezes maior eficiência energética e quase 4 vezes mais largura de banda de memória que sistemas baseados em Trainium2.²⁷
O fabric NeuronSwitch-v1 dobra a largura de banda de interconexão entre chips sobre o Trn2 UltraServer.²⁸ A arquitetura de fabric all-to-all permite treinamento distribuído eficiente através do complemento completo de chips.
O Projeto Rainier representa a maior implantação de infraestrutura de AI da AWS. A AWS colaborou com a Anthropic para conectar mais de 500.000 chips Trainium2 no maior cluster de computação de AI do mundo—cinco vezes maior que a infraestrutura usada para treinar a geração anterior de modelos da Anthropic.²⁹ A parceria demonstra a viabilidade do Trainium para treinamento de modelos de fronteira.
Instâncias EC2 Trn2 baseadas em Trainium2 oferecem 30-40% melhor desempenho de preço que instâncias EC2 P5e e P5en baseadas em GPU segundo a AWS.³⁰ A vantagem de custo importa para cargas de trabalho de treinamento sustentadas onde custos computacionais dominam orçamentos.
A AWS descontinuou a linha Inferentia porque cargas de trabalho de inferência cada vez mais se assemelham ao treinamento em seus requisitos computacionais.³¹ A arquitetura Trainium agora lida tanto com treinamento quanto inferência, simplificando o portfólio de chips.
O Trainium4 está em desenvolvimento com entrega esperada no final de 2026 ou início de 2027.³² A AWS anunciou pelo menos 6 vezes o throughput FP4, 3 vezes o desempenho FP8 e 4 vezes mais largura de banda de memória comparado ao Trainium3.³³ O Trainium4 suportará tecnologia de interconexão NVIDIA NVLink Fusion, permitindo integração com GPUs NVIDIA em configurações comuns de rack.³⁴
Intel Gaudi: o concorrente de preço
A Intel lançou o Gaudi 3 em 2024, posicionando-o como uma alternativa custo-efetiva ao NVIDIA H100.³⁵ O Gaudi 3 usa dois chiplets com 64 núcleos de processador tensor, oito motores de multiplicação de matriz e 96 megabytes de cache SRAM on-die com largura de banda de 19,2 terabytes por segundo.³⁶ O chip integra 128 gigabytes de memória HBM2e com largura de banda de 3,67 terabytes por segundo.³⁷
O Gaudi 3 entrega 1.835 teraflops de matriz BF16/FP8 a aproximadamente 600 watts TDP.³⁸ Comparado ao NVIDIA H100, o Gaudi 3 oferece maior desempenho de matriz BF16 (1.835 versus 1.979 teraflops sem esparsidade) e mais capacidade HBM (128 versus 80 gigabytes).³⁹ A largura de banda de memória também excede o H100.⁴⁰
A Intel afirma que o Gaudi 3 é tipicamente 40% mais rápido que o NVIDIA H100 e poderia superar o H100 em até 1,7 vezes treinando Llama2-13B em precisão FP8.⁴¹ Alegações de eficiência energética são mais dramáticas—até 220% do valor do H100 em benchmarks Llama e 230% no Falcon.⁴²
A vantagem de preço é substancial. Um sistema Gaudi 3 de oito aceleradores custa $157.613 comparado a $300.107 para um sistema H100 equivalente.⁴³ O preço por chip é de aproximadamente $15.625 para Gaudi 3 versus $30.678 para H100.⁴⁴ O diferencial de custo permite que organizações implantem aproximadamente o dobro da capacidade computacional para orçamento equivalente.
O Gaudi 3 usa HBM2e em vez de HBM3 ou HBM3e, contribuindo para o menor custo mas limitando a largura de banda de memória comparado às alternativas de geração atual.⁴⁵ Organizações executando cargas de trabalho limitadas por largura de banda de memória devem avaliar cuidadosamente essa compensação.
O desafio do ecossistema limita a adoção do Gaudi. O CUDA da NVIDIA domina o desenvolvimento de AI, e a transição para as ferramentas da Intel requer investimento em engenharia.⁴⁶ A participação de mercado da Intel em aceleradores de AI permanece negligível apesar do hardware competitivo.⁴⁷
A Intel anunciou que o Gaudi será descontinuado quando suas GPUs de AI de próxima geração forem lançadas em 2026-2027.⁴⁸ O anúncio de descontinuação cria risco de adoção para organizações considerando implantações Gaudi multi-anuais. Parceiros podem hesitar em investir em uma linha de produtos com fim de vida anunciado.
Groq LPU: liderança em velocidade de inferência
A Language Processing Unit (LPU) da Groq adota uma abordagem arquitetural fundamentalmente diferente, otimizando especificamente para inferência em vez de treinamento.⁴⁹ A arquitetura Tensor Streaming Processor alcança 750 TOPS em INT8 e 188 teraflops em FP16 com largura de banda SRAM on-chip massiva de 80 terabytes por segundo.⁵⁰
A LPU de primeira geração entrega mais de 1 teraop por segundo por milímetro quadrado em um chip de 14nm operando a 900 MHz.⁵¹ A LPU de segunda geração usará o processo de 4nm da Samsung.⁵²
A velocidade de inferência define a proposta de valor da Groq. A LPU serve Mixtral 8x7B a 480 tokens por segundo e Llama 2 70B a 300 tokens por segundo.⁵³ Modelos menores como Llama 2 7B alcançam 750 tokens por segundo.⁵⁴ A Groq foi o primeiro provedor de API a quebrar 100 tokens por segundo no Llama2-70B.⁵⁵
A LPU entrega até 18 vezes inferência mais rápida que GPUs tradicionais para modelos de linguagem com latência determinística sub-milissegundo.⁵⁶ A eficiência energética atinge 1-3 joules por token.⁵⁷
Cartões LPU custam aproximadamente $20.000—comparável a GPUs NVIDIA high-end—mas se destacam especificamente em velocidade e eficiência de inferência.⁵⁸ A compensação é clara: LPUs lidam apenas com inferência, não treinamento.⁵⁹
A pegada de implantação da Groq expandiu significativamente em 2025. A empresa opera uma dúzia de data centers nos EUA, Canadá, Oriente Médio e Europa.⁶⁰ Em setembro de 2025, a Groq levantou $750 milhões com avaliação de $6,9 bilhões.⁶¹
A parceria com a Arábia Saudita anunciada em fevereiro de 2025 compromete $1,5 bilhão para construir o que a Groq descreve como o maior data center de inferência de AI do mundo em Dammam.⁶² Implantações iniciais apresentam 19.000 LPUs com expansões de capacidade planejadas para exceder 100.000 LPUs até 2027.⁶³
Cerebras WSE-3: integração em escala de wafer
A Cerebras adota a abordagem arquitetural mais radical, construindo chips em escala de wafer em vez de cortar wafers em processadores individuais.⁶⁴ O WSE-3 contém 4 trilhões de transistores através de todo o wafer—46.225 milímetros quadrados de silício.⁶⁵
O WSE-3 empacota 900.000 núcleos de computação otimizados para AI entregando 125 petaflops de desempenho de AI de pico.⁶⁶ A SRAM on-chip atinge 44 gigabytes com largura de banda de memória de 21 petabytes por segundo.⁶⁷ A largura de banda do fabric atinge 214 petabits por segundo.⁶⁸ O chip é fabricado no processo de 5nm da TSMC.⁶⁹
O sistema CS-3 dobra o desempenho do CS-2 no mesmo envelope de potência de 15 kilowatts.⁷⁰ Um único CS-3 cabe dentro de 15U de espaço de rack.⁷¹ Opções de memória externa estendem a capacidade para 1,5 terabytes, 12 terabytes ou 1,2 petabytes dependendo da configuração.⁷²
A capacidade do modelo escala dramaticamente. O CS-3 pode treinar modelos de redes neurais de até 24 trilhões de parâmetros.⁷³ Clusters escalam para 2.048 sistemas CS-3 entregando até 256 exaflops de computação FP16.⁷⁴
A Cerebras afirma vantagens significativas de facilidade de uso. A plataforma requer 97% menos código que GPUs para LLMs e treina modelos de 1 bilhão a 24 trilhões de parâmetros em modo puramente paralelo de dados.⁷⁵ Configurações compactas de quatro sistemas podem fazer fine-tune de modelos 70B em um dia.⁷⁶ Em escala completa de 2.048 sistemas, Llama 70B treina do zero em um único dia.⁷⁷
O supercomputador Condor Galaxy 3 em Dallas implantará 64 sistemas CS-3 para 8 exaflops de computação FP16.⁷⁸ A revista TIME reconheceu o WSE-3 como uma das Melhores Invenções de 2024.⁷⁹
SambaNova SN40L: dataflow reconfigurável
A arquitetura Reconfigurable Dataflow Unit (RDU) da SambaNova difere tanto de GPUs quanto de ASICs customizados.⁸⁰ O SN40L combina flexibilidade de dataflow on-chip com um sistema de memória de três camadas: SRAM on-chip, HBM on-package e DRAM off-package.⁸¹
O SN40L usa o processo de 5nm da TSMC em um pacote CoWoS dual-die.⁸² Cada socket contém 102 bilhões de transistores entregando 640 teraflops BF16 e 520 megabytes de SRAM on-chip.⁸³ A camada DDR suporta até 1,5 terabytes de capacidade de memória em mais de