Aceleradores de IA além das GPUs: o panorama do silício alternativo
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: O Trainium3 da AWS está sendo distribuído com 2,52 PFLOPS FP8 por chip e 144GB de HBM3e. O TPU v7 Ironwood do Google entrega 4.614 TFLOPS por chip—analistas o consideram "equivalente ao Blackwell." A Intel confirma a descontinuação do Gaudi quando as GPUs de próxima geração forem lançadas em 2026-2027. O LPU da Groq alcança 750 tokens/seg em modelos menores, enquanto o WSE-3 da Cerebras atinge 125 PFLOPS de pico. O silício alternativo está ganhando tração para cargas de trabalho específicas, apesar da dominância de 80% do mercado pela NVIDIA.
A NVIDIA detém aproximadamente 80% do mercado de aceleradores de IA, mas a crescente demanda por infraestrutura com boa relação custo-benefício e verticalmente integrada está aumentando lentamente a adoção de silício alternativo.¹ O Google lançou sua sétima geração de TPU Ironwood em novembro de 2025, que analistas descrevem como "possivelmente equivalente ao NVIDIA Blackwell."² A AWS implantou mais de 500.000 chips Trainium2 para o treinamento de modelos da Anthropic—o maior cluster de IA não-NVIDIA em produção.³ A Cerebras lançou o WSE-3 com 4 trilhões de transistores e 125 petaflops de desempenho de pico.⁴ O panorama dos aceleradores de IA se estende muito além das GPUs, oferecendo arquiteturas otimizadas para cargas de trabalho específicas que as empresas avaliam cada vez mais.
A GPU continua sendo a escolha padrão por sua flexibilidade e maturidade do ecossistema. A dominância do CUDA e a inovação sustentada da NVIDIA tornam os custos de migração substanciais. No entanto, hyperscalers projetando seu próprio silício, startups desafiando premissas sobre arquitetura de chips e os preços agressivos da Intel criam opções que não existiam cinco anos atrás. Organizações executando IA em escala agora avaliam escolhas de aceleradores como decisões estratégicas de infraestrutura, em vez de aquisição de commodities.
Google TPU: o benchmark dos hyperscalers
O Google anunciou o Trillium (TPU v6) em maio de 2024 e o tornou disponível em 2025.⁵ A sexta geração de TPU alcança 4,7 vezes o desempenho de computação de pico por chip em comparação com o TPU v5e.⁶ O Google expandiu os tamanhos das unidades de multiplicação de matrizes e aumentou as velocidades de clock para atingir aproximadamente 926 teraflops de desempenho BF16.⁷
A capacidade de memória e a largura de banda dobraram em relação à geração anterior.⁸ O Trillium fornece 32 gigabytes de capacidade HBM por chip com largura de banda proporcionalmente aumentada.⁹ A largura de banda de interconexão entre chips também dobrou, melhorando a eficiência de escalabilidade multi-chip.¹⁰
A eficiência energética melhorou mais de 67% em comparação com o TPU v5e.¹¹ Analistas do setor estimam que o TPU v6 opera 60-65% mais eficientemente que GPUs, comparado às vantagens de eficiência de 40-45% das gerações anteriores.¹² Os ganhos de eficiência se multiplicam em escala de data center, onde restrições de energia limitam a densidade de implantação.
O Trillium escala para 256 TPUs em um único pod de alta largura de banda e baixa latência.¹³ Além da escalabilidade em nível de pod, a tecnologia multislice e as Titanium Intelligence Processing Units permitem escalar para centenas de pods, conectando dezenas de milhares de chips em supercomputadores em escala de edifício.¹⁴ O maior cluster Trillium entrega 91 exaflops—quatro vezes mais que o maior cluster TPU v5p.¹⁵
Benchmarks de treinamento demonstram as melhorias de desempenho. O Trillium entregou mais de quatro vezes o aumento de desempenho de treinamento para Gemma 2-27B, MaxText Default-32B e Llama2-70B em comparação com o TPU v5e.¹⁶ O throughput de inferência melhorou três vezes para o Stable Diffusion XL.¹⁷ O Google usou o Trillium para treinar o Gemini 2.0.¹⁸
O Google revelou o TPU v7 (Ironwood) no Cloud Next em abril de 2025.¹⁹ O Ironwood entrega 4.614 teraflops por chip e será distribuído em configurações de 256 chips e 9.216 chips.²⁰ A equipe da SemiAnalysis elogiou o silício, afirmando que a supremacia do Google entre os hyperscalers é incomparável.²¹
O acesso ao TPU requer Google Cloud. Organizações comprometidas com multi-cloud ou implantação on-premises não podem usar diretamente a infraestrutura TPU. O modelo exclusivamente em nuvem limita a adoção para organizações com requisitos de residência ou soberania de dados que as regiões do Google Cloud não satisfazem.
AWS Trainium: a parceria com a Anthropic
A AWS lançou o Trainium3 em dezembro de 2025—o primeiro chip de IA de 3nm da empresa.²² Cada chip Trainium3 fornece 2,52 petaflops de computação FP8 com 144 gigabytes de memória HBM3e e 4,9 terabytes por segundo de largura de banda de memória.²³ As especificações representam 1,5 vez mais capacidade de memória e 1,7 vez mais largura de banda que o Trainium2.²⁴
Os Trn3 UltraServers escalam para 144 chips Trainium3 entregando 362 petaflops de desempenho total FP8.²⁵ Um UltraServer totalmente configurado fornece 20,7 terabytes de HBM3e e 706 terabytes por segundo de largura de banda de memória agregada.²⁶ A AWS afirma 4,4 vezes mais desempenho de computação, 4 vezes maior eficiência energética e quase 4 vezes mais largura de banda de memória que sistemas baseados em Trainium2.²⁷
O fabric NeuronSwitch-v1 dobra a largura de banda de interconexão entre chips em relação ao Trn2 UltraServer.²⁸ A arquitetura de fabric all-to-all permite treinamento distribuído eficiente em todo o complemento de chips.
O Projeto Rainier representa a maior implantação de infraestrutura de IA da AWS. A AWS colaborou com a Anthropic para conectar mais de 500.000 chips Trainium2 no maior cluster de computação de IA do mundo—cinco vezes maior que a infraestrutura usada para treinar a geração anterior de modelos da Anthropic.²⁹ A parceria demonstra a viabilidade do Trainium para treinamento de modelos de fronteira.
As instâncias EC2 Trn2 baseadas em Trainium2 oferecem 30-40% melhor relação preço-desempenho do que as instâncias EC2 P5e e P5en baseadas em GPU, de acordo com a AWS.³⁰ A vantagem de custo importa para cargas de trabalho de treinamento sustentado, onde os custos de computação dominam os orçamentos.
A AWS descontinuou a linha Inferentia porque as cargas de trabalho de inferência se assemelham cada vez mais ao treinamento em seus requisitos computacionais.³¹ A arquitetura Trainium agora lida com treinamento e inferência, simplificando o portfólio de chips.
O Trainium4 está em desenvolvimento com entrega esperada para o final de 2026 ou início de 2027.³² A AWS anunciou pelo menos 6 vezes o throughput FP4, 3 vezes o desempenho FP8 e 4 vezes mais largura de banda de memória em comparação com o Trainium3.³³ O Trainium4 suportará a tecnologia de interconexão NVIDIA NVLink Fusion, permitindo integração com GPUs NVIDIA em configurações de rack comuns.³⁴
Intel Gaudi: o competidor em preço
A Intel lançou o Gaudi 3 em 2024, posicionando-o como uma alternativa custo-efetiva ao NVIDIA H100.³⁵ O Gaudi 3 usa dois chiplets com 64 núcleos de processador tensor, oito motores de multiplicação de matrizes e 96 megabytes de cache SRAM on-die com largura de banda de 19,2 terabytes por segundo.³⁶ O chip integra 128 gigabytes de memória HBM2e com largura de banda de 3,67 terabytes por segundo.³⁷
O Gaudi 3 entrega 1.835 teraflops de matriz BF16/FP8 a aproximadamente 600 watts de TDP.³⁸ Comparado ao NVIDIA H100, o Gaudi 3 oferece maior desempenho de matriz BF16 (1.835 versus 1.979 teraflops sem esparsidade) e mais capacidade HBM (128 versus 80 gigabytes).³⁹ A largura de banda de memória também excede o H100.⁴⁰
A Intel afirma que o Gaudi 3 é tipicamente 40% mais rápido que o NVIDIA H100 e poderia superar o H100 em até 1,7 vezes ao treinar o Llama2-13B em precisão FP8.⁴¹ As alegações de eficiência energética são mais dramáticas—até 220% do valor do H100 em benchmarks Llama e 230% no Falcon.⁴²
A vantagem de preço é substancial. Um sistema Gaudi 3 de oito aceleradores custa $157.613 em comparação com $300.107 para um sistema H100 equivalente.⁴³ O preço por chip é aproximadamente $15.625 para o Gaudi 3 versus $30.678 para o H100.⁴⁴ O diferencial de custo permite que organizações implantem aproximadamente o dobro da capacidade de computação pelo orçamento equivalente.
O Gaudi 3 usa HBM2e em vez de HBM3 ou HBM3e, contribuindo para o custo menor, mas limitando a largura de banda de memória em comparação com alternativas da geração atual.⁴⁵ Organizações executando cargas de trabalho limitadas por largura de banda de memória devem avaliar essa compensação cuidadosamente.
O desafio do ecossistema limita a adoção do Gaudi. O CUDA da NVIDIA domina o desenvolvimento de IA, e a transição para as ferramentas da Intel requer investimento em engenharia.⁴⁶ A participação de mercado da Intel em aceleradores de IA permanece negligível apesar do hardware competitivo.⁴⁷
A Intel anunciou que o Gaudi será descontinuado quando suas GPUs de IA de próxima geração forem lançadas em 2026-2027.⁴⁸ O anúncio de descontinuação cria risco de adoção para organizações considerando implantações de Gaudi de vários anos. Parceiros podem hesitar em investir em uma linha de produtos com fim de vida anunciado.
Groq LPU: liderança em velocidade de inferência
A Language Processing Unit (LPU) da Groq adota uma abordagem arquitetônica fundamentalmente diferente, otimizando especificamente para inferência em vez de treinamento.⁴⁹ A arquitetura Tensor Streaming Processor alcança 750 TOPS em INT8 e 188 teraflops em FP16 com massiva largura de banda SRAM on-chip de 80 terabytes por segundo.⁵⁰
A LPU de primeira geração entrega mais de 1 teraop por segundo por milímetro quadrado em um chip de 14nm operando a 900 MHz.⁵¹ A LPU de segunda geração usará o processo de 4nm da Samsung.⁵²
A velocidade de inferência define a proposta de valor da Groq. A LPU serve o Mixtral 8x7B a 480 tokens por segundo e o Llama 2 70B a 300 tokens por segundo.⁵³ Modelos menores como o Llama 2 7B alcançam 750 tokens por segundo.⁵⁴ A Groq foi a primeira provedora de API a ultrapassar 100 tokens por segundo no Llama2-70B.⁵⁵
A LPU entrega até 18 vezes mais rápido inferência que GPUs tradicionais para modelos de linguagem, com latência determinística sub-milissegundo.⁵⁶ A eficiência energética atinge 1-3 joules por token.⁵⁷
Os cartões LPU custam aproximadamente $20.000—comparáveis às GPUs NVIDIA de alta performance—mas se destacam especificamente em velocidade e eficiência de inferência.⁵⁸ A compensação é clara: LPUs lidam apenas com inferência, não com treinamento.⁵⁹
A presença de implantação da Groq expandiu significativamente em 2025. A empresa opera uma dúzia de data centers nos EUA, Canadá, Oriente Médio e Europa.⁶⁰ Em setembro de 2025, a Groq levantou $750 milhões com uma avaliação de $6,9 bilhões.⁶¹
A parceria com a Arábia Saudita anunciada em fevereiro de 2025 compromete $1,5 bilhão para construir o que a Groq descreve como o maior data center de inferência de IA do mundo em Dammam.⁶² As implantações iniciais contam com 19.000 LPUs com expansões de capacidade planejadas para exceder 100.000 LPUs até 2027.⁶³
Cerebras WSE-3: integração em escala de wafer
A Cerebras adota a abordagem arquitetônica mais radical, construindo chips em escala de wafer em vez de cortar wafers em processadores individuais.⁶⁴ O WSE-3 contém 4 trilhões de transistores em todo o wafer—46.225 milímetros quadrados de silício.⁶⁵
O WSE-3 agrupa 900.000 núcleos de computação otimizados para IA, entregando 125 petaflops de desempenho de pico de IA.⁶⁶ A SRAM on-chip atinge 44 gigabytes com 21 petabytes por segundo de largura de banda de memória.⁶⁷ A largura de banda do fabric atinge 214 petabits por segundo.⁶⁸ O chip é fabricado no processo de 5nm da TSMC.⁶⁹
O sistema CS-3 dobra o desempenho do CS-2 no mesmo envelope de energia de 15 quilowatts.⁷⁰ Um único CS-3 cabe em 15U de espaço de rack.⁷¹ Opções de memória externa estendem a capacidade para 1,5 terabytes, 12 terabytes ou 1,2 petabytes dependendo da configuração.⁷²
A capacidade de modelo escala dramaticamente. O CS-3 pode treinar modelos de redes neurais de até 24 trilhões de parâmetros.⁷³ Clusters escalam para 2.048 sistemas CS-3 entregando até 256 exaflops de computação FP16.⁷⁴
A Cerebras afirma vantagens significativas de facilidade de uso. A plataforma requer 97% menos código que GPUs para LLMs e treina modelos de 1 bilhão a 24 trilhões de parâmetros em modo puramente paralelo de dados.⁷⁵ Configurações compactas de quatro sistemas podem fazer fine-tuning de modelos 70B em um dia.⁷⁶ Em escala completa de 2.048 sistemas, o Llama 70B treina do zero em um único dia.⁷⁷
O supercomputador Condor Galaxy 3 em Dallas implantará 64 sistemas CS-3 para 8 exaflops de computação FP16.⁷⁸ A TIME Magazine reconheceu o WSE-3 como uma das Melhores Invenções de 2024.⁷⁹
SambaNova SN40L: dataflow reconfigurável
A arquitetura Reconfigurable Dataflow Unit (RDU) da SambaNova difere tanto de GPUs quanto de ASICs personalizados.⁸⁰ O SN40L combina flexibilidade de dataflow on-chip com um sistema de memória de três níveis: SRAM on-chip, HBM on-package e DRAM off-package.⁸¹
O SN40L usa o processo de 5nm da TSMC em um pacote CoWoS de dois dies.⁸² Cada soquete contém 102 bilhões de transistores entregando 640 teraflops BF16 e 520 megabytes de SRAM on-chip.⁸³ O nível DDR suporta até 1,5 terabytes de capacidade de memória a mais de
[Conteúdo truncado para tradução]