Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

O Gemini 3 Flash do Google entrega 90,4% no GPQA Diamond e 78% no SWE-bench por $0,50/M tokens. O que o modelo de fronteira mais rápido significa para infraestrutura de IA.

Blake Crosley

Dec 29, 2025 5 min read Disclaimer

Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

Resumo

O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, entregando desempenho de classe fronteira com velocidade e custo de nível Flash. O modelo alcança 90,4% no GPQA Diamond e 78% no SWE-bench Verified, custando apenas $0,50 por milhão de tokens de entrada, aproximadamente 6x mais barato que o Claude Opus 4.5. Para implantações intensivas em inferência, o Gemini 3 Flash processa 218 tokens por segundo, superando o GPT-5.1 (125 t/s) e o modo de raciocínio do DeepSeek V3.2 (30 t/s).

O Que Aconteceu

O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, um mês após o Gemini 3 Pro liderar o ranking do LMArena. O modelo combina raciocínio de nível Pro com latência e eficiência de nível Flash, visando cargas de trabalho de produção de alto volume onde custo e velocidade importam tanto quanto capacidade.

O Gemini 3 Flash imediatamente se tornou o modelo padrão no app Gemini e no AI Mode na Busca do Google, sinalizando a confiança do Google em implantar inteligência de fronteira em escala de consumidor.

O modelo supera o Gemini 2.5 Pro em todos os benchmarks enquanto roda 3x mais rápido de acordo com testes da Artificial Analysis. Em vários benchmarks, ele compete diretamente com o GPT-5.2, o modelo que a OpenAI lançou às pressas para contrapor o Gemini 3 Pro.

Empresas incluindo JetBrains, Figma, Cursor, Harvey e Latitude já usam o Gemini 3 Flash em produção.

Por Que Isso Importa

A equação de custo de inferência para aplicações de IA acaba de mudar. O Gemini 3 Flash oferece raciocínio de classe fronteira com preços de commodity, criando novas economias de implantação para operadores de data centers e desenvolvedores de aplicações.

Vantagem de Custo: A $0,50 por milhão de tokens de entrada, o Gemini 3 Flash custa 6x menos que o Claude Opus 4.5 ($3,00) enquanto alcança desempenho comparável na maioria dos benchmarks. O cache de contexto permite reduções de custo de 90% para cargas de trabalho com uso repetido de tokens.

Velocidade de Inferência: O benchmarking da Artificial Analysis registrou 218 tokens de saída por segundo, superando o GPT-5.1 (125 t/s) em 74% e o modo de raciocínio do DeepSeek V3.2 (30 t/s) em 7x. Latência abaixo de um segundo para prompts curtos permite interfaces de chat responsivas e iterações rápidas de loops agênticos.

Fluxos de Trabalho Agênticos: O modelo alcançou 78% no SWE-bench Verified, superando tanto a série 2.5 quanto o Gemini 3 Pro para tarefas de codificação agêntica. Para empresas construindo agentes de IA, capacidade comparável com menor custo impacta diretamente o ROI de implantação.

Processamento Multimodal: A Resemble AI reportou análise multimodal 4x mais rápida comparada ao 2.5 Pro, processando saídas técnicas brutas sem gargalos de fluxo de trabalho.

Detalhes Técnicos

Especificações

Especificação	Gemini 3 Flash
Modalidades de Entrada	Texto, imagem, vídeo, áudio, PDF
Modalidades de Saída	Texto
Máximo de Tokens de Entrada	1.048.576 (1M)
Máximo de Tokens de Saída	65.536
Data de Corte do Conhecimento	Janeiro de 2025
Data de Lançamento	17 de dezembro de 2025

Desempenho em Benchmarks

Benchmark	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90,4%	91,9%	88,4%	88,0%
SWE-bench Verified	78%	76,2%	—	80,9%
MMMU-Pro	81,2%	—	79,5%	—
Humanity's Last Exam	33,7%	—	—	—
LMArena Elo	—	1501	—	—

O Gemini 3 Flash supera o 2.5 Flash em todos os aspectos e supera significativamente o 2.5 Pro em vários benchmarks enquanto iguala ou supera o 3 Pro em áreas incluindo MMMU Pro, Toolathlon e MPC Atlas.

Comparação de Preços

Modelo	Entrada (por 1M tokens)	Saída (por 1M tokens)
Gemini 3 Flash	$0,50	$3,00
Gemini 2.5 Flash	$0,30	$2,50
Gemini 3 Pro	~$2,00	~$10,00
Claude Opus 4.5	$3,00	$15,00
GPT-5.2	~$2,50	~$10,00

O Gemini 3 Flash custa menos de um quarto do Gemini 3 Pro enquanto entrega capacidade de raciocínio comparável. A Batch API oferece 50% de economia adicional para processamento assíncrono com limites de taxa mais altos.

Métricas de Velocidade

Modelo	Tokens de Saída/Segundo
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

O Gemini 3 Flash roda 22% mais lento que o 2.5 Flash mas significativamente mais rápido que modelos de fronteira concorrentes, tornando-o o líder de velocidade entre sistemas com capacidade de raciocínio.

O Que Vem a Seguir

O Gemini 3 Flash está sendo lançado agora no Google AI Studio, Gemini CLI, Android Studio e Vertex AI para implantações empresariais. O modelo permanece em status de preview enquanto o Google coleta feedback de produção.

Para seleção de modelo em dezembro de 2025: - Sessões longas de codificação e correção de bugs: Claude Opus 4.5 lidera com 80,9% no SWE-bench - Design de algoritmos e programação competitiva: Gemini 3 Pro domina com 2.439 Elo no LiveCodeBench - Inferência de alto volume com baixo custo: Gemini 3 Flash oferece a melhor qualidade por dólar - Raciocínio puro e matemática: GPT-5.2 alcança 100% no AIME 2025

A comparação da Artificial Analysis mostra o Gemini 3 Flash com uma pontuação de Índice de Inteligência de 71,3 versus 62,8 do Claude Sonnet 4.5, combinada com tempos de resposta 3x mais rápidos e velocidade de saída 4x melhor.

Perspectiva Introl

Cargas de trabalho de inferência de IA de alto throughput exigem infraestrutura de GPU otimizada para desempenho consistente de baixa latência. A rede de 550 engenheiros de campo da Introl implanta e mantém clusters de aceleradores em 257 localizações globais. Saiba mais sobre nossa área de cobertura.

Publicado: 29 de dezembro de 2025

Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

Resumo

O Que Aconteceu

Por Que Isso Importa

Detalhes Técnicos

Especificações

Desempenho em Benchmarks

Comparação de Preços

Métricas de Velocidade

O Que Vem a Seguir

Perspectiva Introl

You Might Also Like

AIOps para Data Centers: Usando LLMs para Gerenciar Infraest...

Balanceamento de Carga para Inferência de IA: Distribuindo R...

Computação Desagregada para IA: Arquitetura de Infraestrutur...

Solicitar Orçamento_

Solicitação Recebida_