Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

O Gemini 3 Flash do Google entrega 90,4% no GPQA Diamond e 78% no SWE-bench por $0,50/M tokens. O que o modelo de fronteira mais rápido significa para infraestrutura de IA.

Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor

Resumo

O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, entregando desempenho de classe fronteira com velocidade e custo de nível Flash. O modelo alcança 90,4% no GPQA Diamond e 78% no SWE-bench Verified, custando apenas $0,50 por milhão de tokens de entrada, aproximadamente 6x mais barato que o Claude Opus 4.5. Para implantações intensivas em inferência, o Gemini 3 Flash processa 218 tokens por segundo, superando o GPT-5.1 (125 t/s) e o modo de raciocínio do DeepSeek V3.2 (30 t/s).


O Que Aconteceu

O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, um mês após o Gemini 3 Pro liderar o ranking do LMArena. O modelo combina raciocínio de nível Pro com latência e eficiência de nível Flash, visando cargas de trabalho de produção de alto volume onde custo e velocidade importam tanto quanto capacidade.

O Gemini 3 Flash imediatamente se tornou o modelo padrão no app Gemini e no AI Mode na Busca do Google, sinalizando a confiança do Google em implantar inteligência de fronteira em escala de consumidor.

O modelo supera o Gemini 2.5 Pro em todos os benchmarks enquanto roda 3x mais rápido de acordo com testes da Artificial Analysis. Em vários benchmarks, ele compete diretamente com o GPT-5.2, o modelo que a OpenAI lançou às pressas para contrapor o Gemini 3 Pro.

Empresas incluindo JetBrains, Figma, Cursor, Harvey e Latitude já usam o Gemini 3 Flash em produção.


Por Que Isso Importa

A equação de custo de inferência para aplicações de IA acaba de mudar. O Gemini 3 Flash oferece raciocínio de classe fronteira com preços de commodity, criando novas economias de implantação para operadores de data centers e desenvolvedores de aplicações.

Vantagem de Custo: A $0,50 por milhão de tokens de entrada, o Gemini 3 Flash custa 6x menos que o Claude Opus 4.5 ($3,00) enquanto alcança desempenho comparável na maioria dos benchmarks. O cache de contexto permite reduções de custo de 90% para cargas de trabalho com uso repetido de tokens.

Velocidade de Inferência: O benchmarking da Artificial Analysis registrou 218 tokens de saída por segundo, superando o GPT-5.1 (125 t/s) em 74% e o modo de raciocínio do DeepSeek V3.2 (30 t/s) em 7x. Latência abaixo de um segundo para prompts curtos permite interfaces de chat responsivas e iterações rápidas de loops agênticos.

Fluxos de Trabalho Agênticos: O modelo alcançou 78% no SWE-bench Verified, superando tanto a série 2.5 quanto o Gemini 3 Pro para tarefas de codificação agêntica. Para empresas construindo agentes de IA, capacidade comparável com menor custo impacta diretamente o ROI de implantação.

Processamento Multimodal: A Resemble AI reportou análise multimodal 4x mais rápida comparada ao 2.5 Pro, processando saídas técnicas brutas sem gargalos de fluxo de trabalho.


Detalhes Técnicos

Especificações

Especificação Gemini 3 Flash
Modalidades de Entrada Texto, imagem, vídeo, áudio, PDF
Modalidades de Saída Texto
Máximo de Tokens de Entrada 1.048.576 (1M)
Máximo de Tokens de Saída 65.536
Data de Corte do Conhecimento Janeiro de 2025
Data de Lançamento 17 de dezembro de 2025

Desempenho em Benchmarks

Benchmark Gemini 3 Flash Gemini 3 Pro GPT-5.2 Claude Opus 4.5
GPQA Diamond 90,4% 91,9% 88,4% 88,0%
SWE-bench Verified 78% 76,2% 80,9%
MMMU-Pro 81,2% 79,5%
Humanity's Last Exam 33,7%
LMArena Elo 1501

O Gemini 3 Flash supera o 2.5 Flash em todos os aspectos e supera significativamente o 2.5 Pro em vários benchmarks enquanto iguala ou supera o 3 Pro em áreas incluindo MMMU Pro, Toolathlon e MPC Atlas.

Comparação de Preços

Modelo Entrada (por 1M tokens) Saída (por 1M tokens)
Gemini 3 Flash $0,50 $3,00
Gemini 2.5 Flash $0,30 $2,50
Gemini 3 Pro ~$2,00 ~$10,00
Claude Opus 4.5 $3,00 $15,00
GPT-5.2 ~$2,50 ~$10,00

O Gemini 3 Flash custa menos de um quarto do Gemini 3 Pro enquanto entrega capacidade de raciocínio comparável. A Batch API oferece 50% de economia adicional para processamento assíncrono com limites de taxa mais altos.

Métricas de Velocidade

Modelo Tokens de Saída/Segundo
Gemini 3 Flash 218
Gemini 2.5 Flash ~280
GPT-5.1 High 125
DeepSeek V3.2 Reasoning 30

O Gemini 3 Flash roda 22% mais lento que o 2.5 Flash mas significativamente mais rápido que modelos de fronteira concorrentes, tornando-o o líder de velocidade entre sistemas com capacidade de raciocínio.


O Que Vem a Seguir

O Gemini 3 Flash está sendo lançado agora no Google AI Studio, Gemini CLI, Android Studio e Vertex AI para implantações empresariais. O modelo permanece em status de preview enquanto o Google coleta feedback de produção.

Para seleção de modelo em dezembro de 2025: - Sessões longas de codificação e correção de bugs: Claude Opus 4.5 lidera com 80,9% no SWE-bench - Design de algoritmos e programação competitiva: Gemini 3 Pro domina com 2.439 Elo no LiveCodeBench - Inferência de alto volume com baixo custo: Gemini 3 Flash oferece a melhor qualidade por dólar - Raciocínio puro e matemática: GPT-5.2 alcança 100% no AIME 2025

A comparação da Artificial Analysis mostra o Gemini 3 Flash com uma pontuação de Índice de Inteligência de 71,3 versus 62,8 do Claude Sonnet 4.5, combinada com tempos de resposta 3x mais rápidos e velocidade de saída 4x melhor.


Perspectiva Introl

Cargas de trabalho de inferência de IA de alto throughput exigem infraestrutura de GPU otimizada para desempenho consistente de baixa latência. A rede de 550 engenheiros de campo da Introl implanta e mantém clusters de aceleradores em 257 localizações globais. Saiba mais sobre nossa área de cobertura.


Publicado: 29 de dezembro de 2025

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO