Gemini 3 Flash: O Campeão de Velocidade do Google Iguala o GPT-5.2 com Custo 6x Menor
Resumo
O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, entregando desempenho de classe fronteira com velocidade e custo de nível Flash. O modelo alcança 90,4% no GPQA Diamond e 78% no SWE-bench Verified, custando apenas $0,50 por milhão de tokens de entrada, aproximadamente 6x mais barato que o Claude Opus 4.5. Para implantações intensivas em inferência, o Gemini 3 Flash processa 218 tokens por segundo, superando o GPT-5.1 (125 t/s) e o modo de raciocínio do DeepSeek V3.2 (30 t/s).
O Que Aconteceu
O Google lançou o Gemini 3 Flash em 17 de dezembro de 2025, um mês após o Gemini 3 Pro liderar o ranking do LMArena. O modelo combina raciocínio de nível Pro com latência e eficiência de nível Flash, visando cargas de trabalho de produção de alto volume onde custo e velocidade importam tanto quanto capacidade.
O Gemini 3 Flash imediatamente se tornou o modelo padrão no app Gemini e no AI Mode na Busca do Google, sinalizando a confiança do Google em implantar inteligência de fronteira em escala de consumidor.
O modelo supera o Gemini 2.5 Pro em todos os benchmarks enquanto roda 3x mais rápido de acordo com testes da Artificial Analysis. Em vários benchmarks, ele compete diretamente com o GPT-5.2, o modelo que a OpenAI lançou às pressas para contrapor o Gemini 3 Pro.
Empresas incluindo JetBrains, Figma, Cursor, Harvey e Latitude já usam o Gemini 3 Flash em produção.
Por Que Isso Importa
A equação de custo de inferência para aplicações de IA acaba de mudar. O Gemini 3 Flash oferece raciocínio de classe fronteira com preços de commodity, criando novas economias de implantação para operadores de data centers e desenvolvedores de aplicações.
Vantagem de Custo: A $0,50 por milhão de tokens de entrada, o Gemini 3 Flash custa 6x menos que o Claude Opus 4.5 ($3,00) enquanto alcança desempenho comparável na maioria dos benchmarks. O cache de contexto permite reduções de custo de 90% para cargas de trabalho com uso repetido de tokens.
Velocidade de Inferência: O benchmarking da Artificial Analysis registrou 218 tokens de saída por segundo, superando o GPT-5.1 (125 t/s) em 74% e o modo de raciocínio do DeepSeek V3.2 (30 t/s) em 7x. Latência abaixo de um segundo para prompts curtos permite interfaces de chat responsivas e iterações rápidas de loops agênticos.
Fluxos de Trabalho Agênticos: O modelo alcançou 78% no SWE-bench Verified, superando tanto a série 2.5 quanto o Gemini 3 Pro para tarefas de codificação agêntica. Para empresas construindo agentes de IA, capacidade comparável com menor custo impacta diretamente o ROI de implantação.
Processamento Multimodal: A Resemble AI reportou análise multimodal 4x mais rápida comparada ao 2.5 Pro, processando saídas técnicas brutas sem gargalos de fluxo de trabalho.
Detalhes Técnicos
Especificações
| Especificação | Gemini 3 Flash |
|---|---|
| Modalidades de Entrada | Texto, imagem, vídeo, áudio, PDF |
| Modalidades de Saída | Texto |
| Máximo de Tokens de Entrada | 1.048.576 (1M) |
| Máximo de Tokens de Saída | 65.536 |
| Data de Corte do Conhecimento | Janeiro de 2025 |
| Data de Lançamento | 17 de dezembro de 2025 |
Desempenho em Benchmarks
| Benchmark | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90,4% | 91,9% | 88,4% | 88,0% |
| SWE-bench Verified | 78% | 76,2% | — | 80,9% |
| MMMU-Pro | 81,2% | — | 79,5% | — |
| Humanity's Last Exam | 33,7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
O Gemini 3 Flash supera o 2.5 Flash em todos os aspectos e supera significativamente o 2.5 Pro em vários benchmarks enquanto iguala ou supera o 3 Pro em áreas incluindo MMMU Pro, Toolathlon e MPC Atlas.
Comparação de Preços
| Modelo | Entrada (por 1M tokens) | Saída (por 1M tokens) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 2.5 Flash | $0,30 | $2,50 |
| Gemini 3 Pro | ~$2,00 | ~$10,00 |
| Claude Opus 4.5 | $3,00 | $15,00 |
| GPT-5.2 | ~$2,50 | ~$10,00 |
O Gemini 3 Flash custa menos de um quarto do Gemini 3 Pro enquanto entrega capacidade de raciocínio comparável. A Batch API oferece 50% de economia adicional para processamento assíncrono com limites de taxa mais altos.
Métricas de Velocidade
| Modelo | Tokens de Saída/Segundo |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
O Gemini 3 Flash roda 22% mais lento que o 2.5 Flash mas significativamente mais rápido que modelos de fronteira concorrentes, tornando-o o líder de velocidade entre sistemas com capacidade de raciocínio.
O Que Vem a Seguir
O Gemini 3 Flash está sendo lançado agora no Google AI Studio, Gemini CLI, Android Studio e Vertex AI para implantações empresariais. O modelo permanece em status de preview enquanto o Google coleta feedback de produção.
Para seleção de modelo em dezembro de 2025: - Sessões longas de codificação e correção de bugs: Claude Opus 4.5 lidera com 80,9% no SWE-bench - Design de algoritmos e programação competitiva: Gemini 3 Pro domina com 2.439 Elo no LiveCodeBench - Inferência de alto volume com baixo custo: Gemini 3 Flash oferece a melhor qualidade por dólar - Raciocínio puro e matemática: GPT-5.2 alcança 100% no AIME 2025
A comparação da Artificial Analysis mostra o Gemini 3 Flash com uma pontuação de Índice de Inteligência de 71,3 versus 62,8 do Claude Sonnet 4.5, combinada com tempos de resposta 3x mais rápidos e velocidade de saída 4x melhor.
Perspectiva Introl
Cargas de trabalho de inferência de IA de alto throughput exigem infraestrutura de GPU otimizada para desempenho consistente de baixa latência. A rede de 550 engenheiros de campo da Introl implanta e mantém clusters de aceleradores em 257 localizações globais. Saiba mais sobre nossa área de cobertura.
Publicado: 29 de dezembro de 2025