Gemini 3 Flash: Google's snelheidskampioen evenaart GPT-5.2 tegen 6x lagere kosten
TL;DR
Google lanceerde Gemini 3 Flash op 17 december 2025, met frontier-klasse prestaties tegen Flash-niveau snelheid en kosten. Het model behaalt 90,4% op GPQA Diamond en 78% op SWE-bench Verified, terwijl het slechts $0,50 per miljoen input tokens kost—ongeveer 6x goedkoper dan Claude Opus 4.5. Voor inference-intensieve implementaties verwerkt Gemini 3 Flash 218 tokens per seconde, beter dan GPT-5.1 (125 t/s) en DeepSeek V3.2 reasoning mode (30 t/s).
Wat er gebeurde
Google bracht Gemini 3 Flash uit op 17 december 2025, één maand nadat Gemini 3 Pro de LMArena-ranglijst aanvoerde. Het model combineert Pro-niveau redeneren met Flash-niveau latentie en efficiëntie, gericht op productiewerklasten met hoge volumes waar kosten en snelheid net zo belangrijk zijn als capaciteit.
Gemini 3 Flash werd onmiddellijk het standaardmodel in de Gemini-app en AI Mode in Google Search, wat Google's vertrouwen aantoont in het inzetten van frontier-intelligentie op consumentenschaal.
Het model presteert beter dan Gemini 2.5 Pro op benchmarks terwijl het 3x sneller draait volgens Artificial Analysis-testen. Op verschillende benchmarks gaat het gelijk op met GPT-5.2, het model dat OpenAI haastig uitbracht als reactie op Gemini 3 Pro.
Bedrijven waaronder JetBrains, Figma, Cursor, Harvey en Latitude gebruiken Gemini 3 Flash al in productie.
Waarom het ertoe doet
De inferentiekostenvergelijking voor AI-applicaties is verschoven. Gemini 3 Flash biedt frontier-klasse redeneren tegen commodity-prijzen, wat nieuwe implementatie-economie creëert voor datacenteroperators en applicatieontwikkelaars.
Kostenvoordeel: Voor $0,50 per miljoen input tokens kost Gemini 3 Flash 6x minder dan Claude Opus 4.5 ($3,00) terwijl het vergelijkbare prestaties behaalt op de meeste benchmarks. Context caching maakt 90% kostenreducties mogelijk voor werklasten met herhaald tokengebruik.
Inferentiesnelheid: Artificial Analysis benchmarking registreerde 218 output tokens per seconde, 74% sneller dan GPT-5.1 (125 t/s) en 7x sneller dan DeepSeek V3.2 reasoning mode (30 t/s). Sub-seconde latentie voor korte prompts maakt responsieve chatinterfaces en snelle agentische loop-iteraties mogelijk.
Agentische workflows: Het model behaalde 78% op SWE-bench Verified, beter dan zowel de 2.5-serie als Gemini 3 Pro voor agentische coderingstaken. Voor bedrijven die AI-agents bouwen, heeft vergelijkbare capaciteit tegen lagere kosten directe impact op de implementatie-ROI.
Multimodale verwerking: Resemble AI rapporteerde 4x snellere multimodale analyse vergeleken met 2.5 Pro, waarbij ruwe technische outputs worden verwerkt zonder workflow-knelpunten.
Technische details
Specificaties
| Specificatie | Gemini 3 Flash |
|---|---|
| Input modaliteiten | Tekst, afbeelding, video, audio, PDF |
| Output modaliteiten | Tekst |
| Max input tokens | 1.048.576 (1M) |
| Max output tokens | 65.536 |
| Kennisgrens | Januari 2025 |
| Releasedatum | 17 december 2025 |
Benchmarkprestaties
| Benchmark | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90,4% | 91,9% | 88,4% | 88,0% |
| SWE-bench Verified | 78% | 76,2% | — | 80,9% |
| MMMU-Pro | 81,2% | — | 79,5% | — |
| Humanity's Last Exam | 33,7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash overtreft 2.5 Flash over de hele linie en presteert aanzienlijk beter dan 2.5 Pro op verschillende benchmarks, terwijl het 3 Pro evenaart of verslaat op gebieden waaronder MMMU Pro, Toolathlon en MPC Atlas.
Prijsvergelijking
| Model | Input (per 1M tokens) | Output (per 1M tokens) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 2.5 Flash | $0,30 | $2,50 |
| Gemini 3 Pro | ~$2,00 | ~$10,00 |
| Claude Opus 4.5 | $3,00 | $15,00 |
| GPT-5.2 | ~$2,50 | ~$10,00 |
Gemini 3 Flash kost minder dan een kwart van Gemini 3 Pro terwijl het vergelijkbare redeneercapaciteit levert. De Batch API biedt 50% extra besparingen voor asynchrone verwerking met hogere rate limits.
Snelheidsmetrieken
| Model | Output tokens/seconde |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash draait 22% langzamer dan 2.5 Flash maar aanzienlijk sneller dan concurrerende frontier-modellen, waardoor het de snelheidsleider is onder systemen met redeneervermogen.
Wat volgt
Gemini 3 Flash rolt nu uit via Google AI Studio, Gemini CLI, Android Studio en Vertex AI voor enterprise-implementaties. Het model blijft in preview-status terwijl Google productiefeedback verzamelt.
Voor modelselectie in december 2025: - Lange codeersessies en bugfixing: Claude Opus 4.5 leidt met 80,9% SWE-bench - Algoritmeontwerp en competitief programmeren: Gemini 3 Pro domineert met 2.439 LiveCodeBench Elo - High-volume inferentie tegen lage kosten: Gemini 3 Flash biedt de beste kwaliteit-per-euro - Pure redenering en wiskunde: GPT-5.2 behaalt 100% op AIME 2025
De Artificial Analysis-vergelijking toont Gemini 3 Flash met een Intelligence Index-score van 71,3 versus Claude Sonnet 4.5's 62,8, gecombineerd met 3x snellere responstijden en 4x betere outputsnelheid.
Introl-perspectief
AI-inferentieworkloads met hoge doorvoer vereisen GPU-infrastructuur geoptimaliseerd voor consistente low-latency prestaties. Introl's netwerk van 550 field engineers implementeert en onderhoudt acceleratorclusters op 257 wereldwijde locaties. Lees meer over ons dekkingsgebied.
Gepubliceerd: 29 december 2025