Gemini 3 Flash: Googles Geschwindigkeitschampion erreicht GPT-5.2-Niveau bei 6-fach niedrigeren Kosten
Zusammenfassung
Google hat Gemini 3 Flash am 17. Dezember 2025 veröffentlicht und liefert damit Frontier-Klasse-Leistung bei Flash-typischer Geschwindigkeit und Kosten. Das Modell erreicht 90,4% bei GPQA Diamond und 78% bei SWE-bench Verified, während es nur $0,50 pro Million Input-Tokens kostet – etwa 6-mal günstiger als Claude Opus 4.5. Für inferenzintensive Deployments verarbeitet Gemini 3 Flash 218 Tokens pro Sekunde und übertrifft damit GPT-5.1 (125 t/s) und DeepSeek V3.2 im Reasoning-Modus (30 t/s).
Was ist passiert
Google hat Gemini 3 Flash am 17. Dezember 2025 veröffentlicht, einen Monat nachdem Gemini 3 Pro die LMArena-Bestenliste anführte. Das Modell kombiniert Pro-Niveau-Reasoning mit Flash-typischer Latenz und Effizienz und zielt auf Produktionsworkloads mit hohem Volumen ab, bei denen Kosten und Geschwindigkeit genauso wichtig sind wie Leistungsfähigkeit.
Gemini 3 Flash wurde sofort zum Standardmodell in der Gemini-App und im KI-Modus der Google-Suche, was Googles Vertrauen signalisiert, Frontier-Intelligenz im Verbrauchermaßstab einzusetzen.
Das Modell übertrifft Gemini 2.5 Pro in allen Benchmarks und läuft laut Artificial Analysis-Tests 3-mal schneller. In mehreren Benchmarks konkurriert es mit GPT-5.2, dem Modell, das OpenAI eilig herausbrachte, um Gemini 3 Pro zu kontern.
Unternehmen wie JetBrains, Figma, Cursor, Harvey und Latitude setzen Gemini 3 Flash bereits in der Produktion ein.
Warum es wichtig ist
Die Inferenzkosten-Gleichung für KI-Anwendungen hat sich gerade verschoben. Gemini 3 Flash bietet Frontier-Klasse-Reasoning zu Commodity-Preisen und schafft neue Deployment-Wirtschaftlichkeit für Rechenzentrumsbetreiber und Anwendungsentwickler.
Kostenvorteil: Bei $0,50 pro Million Input-Tokens kostet Gemini 3 Flash 6-mal weniger als Claude Opus 4.5 ($3,00) und erreicht dabei vergleichbare Leistung in den meisten Benchmarks. Context-Caching ermöglicht 90% Kosteneinsparungen für Workloads mit wiederholter Token-Nutzung.
Inferenzgeschwindigkeit: Artificial Analysis-Benchmarking verzeichnete 218 Output-Tokens pro Sekunde und übertrifft GPT-5.1 (125 t/s) um 74% und DeepSeek V3.2 im Reasoning-Modus (30 t/s) um das 7-fache. Sub-Sekunden-Latenz für kurze Prompts ermöglicht reaktionsschnelle Chat-Interfaces und schnelle agentische Loop-Iterationen.
Agentische Workflows: Das Modell erreichte 78% bei SWE-bench Verified und übertrifft damit sowohl die 2.5-Serie als auch Gemini 3 Pro bei agentischen Coding-Aufgaben. Für Unternehmen, die KI-Agenten entwickeln, wirkt sich vergleichbare Leistungsfähigkeit bei niedrigeren Kosten direkt auf den Deployment-ROI aus.
Multimodale Verarbeitung: Resemble AI berichtete von 4-fach schnellerer multimodaler Analyse im Vergleich zu 2.5 Pro, mit Verarbeitung roher technischer Outputs ohne Workflow-Engpässe.
Technische Details
Spezifikationen
| Spezifikation | Gemini 3 Flash |
|---|---|
| Input-Modalitäten | Text, Bild, Video, Audio, PDF |
| Output-Modalitäten | Text |
| Max. Input-Tokens | 1.048.576 (1M) |
| Max. Output-Tokens | 65.536 |
| Wissensstand | Januar 2025 |
| Veröffentlichungsdatum | 17. Dezember 2025 |
Benchmark-Leistung
| Benchmark | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90,4% | 91,9% | 88,4% | 88,0% |
| SWE-bench Verified | 78% | 76,2% | — | 80,9% |
| MMMU-Pro | 81,2% | — | 79,5% | — |
| Humanity's Last Exam | 33,7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash übertrifft 2.5 Flash durchweg und schlägt 2.5 Pro in mehreren Benchmarks deutlich, während es 3 Pro in Bereichen wie MMMU Pro, Toolathlon und MPC Atlas erreicht oder übertrifft.
Preisvergleich
| Modell | Input (pro 1M Tokens) | Output (pro 1M Tokens) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 2.5 Flash | $0,30 | $2,50 |
| Gemini 3 Pro | ~$2,00 | ~$10,00 |
| Claude Opus 4.5 | $3,00 | $15,00 |
| GPT-5.2 | ~$2,50 | ~$10,00 |
Gemini 3 Flash kostet weniger als ein Viertel von Gemini 3 Pro und liefert dabei vergleichbare Reasoning-Fähigkeiten. Die Batch-API bietet 50% zusätzliche Einsparungen für asynchrone Verarbeitung mit höheren Rate-Limits.
Geschwindigkeitsmetriken
| Modell | Output-Tokens/Sekunde |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash läuft 22% langsamer als 2.5 Flash, aber deutlich schneller als konkurrierende Frontier-Modelle, was es zum Geschwindigkeitsführer unter den reasoning-fähigen Systemen macht.
Ausblick
Gemini 3 Flash wird jetzt ausgerollt über Google AI Studio, Gemini CLI, Android Studio und Vertex AI für Enterprise-Deployments. Das Modell befindet sich noch im Preview-Status, während Google Produktions-Feedback sammelt.
Für die Modellauswahl im Dezember 2025: - Lange Coding-Sessions und Bug-Fixing: Claude Opus 4.5 führt mit 80,9% SWE-bench - Algorithmendesign und Competitive Programming: Gemini 3 Pro dominiert mit 2.439 LiveCodeBench Elo - Hochvolumen-Inferenz bei niedrigen Kosten: Gemini 3 Flash bietet das beste Qualitäts-Preis-Verhältnis - Reines Reasoning und Mathematik: GPT-5.2 erreicht 100% bei AIME 2025
Der Artificial Analysis-Vergleich zeigt Gemini 3 Flash mit einem Intelligence Index Score von 71,3 gegenüber Claude Sonnet 4.5s 62,8, kombiniert mit 3-fach schnelleren Antwortzeiten und 4-fach besserer Output-Geschwindigkeit.
Introl-Perspektive
KI-Inferenz-Workloads mit hohem Durchsatz erfordern GPU-Infrastruktur, die für konstant niedrige Latenz optimiert ist. Introls Netzwerk von 550 Feldtechnikern deployt und wartet Beschleuniger-Cluster an 257 globalen Standorten. Erfahren Sie mehr über unser Abdeckungsgebiet.
Veröffentlicht: 29. Dezember 2025