Gemini 3 Flash: Jagoan Kecepatan Google Menyamai GPT-5.2 dengan Biaya 6x Lebih Murah
Ringkasan
Google meluncurkan Gemini 3 Flash pada 17 Desember 2025, menghadirkan performa kelas frontier dengan kecepatan dan biaya level Flash. Model ini mencapai 90,4% pada GPQA Diamond dan 78% pada SWE-bench Verified dengan biaya hanya $0,50 per juta token input, sekitar 6x lebih murah dari Claude Opus 4.5. Untuk deployment yang intensif inferensi, Gemini 3 Flash memproses 218 token per detik, mengungguli GPT-5.1 (125 t/s) dan DeepSeek V3.2 mode reasoning (30 t/s).
Apa yang Terjadi
Google merilis Gemini 3 Flash pada 17 Desember 2025, satu bulan setelah Gemini 3 Pro menduduki puncak leaderboard LMArena. Model ini menggabungkan reasoning setara Pro dengan latensi dan efisiensi level Flash, menargetkan beban kerja produksi bervolume tinggi di mana biaya dan kecepatan sama pentingnya dengan kemampuan.
Gemini 3 Flash langsung menjadi model default di aplikasi Gemini dan AI Mode di Google Search, menandakan kepercayaan Google dalam men-deploy kecerdasan frontier pada skala konsumen.
Model ini mengungguli Gemini 2.5 Pro di seluruh benchmark sambil berjalan 3x lebih cepat menurut pengujian Artificial Analysis. Dalam beberapa benchmark, model ini bersaing ketat dengan GPT-5.2, model yang OpenAI rilis terburu-buru untuk melawan Gemini 3 Pro.
Perusahaan termasuk JetBrains, Figma, Cursor, Harvey, dan Latitude sudah menggunakan Gemini 3 Flash di produksi.
Mengapa Ini Penting
Persamaan biaya inferensi untuk aplikasi AI baru saja bergeser. Gemini 3 Flash menawarkan reasoning kelas frontier dengan harga komoditas, menciptakan ekonomi deployment baru bagi operator data center dan pengembang aplikasi.
Keunggulan Biaya: Dengan harga $0,50 per juta token input, Gemini 3 Flash 6x lebih murah dari Claude Opus 4.5 ($3,00) sambil mencapai performa sebanding di sebagian besar benchmark. Context caching memungkinkan pengurangan biaya 90% untuk beban kerja dengan penggunaan token berulang.
Kecepatan Inferensi: Benchmark Artificial Analysis mencatat 218 token output per detik, mengungguli GPT-5.1 (125 t/s) sebesar 74% dan DeepSeek V3.2 mode reasoning (30 t/s) sebesar 7x. Latensi sub-detik untuk prompt pendek memungkinkan antarmuka chat yang responsif dan iterasi agentic loop yang cepat.
Alur Kerja Agentik: Model ini mencapai 78% pada SWE-bench Verified, mengungguli seri 2.5 dan Gemini 3 Pro untuk tugas coding agentik. Bagi perusahaan yang membangun AI agent, kemampuan sebanding dengan biaya lebih rendah berdampak langsung pada ROI deployment.
Pemrosesan Multimodal: Resemble AI melaporkan analisis multimodal 4x lebih cepat dibandingkan 2.5 Pro, memproses output teknis mentah tanpa bottleneck alur kerja.
Detail Teknis
Spesifikasi
| Spesifikasi | Gemini 3 Flash |
|---|---|
| Modalitas Input | Teks, gambar, video, audio, PDF |
| Modalitas Output | Teks |
| Token Input Maksimum | 1.048.576 (1M) |
| Token Output Maksimum | 65.536 |
| Knowledge Cutoff | Januari 2025 |
| Tanggal Rilis | 17 Desember 2025 |
Performa Benchmark
| Benchmark | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90,4% | 91,9% | 88,4% | 88,0% |
| SWE-bench Verified | 78% | 76,2% | — | 80,9% |
| MMMU-Pro | 81,2% | — | 79,5% | — |
| Humanity's Last Exam | 33,7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash melampaui 2.5 Flash di semua aspek dan secara signifikan mengungguli 2.5 Pro di beberapa benchmark sambil menyamai atau mengalahkan 3 Pro di area termasuk MMMU Pro, Toolathlon, dan MPC Atlas.
Perbandingan Harga
| Model | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 2.5 Flash | $0,30 | $2,50 |
| Gemini 3 Pro | ~$2,00 | ~$10,00 |
| Claude Opus 4.5 | $3,00 | $15,00 |
| GPT-5.2 | ~$2,50 | ~$10,00 |
Gemini 3 Flash harganya kurang dari seperempat dari Gemini 3 Pro sambil memberikan kemampuan reasoning yang sebanding. Batch API menawarkan penghematan tambahan 50% untuk pemrosesan asinkron dengan rate limit lebih tinggi.
Metrik Kecepatan
| Model | Token Output/Detik |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash berjalan 22% lebih lambat dari 2.5 Flash tetapi secara signifikan lebih cepat dari model frontier pesaing, menjadikannya pemimpin kecepatan di antara sistem berkemampuan reasoning.
Langkah Selanjutnya
Gemini 3 Flash diluncurkan sekarang di Google AI Studio, Gemini CLI, Android Studio, dan Vertex AI untuk deployment enterprise. Model ini masih dalam status preview sementara Google mengumpulkan feedback produksi.
Untuk pemilihan model di Desember 2025: - Sesi coding panjang dan perbaikan bug: Claude Opus 4.5 memimpin dengan 80,9% SWE-bench - Desain algoritma dan competitive programming: Gemini 3 Pro mendominasi dengan 2.439 LiveCodeBench Elo - Inferensi bervolume tinggi dengan biaya rendah: Gemini 3 Flash menawarkan kualitas-per-dollar terbaik - Reasoning dan matematika murni: GPT-5.2 mencapai 100% pada AIME 2025
Perbandingan Artificial Analysis menunjukkan Gemini 3 Flash dengan skor Intelligence Index 71,3 versus 62,8 milik Claude Sonnet 4.5, dikombinasikan dengan waktu respons 3x lebih cepat dan kecepatan output 4x lebih baik.
Sudut Pandang Introl
Beban kerja inferensi AI throughput tinggi membutuhkan infrastruktur GPU yang dioptimalkan untuk performa latensi rendah yang konsisten. Jaringan 550 field engineer Introl men-deploy dan memelihara cluster akselerator di 257 lokasi global. Pelajari lebih lanjut tentang area cakupan kami.
Dipublikasikan: 29 Desember 2025