Gemini 3 Flash: Jagoan Kecepatan Google Menyamai GPT-5.2 dengan Biaya 6x Lebih Murah

Gemini 3 Flash dari Google menghasilkan 90,4% GPQA Diamond dan 78% SWE-bench dengan harga $0,50/M token. Apa arti model frontier tercepat ini bagi infrastruktur AI.

Blake Crosley

Dec 29, 2025 4 min read Disclaimer

Gemini 3 Flash: Jagoan Kecepatan Google Menyamai GPT-5.2 dengan Biaya 6x Lebih Murah

Ringkasan

Google meluncurkan Gemini 3 Flash pada 17 Desember 2025, menghadirkan performa kelas frontier dengan kecepatan dan biaya level Flash. Model ini mencapai 90,4% pada GPQA Diamond dan 78% pada SWE-bench Verified dengan biaya hanya $0,50 per juta token input, sekitar 6x lebih murah dari Claude Opus 4.5. Untuk deployment yang intensif inferensi, Gemini 3 Flash memproses 218 token per detik, mengungguli GPT-5.1 (125 t/s) dan DeepSeek V3.2 mode reasoning (30 t/s).

Apa yang Terjadi

Google merilis Gemini 3 Flash pada 17 Desember 2025, satu bulan setelah Gemini 3 Pro menduduki puncak leaderboard LMArena. Model ini menggabungkan reasoning setara Pro dengan latensi dan efisiensi level Flash, menargetkan beban kerja produksi bervolume tinggi di mana biaya dan kecepatan sama pentingnya dengan kemampuan.

Gemini 3 Flash langsung menjadi model default di aplikasi Gemini dan AI Mode di Google Search, menandakan kepercayaan Google dalam men-deploy kecerdasan frontier pada skala konsumen.

Model ini mengungguli Gemini 2.5 Pro di seluruh benchmark sambil berjalan 3x lebih cepat menurut pengujian Artificial Analysis. Dalam beberapa benchmark, model ini bersaing ketat dengan GPT-5.2, model yang OpenAI rilis terburu-buru untuk melawan Gemini 3 Pro.

Perusahaan termasuk JetBrains, Figma, Cursor, Harvey, dan Latitude sudah menggunakan Gemini 3 Flash di produksi.

Mengapa Ini Penting

Persamaan biaya inferensi untuk aplikasi AI baru saja bergeser. Gemini 3 Flash menawarkan reasoning kelas frontier dengan harga komoditas, menciptakan ekonomi deployment baru bagi operator data center dan pengembang aplikasi.

Keunggulan Biaya: Dengan harga $0,50 per juta token input, Gemini 3 Flash 6x lebih murah dari Claude Opus 4.5 ($3,00) sambil mencapai performa sebanding di sebagian besar benchmark. Context caching memungkinkan pengurangan biaya 90% untuk beban kerja dengan penggunaan token berulang.

Kecepatan Inferensi: Benchmark Artificial Analysis mencatat 218 token output per detik, mengungguli GPT-5.1 (125 t/s) sebesar 74% dan DeepSeek V3.2 mode reasoning (30 t/s) sebesar 7x. Latensi sub-detik untuk prompt pendek memungkinkan antarmuka chat yang responsif dan iterasi agentic loop yang cepat.

Alur Kerja Agentik: Model ini mencapai 78% pada SWE-bench Verified, mengungguli seri 2.5 dan Gemini 3 Pro untuk tugas coding agentik. Bagi perusahaan yang membangun AI agent, kemampuan sebanding dengan biaya lebih rendah berdampak langsung pada ROI deployment.

Pemrosesan Multimodal: Resemble AI melaporkan analisis multimodal 4x lebih cepat dibandingkan 2.5 Pro, memproses output teknis mentah tanpa bottleneck alur kerja.

Detail Teknis

Spesifikasi

Spesifikasi	Gemini 3 Flash
Modalitas Input	Teks, gambar, video, audio, PDF
Modalitas Output	Teks
Token Input Maksimum	1.048.576 (1M)
Token Output Maksimum	65.536
Knowledge Cutoff	Januari 2025
Tanggal Rilis	17 Desember 2025

Performa Benchmark

Benchmark	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90,4%	91,9%	88,4%	88,0%
SWE-bench Verified	78%	76,2%	—	80,9%
MMMU-Pro	81,2%	—	79,5%	—
Humanity's Last Exam	33,7%	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash melampaui 2.5 Flash di semua aspek dan secara signifikan mengungguli 2.5 Pro di beberapa benchmark sambil menyamai atau mengalahkan 3 Pro di area termasuk MMMU Pro, Toolathlon, dan MPC Atlas.

Perbandingan Harga

Model	Input (per 1M token)	Output (per 1M token)
Gemini 3 Flash	$0,50	$3,00
Gemini 2.5 Flash	$0,30	$2,50
Gemini 3 Pro	~$2,00	~$10,00
Claude Opus 4.5	$3,00	$15,00
GPT-5.2	~$2,50	~$10,00

Gemini 3 Flash harganya kurang dari seperempat dari Gemini 3 Pro sambil memberikan kemampuan reasoning yang sebanding. Batch API menawarkan penghematan tambahan 50% untuk pemrosesan asinkron dengan rate limit lebih tinggi.

Metrik Kecepatan

Model	Token Output/Detik
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash berjalan 22% lebih lambat dari 2.5 Flash tetapi secara signifikan lebih cepat dari model frontier pesaing, menjadikannya pemimpin kecepatan di antara sistem berkemampuan reasoning.

Langkah Selanjutnya

Gemini 3 Flash diluncurkan sekarang di Google AI Studio, Gemini CLI, Android Studio, dan Vertex AI untuk deployment enterprise. Model ini masih dalam status preview sementara Google mengumpulkan feedback produksi.

Untuk pemilihan model di Desember 2025: - Sesi coding panjang dan perbaikan bug: Claude Opus 4.5 memimpin dengan 80,9% SWE-bench - Desain algoritma dan competitive programming: Gemini 3 Pro mendominasi dengan 2.439 LiveCodeBench Elo - Inferensi bervolume tinggi dengan biaya rendah: Gemini 3 Flash menawarkan kualitas-per-dollar terbaik - Reasoning dan matematika murni: GPT-5.2 mencapai 100% pada AIME 2025

Perbandingan Artificial Analysis menunjukkan Gemini 3 Flash dengan skor Intelligence Index 71,3 versus 62,8 milik Claude Sonnet 4.5, dikombinasikan dengan waktu respons 3x lebih cepat dan kecepatan output 4x lebih baik.

Sudut Pandang Introl

Beban kerja inferensi AI throughput tinggi membutuhkan infrastruktur GPU yang dioptimalkan untuk performa latensi rendah yang konsisten. Jaringan 550 field engineer Introl men-deploy dan memelihara cluster akselerator di 257 lokasi global. Pelajari lebih lanjut tentang area cakupan kami.

Dipublikasikan: 29 Desember 2025

Gemini 3 Flash: Jagoan Kecepatan Google Menyamai GPT-5.2 dengan Biaya 6x Lebih Murah

Ringkasan

Apa yang Terjadi

Mengapa Ini Penting

Detail Teknis

Spesifikasi

Performa Benchmark

Perbandingan Harga

Metrik Kecepatan

Langkah Selanjutnya

Sudut Pandang Introl

You Might Also Like

AIOps untuk Pusat Data: Menggunakan LLM untuk Mengelola Infr...

Load Balancing untuk Inferensi AI: Mendistribusikan Perminta...

Komputasi Terdisagregasi untuk AI: Arsitektur Infrastruktur ...

Minta Penawaran_

Permintaan Diterima_