Gemini 3 Flash:GoogleのスピードチャンピオンがGPT-5.2と同等性能を6分の1のコストで実現
要約
Googleは2025年12月17日にGemini 3 Flashをリリースし、Flashクラスの速度とコストでフロンティアクラスの性能を実現した。このモデルはGPQA Diamondで90.4%、SWE-bench Verifiedで78%を達成しながら、100万入力トークンあたりわずか$0.50という価格設定で、Claude Opus 4.5の約6分の1のコストとなっている。推論負荷の高いデプロイメントにおいて、Gemini 3 Flashは毎秒218トークンを処理し、GPT-5.1(125 t/s)やDeepSeek V3.2推論モード(30 t/s)を上回る。
何が起きたか
Googleは2025年12月17日にGemini 3 Flashをリリースした。これはGemini 3 ProがLMArenaリーダーボードでトップに立った1ヶ月後のことだ。このモデルはPro級の推論能力とFlashレベルの低レイテンシーと効率性を兼ね備え、コストと速度が性能と同じくらい重要な大量処理の本番ワークロードをターゲットとしている。
Gemini 3 Flashは即座にGeminiアプリのデフォルトモデルおよびGoogle検索のAIモードとなり、Googleがフロンティア級の知能をコンシューマースケールで展開することへの自信を示している。
このモデルはArtificial AnalysisのテストによるとGemini 2.5 Proを3倍の速度で実行しながらベンチマークで上回っている。いくつかのベンチマークでは、Gemini 3 Proに対抗するためにOpenAIが急いでリリースしたGPT-5.2と互角の勝負を繰り広げている。
JetBrains、Figma、Cursor、Harvey、Latitudeを含む企業がすでにGemini 3 Flashを本番環境で使用している。
なぜ重要か
AIアプリケーションの推論コスト方程式が変わった。Gemini 3 Flashはフロンティアクラスの推論をコモディティ価格で提供し、データセンター運営者とアプリケーション開発者に新たなデプロイメント経済をもたらしている。
コスト優位性:100万入力トークンあたり$0.50という価格で、Gemini 3 FlashはClaude Opus 4.5($3.00)の6分の1のコストでありながら、ほとんどのベンチマークで同等の性能を達成している。コンテキストキャッシングにより、トークンの再利用が多いワークロードでは90%のコスト削減が可能になる。
推論速度:Artificial Analysisのベンチマークでは毎秒218出力トークンを記録し、GPT-5.1(125 t/s)を74%、DeepSeek V3.2推論モード(30 t/s)を7倍上回っている。短いプロンプトでのサブ秒レイテンシーにより、レスポンシブなチャットインターフェースと高速なエージェントループの反復が可能になる。
エージェントワークフロー:このモデルはSWE-bench Verifiedで78%を達成し、エージェントコーディングタスクで2.5シリーズとGemini 3 Proの両方を上回った。AIエージェントを構築する企業にとって、より低コストで同等の能力は、デプロイメントROIに直接影響する。
マルチモーダル処理:Resemble AIは、2.5 Proと比較して4倍速いマルチモーダル分析を報告し、ワークフローのボトルネックなしに生の技術出力を処理している。
技術詳細
仕様
| 仕様 | Gemini 3 Flash |
|---|---|
| 入力モダリティ | テキスト、画像、動画、音声、PDF |
| 出力モダリティ | テキスト |
| 最大入力トークン | 1,048,576(100万) |
| 最大出力トークン | 65,536 |
| 知識カットオフ | 2025年1月 |
| リリース日 | 2025年12月17日 |
ベンチマーク性能
| ベンチマーク | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.4% | 91.9% | 88.4% | 88.0% |
| SWE-bench Verified | 78% | 76.2% | — | 80.9% |
| MMMU-Pro | 81.2% | — | 79.5% | — |
| Humanity's Last Exam | 33.7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flashは2.5 Flashを全面的に上回り、いくつかのベンチマークで2.5 Proを大幅に上回りながら、MMMU Pro、Toolathlon、MPC Atlasなどの分野で3 Proと同等かそれ以上の性能を示している。
価格比較
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
| Gemini 3 Pro | 〜$2.00 | 〜$10.00 |
| Claude Opus 4.5 | $3.00 | $15.00 |
| GPT-5.2 | 〜$2.50 | 〜$10.00 |
Gemini 3 FlashはGemini 3 Proの4分の1以下のコストで、同等の推論能力を提供している。Batch APIは、より高いレート制限での非同期処理で50%の追加節約を提供する。
速度指標
| モデル | 出力トークン/秒 |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | 〜280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flashは2.5 Flashより22%遅いが、競合するフロンティアモデルよりも大幅に速く、推論能力を持つシステムの中でスピードリーダーとなっている。
今後の展望
Gemini 3 FlashはGoogle AI Studio、Gemini CLI、Android Studio、そしてエンタープライズ向けVertex AIで順次展開されている。Googleが本番環境からのフィードバックを収集している間、モデルはプレビューステータスのままだ。
2025年12月時点でのモデル選択について: - 長時間のコーディングセッションとバグ修正:Claude Opus 4.5がSWE-bench 80.9%でリード - アルゴリズム設計と競技プログラミング:Gemini 3 ProがLiveCodeBench Elo 2,439で圧倒 - 低コストでの大量推論:Gemini 3 Flashが最高の品質対コスト比を提供 - 純粋な推論と数学:GPT-5.2がAIME 2025で100%を達成
Artificial Analysisの比較では、Gemini 3 FlashのIntelligence Indexスコアが71.3でClaude Sonnet 4.5の62.8を上回り、さらに3倍速い応答時間と4倍優れた出力速度を示している。
Introlの視点
高スループットのAI推論ワークロードには、一貫した低レイテンシー性能に最適化されたGPUインフラが必要だ。Introlの550人のフィールドエンジニアネットワークが、世界257拠点でアクセラレータクラスターの導入と保守を行っている。カバレッジエリアの詳細はこちら。
公開日:2025年12月29日