Gemini 3 Flash：谷歌速度冠军以六分之一成本媲美 GPT-5.2

谷歌 Gemini 3 Flash 在 GPQA Diamond 测试中达到 90.4%，SWE-bench 测试中达到 78%，每百万 token 仅需 0.50 美元。这款最快的前沿模型对 AI 基础设施意味着什么。

Blake Crosley

Dec 29, 2025 2 min read Disclaimer

Gemini 3 Flash：谷歌速度冠军以六分之一成本媲美 GPT-5.2

摘要

谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash，以 Flash 级别的速度和成本提供前沿级性能。该模型在 GPQA Diamond 测试中达到 90.4%，在 SWE-bench Verified 测试中达到 78%，每百万输入 token 仅需 0.50 美元，约为 Claude Opus 4.5 价格的六分之一。对于推理密集型部署，Gemini 3 Flash 每秒处理 218 个 token，超越 GPT-5.1（125 t/s）和 DeepSeek V3.2 推理模式（30 t/s）。

事件概述

谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash，距 Gemini 3 Pro 登顶 LMArena 排行榜仅一个月。该模型结合了 Pro 级推理能力与 Flash 级延迟和效率，瞄准对成本和速度与性能同等重要的大规模生产工作负载。

Gemini 3 Flash 立即成为 Gemini 应用的默认模型以及谷歌搜索 AI 模式的默认模型，表明谷歌有信心在消费级规模部署前沿智能。

根据 Artificial Analysis 的测试，该模型在各项基准测试中超越 Gemini 2.5 Pro，同时运行速度快 3 倍。在多项基准测试中，它与 GPT-5.2 不相上下——GPT-5.2 是 OpenAI 为应对 Gemini 3 Pro 而匆忙推出的模型。

包括 JetBrains、Figma、Cursor、Harvey 和 Latitude 在内的公司已在生产环境中使用 Gemini 3 Flash。

重要意义

AI 应用的推理成本格局刚刚发生转变。Gemini 3 Flash 以普惠定价提供前沿级推理能力，为数据中心运营商和应用开发者创造了新的部署经济模式。

成本优势：每百万输入 token 0.50 美元的价格使 Gemini 3 Flash 比 Claude Opus 4.5（3.00 美元）便宜 6 倍，同时在大多数基准测试中达到相当的性能。上下文缓存可为重复 token 使用的工作负载实现 90% 的成本降低。

推理速度：Artificial Analysis 基准测试记录到每秒 218 个输出 token，比 GPT-5.1（125 t/s）快 74%，比 DeepSeek V3.2 推理模式（30 t/s）快 7 倍。短提示的亚秒级延迟可实现响应式聊天界面和快速智能体循环迭代。

智能体工作流：该模型在 SWE-bench Verified 上达到 78%，在智能体编码任务方面超越 2.5 系列和 Gemini 3 Pro。对于构建 AI 智能体的企业来说，以更低成本获得相当的能力直接影响部署投资回报率。

多模态处理：Resemble AI 报告称，与 2.5 Pro 相比，多模态分析速度快 4 倍，可无工作流瓶颈地处理原始技术输出。

技术细节

规格参数

规格	Gemini 3 Flash
输入模态	文本、图像、视频、音频、PDF
输出模态	文本
最大输入 token 数	1,048,576（100 万）
最大输出 token 数	65,536
知识截止日期	2025 年 1 月
发布日期	2025 年 12 月 17 日

基准性能

基准测试	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90.4%	91.9%	88.4%	88.0%
SWE-bench Verified	78%	76.2%	—	80.9%
MMMU-Pro	81.2%	—	79.5%	—
Humanity's Last Exam	33.7%	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash 全面超越 2.5 Flash，在多项基准测试中显著优于 2.5 Pro，同时在 MMMU Pro、Toolathlon 和 MPC Atlas 等领域与 3 Pro 持平或更优。

定价对比

模型	输入（每百万 token）	输出（每百万 token）
Gemini 3 Flash	$0.50	$3.00
Gemini 2.5 Flash	$0.30	$2.50
Gemini 3 Pro	~$2.00	~$10.00
Claude Opus 4.5	$3.00	$15.00
GPT-5.2	~$2.50	~$10.00

Gemini 3 Flash 的成本不到 Gemini 3 Pro 的四分之一，同时提供相当的推理能力。Batch API 为异步处理提供额外 50% 的节省，并具有更高的速率限制。

速度指标

模型	输出 token 数/秒
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash 比 2.5 Flash 慢 22%，但明显快于竞争对手的前沿模型，使其成为具备推理能力系统中的速度领先者。

未来展望

Gemini 3 Flash 现已推出，可在 Google AI Studio、Gemini CLI、Android Studio 和面向企业部署的 Vertex AI 上使用。该模型目前处于预览状态，谷歌正在收集生产反馈。

2025 年 12 月模型选择指南： - 长时间编码会话和 bug 修复：Claude Opus 4.5 以 80.9% SWE-bench 成绩领先 - 算法设计和竞技编程：Gemini 3 Pro 以 2,439 LiveCodeBench Elo 分数占据主导 - 低成本高吞吐推理：Gemini 3 Flash 提供最佳性价比 - 纯推理和数学：GPT-5.2 在 AIME 2025 上达到 100%

Artificial Analysis 对比显示，Gemini 3 Flash 的智能指数得分为 71.3，而 Claude Sonnet 4.5 为 62.8，同时响应速度快 3 倍，输出速度快 4 倍。

Introl 视角

高吞吐量 AI 推理工作负载需要针对一致低延迟性能优化的 GPU 基础设施。Introl 拥有 550 名现场工程师组成的网络，在全球 257 个地点部署和维护加速器集群。了解更多关于我们服务覆盖区域的信息。

发布日期：2025 年 12 月 29 日

Gemini 3 Flash：谷歌速度冠军以六分之一成本媲美 GPT-5.2

摘要

事件概述

重要意义

技术细节

规格参数

基准性能

定价对比

速度指标

未来展望

Introl 视角

You Might Also Like

数据中心AIOps：使用大语言模型管理AI基础设施

AI 推理的负载均衡：在 1000+ GPU 上分发请求

面向AI的分解式计算：可组合基础设施架构

申请报价_

请求已收到_