Gemini 3 Flash:谷歌速度冠军以六分之一成本媲美 GPT-5.2
摘要
谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash,以 Flash 级别的速度和成本提供前沿级性能。该模型在 GPQA Diamond 测试中达到 90.4%,在 SWE-bench Verified 测试中达到 78%,每百万输入 token 仅需 0.50 美元,约为 Claude Opus 4.5 价格的六分之一。对于推理密集型部署,Gemini 3 Flash 每秒处理 218 个 token,超越 GPT-5.1(125 t/s)和 DeepSeek V3.2 推理模式(30 t/s)。
事件概述
谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash,距 Gemini 3 Pro 登顶 LMArena 排行榜仅一个月。该模型结合了 Pro 级推理能力与 Flash 级延迟和效率,瞄准对成本和速度与性能同等重要的大规模生产工作负载。
Gemini 3 Flash 立即成为 Gemini 应用的默认模型以及谷歌搜索 AI 模式的默认模型,表明谷歌有信心在消费级规模部署前沿智能。
根据 Artificial Analysis 的测试,该模型在各项基准测试中超越 Gemini 2.5 Pro,同时运行速度快 3 倍。在多项基准测试中,它与 GPT-5.2 不相上下——GPT-5.2 是 OpenAI 为应对 Gemini 3 Pro 而匆忙推出的模型。
包括 JetBrains、Figma、Cursor、Harvey 和 Latitude 在内的公司已在生产环境中使用 Gemini 3 Flash。
重要意义
AI 应用的推理成本格局刚刚发生转变。Gemini 3 Flash 以普惠定价提供前沿级推理能力,为数据中心运营商和应用开发者创造了新的部署经济模式。
成本优势:每百万输入 token 0.50 美元的价格使 Gemini 3 Flash 比 Claude Opus 4.5(3.00 美元)便宜 6 倍,同时在大多数基准测试中达到相当的性能。上下文缓存可为重复 token 使用的工作负载实现 90% 的成本降低。
推理速度:Artificial Analysis 基准测试记录到每秒 218 个输出 token,比 GPT-5.1(125 t/s)快 74%,比 DeepSeek V3.2 推理模式(30 t/s)快 7 倍。短提示的亚秒级延迟可实现响应式聊天界面和快速智能体循环迭代。
智能体工作流:该模型在 SWE-bench Verified 上达到 78%,在智能体编码任务方面超越 2.5 系列和 Gemini 3 Pro。对于构建 AI 智能体的企业来说,以更低成本获得相当的能力直接影响部署投资回报率。
多模态处理:Resemble AI 报告称,与 2.5 Pro 相比,多模态分析速度快 4 倍,可无工作流瓶颈地处理原始技术输出。
技术细节
规格参数
| 规格 | Gemini 3 Flash |
|---|---|
| 输入模态 | 文本、图像、视频、音频、PDF |
| 输出模态 | 文本 |
| 最大输入 token 数 | 1,048,576(100 万) |
| 最大输出 token 数 | 65,536 |
| 知识截止日期 | 2025 年 1 月 |
| 发布日期 | 2025 年 12 月 17 日 |
基准性能
| 基准测试 | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.4% | 91.9% | 88.4% | 88.0% |
| SWE-bench Verified | 78% | 76.2% | — | 80.9% |
| MMMU-Pro | 81.2% | — | 79.5% | — |
| Humanity's Last Exam | 33.7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash 全面超越 2.5 Flash,在多项基准测试中显著优于 2.5 Pro,同时在 MMMU Pro、Toolathlon 和 MPC Atlas 等领域与 3 Pro 持平或更优。
定价对比
| 模型 | 输入(每百万 token) | 输出(每百万 token) |
|---|---|---|
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
| Gemini 3 Pro | ~$2.00 | ~$10.00 |
| Claude Opus 4.5 | $3.00 | $15.00 |
| GPT-5.2 | ~$2.50 | ~$10.00 |
Gemini 3 Flash 的成本不到 Gemini 3 Pro 的四分之一,同时提供相当的推理能力。Batch API 为异步处理提供额外 50% 的节省,并具有更高的速率限制。
速度指标
| 模型 | 输出 token 数/秒 |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash 比 2.5 Flash 慢 22%,但明显快于竞争对手的前沿模型,使其成为具备推理能力系统中的速度领先者。
未来展望
Gemini 3 Flash 现已推出,可在 Google AI Studio、Gemini CLI、Android Studio 和面向企业部署的 Vertex AI 上使用。该模型目前处于预览状态,谷歌正在收集生产反馈。
2025 年 12 月模型选择指南: - 长时间编码会话和 bug 修复:Claude Opus 4.5 以 80.9% SWE-bench 成绩领先 - 算法设计和竞技编程:Gemini 3 Pro 以 2,439 LiveCodeBench Elo 分数占据主导 - 低成本高吞吐推理:Gemini 3 Flash 提供最佳性价比 - 纯推理和数学:GPT-5.2 在 AIME 2025 上达到 100%
Artificial Analysis 对比显示,Gemini 3 Flash 的智能指数得分为 71.3,而 Claude Sonnet 4.5 为 62.8,同时响应速度快 3 倍,输出速度快 4 倍。
Introl 视角
高吞吐量 AI 推理工作负载需要针对一致低延迟性能优化的 GPU 基础设施。Introl 拥有 550 名现场工程师组成的网络,在全球 257 个地点部署和维护加速器集群。了解更多关于我们服务覆盖区域的信息。
发布日期:2025 年 12 月 29 日