Gemini 3 Flash:谷歌速度冠军以六分之一成本媲美 GPT-5.2

谷歌 Gemini 3 Flash 在 GPQA Diamond 测试中达到 90.4%,SWE-bench 测试中达到 78%,每百万 token 仅需 0.50 美元。这款最快的前沿模型对 AI 基础设施意味着什么。

Gemini 3 Flash:谷歌速度冠军以六分之一成本媲美 GPT-5.2

Gemini 3 Flash:谷歌速度冠军以六分之一成本媲美 GPT-5.2

摘要

谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash,以 Flash 级别的速度和成本提供前沿级性能。该模型在 GPQA Diamond 测试中达到 90.4%,在 SWE-bench Verified 测试中达到 78%,每百万输入 token 仅需 0.50 美元,约为 Claude Opus 4.5 价格的六分之一。对于推理密集型部署,Gemini 3 Flash 每秒处理 218 个 token,超越 GPT-5.1(125 t/s)和 DeepSeek V3.2 推理模式(30 t/s)。


事件概述

谷歌于 2025 年 12 月 17 日发布 Gemini 3 Flash,距 Gemini 3 Pro 登顶 LMArena 排行榜仅一个月。该模型结合了 Pro 级推理能力与 Flash 级延迟和效率,瞄准对成本和速度与性能同等重要的大规模生产工作负载。

Gemini 3 Flash 立即成为 Gemini 应用的默认模型以及谷歌搜索 AI 模式的默认模型,表明谷歌有信心在消费级规模部署前沿智能。

根据 Artificial Analysis 的测试,该模型在各项基准测试中超越 Gemini 2.5 Pro,同时运行速度快 3 倍。在多项基准测试中,它与 GPT-5.2 不相上下——GPT-5.2 是 OpenAI 为应对 Gemini 3 Pro 而匆忙推出的模型。

包括 JetBrains、Figma、Cursor、Harvey 和 Latitude 在内的公司已在生产环境中使用 Gemini 3 Flash。


重要意义

AI 应用的推理成本格局刚刚发生转变。Gemini 3 Flash 以普惠定价提供前沿级推理能力,为数据中心运营商和应用开发者创造了新的部署经济模式。

成本优势每百万输入 token 0.50 美元的价格使 Gemini 3 Flash 比 Claude Opus 4.5(3.00 美元)便宜 6 倍,同时在大多数基准测试中达到相当的性能。上下文缓存可为重复 token 使用的工作负载实现 90% 的成本降低

推理速度Artificial Analysis 基准测试记录到每秒 218 个输出 token,比 GPT-5.1(125 t/s)快 74%,比 DeepSeek V3.2 推理模式(30 t/s)快 7 倍。短提示的亚秒级延迟可实现响应式聊天界面和快速智能体循环迭代。

智能体工作流:该模型在 SWE-bench Verified 上达到 78%,在智能体编码任务方面超越 2.5 系列和 Gemini 3 Pro。对于构建 AI 智能体的企业来说,以更低成本获得相当的能力直接影响部署投资回报率。

多模态处理:Resemble AI 报告称,与 2.5 Pro 相比,多模态分析速度快 4 倍,可无工作流瓶颈地处理原始技术输出。


技术细节

规格参数

规格 Gemini 3 Flash
输入模态 文本、图像、视频、音频、PDF
输出模态 文本
最大输入 token 数 1,048,576(100 万)
最大输出 token 数 65,536
知识截止日期 2025 年 1 月
发布日期 2025 年 12 月 17 日

基准性能

基准测试 Gemini 3 Flash Gemini 3 Pro GPT-5.2 Claude Opus 4.5
GPQA Diamond 90.4% 91.9% 88.4% 88.0%
SWE-bench Verified 78% 76.2% 80.9%
MMMU-Pro 81.2% 79.5%
Humanity's Last Exam 33.7%
LMArena Elo 1501

Gemini 3 Flash 全面超越 2.5 Flash,在多项基准测试中显著优于 2.5 Pro,同时在 MMMU Pro、Toolathlon 和 MPC Atlas 等领域与 3 Pro 持平或更优。

定价对比

模型 输入(每百万 token) 输出(每百万 token)
Gemini 3 Flash $0.50 $3.00
Gemini 2.5 Flash $0.30 $2.50
Gemini 3 Pro ~$2.00 ~$10.00
Claude Opus 4.5 $3.00 $15.00
GPT-5.2 ~$2.50 ~$10.00

Gemini 3 Flash 的成本不到 Gemini 3 Pro 的四分之一,同时提供相当的推理能力。Batch API 为异步处理提供额外 50% 的节省,并具有更高的速率限制。

速度指标

模型 输出 token 数/秒
Gemini 3 Flash 218
Gemini 2.5 Flash ~280
GPT-5.1 High 125
DeepSeek V3.2 Reasoning 30

Gemini 3 Flash 比 2.5 Flash 慢 22%,但明显快于竞争对手的前沿模型,使其成为具备推理能力系统中的速度领先者。


未来展望

Gemini 3 Flash 现已推出,可在 Google AI Studio、Gemini CLI、Android Studio 和面向企业部署的 Vertex AI 上使用。该模型目前处于预览状态,谷歌正在收集生产反馈。

2025 年 12 月模型选择指南: - 长时间编码会话和 bug 修复:Claude Opus 4.5 以 80.9% SWE-bench 成绩领先 - 算法设计和竞技编程:Gemini 3 Pro 以 2,439 LiveCodeBench Elo 分数占据主导 - 低成本高吞吐推理:Gemini 3 Flash 提供最佳性价比 - 纯推理和数学:GPT-5.2 在 AIME 2025 上达到 100%

Artificial Analysis 对比显示,Gemini 3 Flash 的智能指数得分为 71.3,而 Claude Sonnet 4.5 为 62.8,同时响应速度快 3 倍,输出速度快 4 倍。


Introl 视角

高吞吐量 AI 推理工作负载需要针对一致低延迟性能优化的 GPU 基础设施。Introl 拥有 550 名现场工程师组成的网络,在全球 257 个地点部署和维护加速器集群。了解更多关于我们服务覆盖区域的信息


发布日期:2025 年 12 月 29 日

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中