Gemini 3 Flash: Nhà Vô Địch Tốc Độ của Google Sánh Ngang GPT-5.2 với Chi Phí Thấp Hơn 6 Lần

Gemini 3 Flash của Google đạt 90,4% GPQA Diamond và 78% SWE-bench với giá $0,50/triệu token. Mô hình tiên tiến nhanh nhất có ý nghĩa gì đối với hạ tầng AI.

Blake Crosley

Dec 29, 2025 6 min read Disclaimer

Gemini 3 Flash: Nhà Vô Địch Tốc Độ của Google Sánh Ngang GPT-5.2 với Chi Phí Thấp Hơn 6 Lần

Tóm Tắt

Google ra mắt Gemini 3 Flash vào ngày 17 tháng 12 năm 2025, mang đến hiệu năng cấp tiên tiến với tốc độ và chi phí cấp Flash. Mô hình đạt 90,4% trên GPQA Diamond và 78% trên SWE-bench Verified trong khi chỉ tốn $0,50 cho mỗi triệu token đầu vào, rẻ hơn khoảng 6 lần so với Claude Opus 4.5. Đối với các triển khai yêu cầu suy luận cao, Gemini 3 Flash xử lý 218 token mỗi giây, vượt trội hơn GPT-5.1 (125 t/s) và chế độ suy luận DeepSeek V3.2 (30 t/s).

Điều Gì Đã Xảy Ra

Google phát hành Gemini 3 Flash vào ngày 17 tháng 12 năm 2025, một tháng sau khi Gemini 3 Pro đứng đầu bảng xếp hạng LMArena. Mô hình kết hợp khả năng suy luận cấp Pro với độ trễ và hiệu suất cấp Flash, nhắm đến các khối lượng công việc sản xuất lớn nơi chi phí và tốc độ quan trọng không kém khả năng.

Gemini 3 Flash ngay lập tức trở thành mô hình mặc định trong ứng dụng Gemini và AI Mode trong Google Search, cho thấy sự tự tin của Google trong việc triển khai trí tuệ tiên tiến ở quy mô người tiêu dùng.

Mô hình vượt trội hơn Gemini 2.5 Pro trên các benchmark đồng thời chạy nhanh hơn 3 lần theo thử nghiệm của Artificial Analysis. Trong một số benchmark, nó cạnh tranh sát sao với GPT-5.2, mô hình mà OpenAI vội vàng ra mắt để đối phó với Gemini 3 Pro.

Các công ty bao gồm JetBrains, Figma, Cursor, Harvey, và Latitude đã sử dụng Gemini 3 Flash trong môi trường production.

Tại Sao Điều Này Quan Trọng

Phương trình chi phí suy luận cho các ứng dụng AI vừa thay đổi. Gemini 3 Flash cung cấp khả năng suy luận cấp tiên tiến với giá cả phổ thông, tạo ra kinh tế triển khai mới cho các nhà vận hành trung tâm dữ liệu và nhà phát triển ứng dụng.

Lợi Thế Chi Phí: Với giá $0,50 cho mỗi triệu token đầu vào, Gemini 3 Flash rẻ hơn 6 lần so với Claude Opus 4.5 ($3,00) trong khi đạt hiệu năng tương đương trên hầu hết các benchmark. Tính năng context caching cho phép giảm chi phí 90% cho các khối lượng công việc có sử dụng token lặp lại.

Tốc Độ Suy Luận: Benchmark của Artificial Analysis ghi nhận 218 token đầu ra mỗi giây, vượt trội hơn GPT-5.1 (125 t/s) 74% và chế độ suy luận DeepSeek V3.2 (30 t/s) 7 lần. Độ trễ dưới một giây cho các prompt ngắn cho phép giao diện chat phản hồi nhanh và lặp vòng agentic nhanh chóng.

Quy Trình Agentic: Mô hình đạt 78% trên SWE-bench Verified, vượt trội hơn cả dòng 2.5 và Gemini 3 Pro cho các tác vụ coding agentic. Đối với các doanh nghiệp xây dựng AI agent, khả năng tương đương với chi phí thấp hơn trực tiếp ảnh hưởng đến ROI triển khai.

Xử Lý Đa Phương Thức: Resemble AI báo cáo phân tích đa phương thức nhanh hơn 4 lần so với 2.5 Pro, xử lý các đầu ra kỹ thuật thô mà không có nút thắt quy trình.

Chi Tiết Kỹ Thuật

Thông Số Kỹ Thuật

Thông Số	Gemini 3 Flash
Đầu Vào Đa Phương Thức	Văn bản, hình ảnh, video, âm thanh, PDF
Đầu Ra Đa Phương Thức	Văn bản
Token Đầu Vào Tối Đa	1.048.576 (1M)
Token Đầu Ra Tối Đa	65.536
Cập Nhật Kiến Thức	Tháng 1 năm 2025
Ngày Phát Hành	17 tháng 12 năm 2025

Hiệu Năng Benchmark

Benchmark	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90,4%	91,9%	88,4%	88,0%
SWE-bench Verified	78%	76,2%	—	80,9%
MMMU-Pro	81,2%	—	79,5%	—
Humanity's Last Exam	33,7%	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash vượt trội hơn 2.5 Flash toàn diện và vượt đáng kể 2.5 Pro trên một số benchmark trong khi sánh ngang hoặc vượt 3 Pro ở các lĩnh vực bao gồm MMMU Pro, Toolathlon, và MPC Atlas.

So Sánh Giá

Mô Hình	Đầu Vào (mỗi 1M token)	Đầu Ra (mỗi 1M token)
Gemini 3 Flash	$0,50	$3,00
Gemini 2.5 Flash	$0,30	$2,50
Gemini 3 Pro	~$2,00	~$10,00
Claude Opus 4.5	$3,00	$15,00
GPT-5.2	~$2,50	~$10,00

Gemini 3 Flash có giá chưa đến một phần tư so với Gemini 3 Pro trong khi mang lại khả năng suy luận tương đương. Batch API cung cấp tiết kiệm thêm 50% cho xử lý bất đồng bộ với giới hạn tốc độ cao hơn.

Chỉ Số Tốc Độ

Mô Hình	Token Đầu Ra/Giây
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash chạy chậm hơn 22% so với 2.5 Flash nhưng nhanh hơn đáng kể so với các mô hình tiên tiến cạnh tranh, khiến nó trở thành dẫn đầu về tốc độ trong số các hệ thống có khả năng suy luận.

Tiếp Theo Là Gì

Gemini 3 Flash triển khai ngay bây giờ trên Google AI Studio, Gemini CLI, Android Studio, và Vertex AI cho các triển khai doanh nghiệp. Mô hình vẫn ở trạng thái preview khi Google thu thập phản hồi từ môi trường production.

Cho việc lựa chọn mô hình vào tháng 12 năm 2025: - Phiên coding dài và sửa lỗi: Claude Opus 4.5 dẫn đầu với 80,9% SWE-bench - Thiết kế thuật toán và lập trình thi đấu: Gemini 3 Pro thống trị với 2.439 LiveCodeBench Elo - Suy luận khối lượng lớn với chi phí thấp: Gemini 3 Flash cung cấp chất lượng trên mỗi đô la tốt nhất - Suy luận thuần túy và toán học: GPT-5.2 đạt 100% trên AIME 2025

So sánh của Artificial Analysis cho thấy Gemini 3 Flash với điểm Intelligence Index là 71,3 so với 62,8 của Claude Sonnet 4.5, kết hợp với thời gian phản hồi nhanh hơn 3 lần và tốc độ đầu ra tốt hơn 4 lần.

Góc Nhìn Introl

Các khối lượng công việc suy luận AI thông lượng cao đòi hỏi hạ tầng GPU được tối ưu hóa cho hiệu năng độ trễ thấp nhất quán. Mạng lưới 550 kỹ sư hiện trường của Introl triển khai và bảo trì các cụm accelerator tại 257 địa điểm toàn cầu. Tìm hiểu thêm về vùng phủ sóng của chúng tôi.

Xuất bản: 29 tháng 12 năm 2025

Gemini 3 Flash: Nhà Vô Địch Tốc Độ của Google Sánh Ngang GPT-5.2 với Chi Phí Thấp Hơn 6 Lần

Tóm Tắt

Điều Gì Đã Xảy Ra

Tại Sao Điều Này Quan Trọng

Chi Tiết Kỹ Thuật

Thông Số Kỹ Thuật

Hiệu Năng Benchmark

So Sánh Giá

Chỉ Số Tốc Độ

Tiếp Theo Là Gì

Góc Nhìn Introl

You Might Also Like

AIOps cho Trung tâm Dữ liệu: Sử dụng LLM để Quản lý Hạ tầng ...

Cân bằng tải cho AI Inference: Phân phối yêu cầu trên hơn 10...

Điện toán phân tách cho AI: Kiến trúc hạ tầng có thể kết hợp

Yêu cầu báo giá_

Đã Nhận Yêu cầu_