Gemini 3 Flash: แชมป์ความเร็วของ Google เทียบเท่า GPT-5.2 ในราคาถูกกว่า 6 เท่า
สรุปย่อ
Google เปิดตัว Gemini 3 Flash เมื่อวันที่ 17 ธันวาคม 2025 มอบประสิทธิภาพระดับ frontier ด้วยความเร็วและต้นทุนระดับ Flash โมเดลนี้ทำคะแนนได้ 90.4% ใน GPQA Diamond และ 78% ใน SWE-bench Verified ในขณะที่มีราคาเพียง $0.50 ต่อล้าน input token ถูกกว่า Claude Opus 4.5 ประมาณ 6 เท่า สำหรับการใช้งานที่ต้องการ inference หนัก Gemini 3 Flash ประมวลผลได้ 218 token ต่อวินาที เหนือกว่า GPT-5.1 (125 t/s) และ DeepSeek V3.2 โหมด reasoning (30 t/s)
เกิดอะไรขึ้น
Google เปิดตัว Gemini 3 Flash เมื่อวันที่ 17 ธันวาคม 2025 หนึ่งเดือนหลังจาก Gemini 3 Pro ขึ้นสู่อันดับหนึ่งบน LMArena leaderboard โมเดลนี้ผสมผสานความสามารถในการให้เหตุผลระดับ Pro กับ latency และประสิทธิภาพระดับ Flash โดยมุ่งเป้าไปที่งาน production ปริมาณมากที่ต้นทุนและความเร็วสำคัญพอๆ กับความสามารถ
Gemini 3 Flash กลายเป็น โมเดลเริ่มต้นในแอป Gemini และ AI Mode ใน Google Search ทันที ซึ่งแสดงถึงความมั่นใจของ Google ในการนำ intelligence ระดับ frontier ไปใช้ในระดับผู้บริโภค
โมเดลนี้ เหนือกว่า Gemini 2.5 Pro ใน benchmark ต่างๆ ขณะที่ทำงานเร็วกว่า 3 เท่าตามการทดสอบของ Artificial Analysis ใน benchmark หลายตัว มัน แข่งขันกับ GPT-5.2 ได้อย่างสูสี ซึ่งเป็นโมเดลที่ OpenAI เร่งออกมาเพื่อตอบโต้ Gemini 3 Pro
บริษัทต่างๆ รวมถึง JetBrains, Figma, Cursor, Harvey และ Latitude ใช้ Gemini 3 Flash ใน production แล้ว
ทำไมจึงสำคัญ
สมการต้นทุน inference สำหรับแอปพลิเคชัน AI เพิ่งเปลี่ยนไป Gemini 3 Flash นำเสนอการให้เหตุผลระดับ frontier ในราคาสินค้าทั่วไป สร้างเศรษฐศาสตร์การใช้งานใหม่สำหรับผู้ดำเนินการ data center และนักพัฒนาแอปพลิเคชัน
ข้อได้เปรียบด้านต้นทุน: ในราคา $0.50 ต่อล้าน input token Gemini 3 Flash ถูกกว่า Claude Opus 4.5 ($3.00) ถึง 6 เท่า ขณะที่ทำประสิทธิภาพใกล้เคียงกันใน benchmark ส่วนใหญ่ Context caching ช่วย ลดต้นทุนได้ 90% สำหรับงานที่มีการใช้ token ซ้ำ
ความเร็ว Inference: การทดสอบของ Artificial Analysis บันทึกได้ 218 output token ต่อวินาที เหนือกว่า GPT-5.1 (125 t/s) 74% และเร็วกว่า DeepSeek V3.2 โหมด reasoning (30 t/s) 7 เท่า Latency ต่ำกว่าหนึ่งวินาทีสำหรับ prompt สั้นๆ ทำให้ chat interface ตอบสนองได้ดีและ agentic loop ทำงานได้รวดเร็ว
Agentic Workflows: โมเดลทำได้ 78% ใน SWE-bench Verified เหนือกว่าทั้งซีรีส์ 2.5 และ Gemini 3 Pro สำหรับงาน agentic coding สำหรับองค์กรที่สร้าง AI agent ความสามารถที่เทียบเคียงได้ในต้นทุนที่ต่ำกว่าส่งผลโดยตรงต่อ ROI ของการใช้งาน
การประมวลผล Multimodal: Resemble AI รายงาน การวิเคราะห์ multimodal เร็วขึ้น 4 เท่า เมื่อเทียบกับ 2.5 Pro ประมวลผล raw technical output ได้โดยไม่ติดขัดใน workflow
รายละเอียดทางเทคนิค
สเปค
| สเปค | Gemini 3 Flash |
|---|---|
| Input Modalities | ข้อความ, รูปภาพ, วิดีโอ, เสียง, PDF |
| Output Modalities | ข้อความ |
| Max Input Tokens | 1,048,576 (1M) |
| Max Output Tokens | 65,536 |
| Knowledge Cutoff | มกราคม 2025 |
| วันเปิดตัว | 17 ธันวาคม 2025 |
ประสิทธิภาพ Benchmark
| Benchmark | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.4% | 91.9% | 88.4% | 88.0% |
| SWE-bench Verified | 78% | 76.2% | — | 80.9% |
| MMMU-Pro | 81.2% | — | 79.5% | — |
| Humanity's Last Exam | 33.7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash เหนือกว่า 2.5 Flash ในทุกด้าน และเหนือกว่า 2.5 Pro อย่างมากใน benchmark หลายตัว ขณะที่เทียบเท่าหรือดีกว่า 3 Pro ในด้านต่างๆ รวมถึง MMMU Pro, Toolathlon และ MPC Atlas
เปรียบเทียบราคา
| โมเดล | Input (ต่อ 1M token) | Output (ต่อ 1M token) |
|---|---|---|
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
| Gemini 3 Pro | ~$2.00 | ~$10.00 |
| Claude Opus 4.5 | $3.00 | $15.00 |
| GPT-5.2 | ~$2.50 | ~$10.00 |
Gemini 3 Flash ราคา ไม่ถึงหนึ่งในสี่ ของ Gemini 3 Pro ขณะที่ให้ความสามารถในการให้เหตุผลที่เทียบเคียงได้ Batch API ให้ ส่วนลดเพิ่มอีก 50% สำหรับการประมวลผลแบบ asynchronous พร้อม rate limit ที่สูงขึ้น
ตัวชี้วัดความเร็ว
| โมเดล | Output Token/วินาที |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash ทำงาน ช้ากว่า 2.5 Flash 22% แต่เร็วกว่าโมเดล frontier คู่แข่งอย่างมาก ทำให้เป็นผู้นำด้านความเร็วในบรรดาระบบที่มีความสามารถในการให้เหตุผล
ก้าวต่อไป
Gemini 3 Flash เปิดตัวแล้วตอนนี้ บน Google AI Studio, Gemini CLI, Android Studio และ Vertex AI สำหรับการใช้งานระดับองค์กร โมเดลยังอยู่ในสถานะ preview ขณะที่ Google รวบรวม feedback จากการใช้งานจริง
สำหรับการเลือกโมเดลในเดือนธันวาคม 2025: - Session coding ยาวและแก้ bug: Claude Opus 4.5 นำด้วย 80.9% SWE-bench - ออกแบบ algorithm และ competitive programming: Gemini 3 Pro ครองด้วย 2,439 LiveCodeBench Elo - Inference ปริมาณมากในต้นทุนต่ำ: Gemini 3 Flash ให้คุณภาพต่อราคาดีที่สุด - Reasoning และคณิตศาสตร์ล้วนๆ: GPT-5.2 ทำได้ 100% ใน AIME 2025
การเปรียบเทียบของ Artificial Analysis แสดงให้เห็นว่า Gemini 3 Flash มีคะแนน Intelligence Index 71.3 เทียบกับ Claude Sonnet 4.5 ที่ 62.8 รวมถึงเวลาตอบสนองเร็วกว่า 3 เท่าและความเร็ว output ดีกว่า 4 เท่า
มุมมอง Introl
งาน AI inference ปริมาณมากต้องการโครงสร้างพื้นฐาน GPU ที่ปรับให้เหมาะสมสำหรับประสิทธิภาพ low-latency ที่สม่ำเสมอ เครือข่ายวิศวกรภาคสนาม 550 คนของ Introl ติดตั้งและดูแล accelerator cluster ใน 257 สถานที่ทั่วโลก เรียนรู้เพิ่มเติมเกี่ยวกับพื้นที่ให้บริการของเรา
เผยแพร่: 29 ธันวาคม 2025