Gemini 3 Flash: швидкісний чемпіон Google досягає рівня GPT-5.2 за 6 разів нижчою ціною
Коротко
Google запустила Gemini 3 Flash 17 грудня 2025 року, забезпечивши продуктивність рівня frontier-моделей зі швидкістю та вартістю серії Flash. Модель досягає 90,4% на GPQA Diamond та 78% на SWE-bench Verified, коштуючи лише $0,50 за мільйон вхідних токенів — приблизно в 6 разів дешевше за Claude Opus 4.5. Для застосунків з інтенсивним інференсом Gemini 3 Flash обробляє 218 токенів на секунду, випереджаючи GPT-5.1 (125 т/с) та DeepSeek V3.2 у режимі reasoning (30 т/с).
Що сталося
Google випустила Gemini 3 Flash 17 грудня 2025 року, через місяць після того, як Gemini 3 Pro очолила рейтинг LMArena. Модель поєднує reasoning рівня Pro зі швидкістю та ефективністю Flash, орієнтуючись на високонавантажені production-середовища, де вартість і швидкість важливі не менше, ніж можливості.
Gemini 3 Flash одразу стала моделлю за замовчуванням у застосунку Gemini та в AI Mode у Google Search, що свідчить про впевненість Google у розгортанні frontier-інтелекту для споживчого масштабу.
Модель перевершує Gemini 2.5 Pro за бенчмарками, працюючи втричі швидше згідно з тестуванням Artificial Analysis. За кількома бенчмарками вона конкурує з GPT-5.2 — моделлю, яку OpenAI терміново випустила на противагу Gemini 3 Pro.
Такі компанії, як JetBrains, Figma, Cursor, Harvey та Latitude, вже використовують Gemini 3 Flash у production.
Чому це важливо
Економіка інференсу для AI-застосунків щойно змінилася. Gemini 3 Flash пропонує reasoning рівня frontier за commodity-цінами, створюючи нові економічні умови для операторів дата-центрів та розробників застосунків.
Цінова перевага: За $0,50 за мільйон вхідних токенів Gemini 3 Flash коштує в 6 разів дешевше за Claude Opus 4.5 ($3,00), досягаючи порівнянної продуктивності за більшістю бенчмарків. Кешування контексту дозволяє зменшити витрати на 90% для навантажень з повторним використанням токенів.
Швидкість інференсу: Тестування Artificial Analysis зафіксувало 218 вихідних токенів на секунду, що на 74% більше за GPT-5.1 (125 т/с) і в 7 разів більше за DeepSeek V3.2 reasoning mode (30 т/с). Субсекундна затримка для коротких промптів забезпечує швидкі чат-інтерфейси та оперативні ітерації агентних циклів.
Агентні робочі процеси: Модель досягла 78% на SWE-bench Verified, перевершивши як серію 2.5, так і Gemini 3 Pro для агентних задач програмування. Для підприємств, що створюють AI-агентів, порівнянні можливості за нижчою ціною безпосередньо впливають на ROI розгортання.
Мультимодальна обробка: Resemble AI повідомила про у 4 рази швидший мультимодальний аналіз порівняно з 2.5 Pro, обробляючи необроблені технічні дані без вузьких місць у робочому процесі.
Технічні деталі
Специфікації
| Специфікація | Gemini 3 Flash |
|---|---|
| Вхідні модальності | Текст, зображення, відео, аудіо, PDF |
| Вихідні модальності | Текст |
| Макс. вхідних токенів | 1 048 576 (1М) |
| Макс. вихідних токенів | 65 536 |
| Knowledge Cutoff | Січень 2025 |
| Дата випуску | 17 грудня 2025 |
Результати бенчмарків
| Бенчмарк | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90,4% | 91,9% | 88,4% | 88,0% |
| SWE-bench Verified | 78% | 76,2% | — | 80,9% |
| MMMU-Pro | 81,2% | — | 79,5% | — |
| Humanity's Last Exam | 33,7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash перевершує 2.5 Flash за всіма показниками і значно випереджає 2.5 Pro за кількома бенчмарками, досягаючи рівня або перевершуючи 3 Pro у таких сферах, як MMMU Pro, Toolathlon та MPC Atlas.
Порівняння цін
| Модель | Вхід (за 1М токенів) | Вихід (за 1М токенів) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 2.5 Flash | $0,30 | $2,50 |
| Gemini 3 Pro | ~$2,00 | ~$10,00 |
| Claude Opus 4.5 | $3,00 | $15,00 |
| GPT-5.2 | ~$2,50 | ~$10,00 |
Gemini 3 Flash коштує менше чверті від Gemini 3 Pro, забезпечуючи порівнянні можливості reasoning. Batch API пропонує додаткову економію 50% для асинхронної обробки з вищими лімітами запитів.
Показники швидкості
| Модель | Вихідних токенів/секунду |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash працює на 22% повільніше за 2.5 Flash, але значно швидше за конкуруючі frontier-моделі, що робить її лідером швидкості серед систем з можливостями reasoning.
Що далі
Gemini 3 Flash розгортається зараз через Google AI Studio, Gemini CLI, Android Studio та Vertex AI для корпоративних розгортань. Модель залишається у статусі preview, поки Google збирає відгуки з production.
Для вибору моделі у грудні 2025: - Тривалі сесії програмування та виправлення багів: Claude Opus 4.5 лідирує з 80,9% на SWE-bench - Проєктування алгоритмів та спортивне програмування: Gemini 3 Pro домінує з 2439 Elo на LiveCodeBench - Високонавантажений інференс за низькою ціною: Gemini 3 Flash пропонує найкраще співвідношення якості до вартості - Чистий reasoning та математика: GPT-5.2 досягає 100% на AIME 2025
Порівняння Artificial Analysis показує, що Gemini 3 Flash має Intelligence Index 71,3 проти 62,8 у Claude Sonnet 4.5, у поєднанні з утричі швидшим часом відгуку та вчетверо кращою швидкістю виводу.
Позиція Introl
Високопропускні AI-навантаження інференсу потребують GPU-інфраструктури, оптимізованої для стабільної низької затримки. Мережа з 550 польових інженерів Introl розгортає та обслуговує кластери прискорювачів у 257 локаціях по всьому світу. Дізнайтеся більше про нашу зону покриття.
Опубліковано: 29 грудня 2025