Gemini 3 Flash: швидкісний чемпіон Google досягає рівня GPT-5.2 за 6 разів нижчою ціною

Gemini 3 Flash від Google демонструє 90,4% на GPQA Diamond та 78% на SWE-bench за $0,50/М токенів. Що означає найшвидша frontier-модель для AI-інфраструктури.

Blake Crosley

Dec 29, 2025 4 min read Disclaimer

Gemini 3 Flash: швидкісний чемпіон Google досягає рівня GPT-5.2 за 6 разів нижчою ціною

Коротко

Google запустила Gemini 3 Flash 17 грудня 2025 року, забезпечивши продуктивність рівня frontier-моделей зі швидкістю та вартістю серії Flash. Модель досягає 90,4% на GPQA Diamond та 78% на SWE-bench Verified, коштуючи лише $0,50 за мільйон вхідних токенів — приблизно в 6 разів дешевше за Claude Opus 4.5. Для застосунків з інтенсивним інференсом Gemini 3 Flash обробляє 218 токенів на секунду, випереджаючи GPT-5.1 (125 т/с) та DeepSeek V3.2 у режимі reasoning (30 т/с).

Що сталося

Google випустила Gemini 3 Flash 17 грудня 2025 року, через місяць після того, як Gemini 3 Pro очолила рейтинг LMArena. Модель поєднує reasoning рівня Pro зі швидкістю та ефективністю Flash, орієнтуючись на високонавантажені production-середовища, де вартість і швидкість важливі не менше, ніж можливості.

Gemini 3 Flash одразу стала моделлю за замовчуванням у застосунку Gemini та в AI Mode у Google Search, що свідчить про впевненість Google у розгортанні frontier-інтелекту для споживчого масштабу.

Модель перевершує Gemini 2.5 Pro за бенчмарками, працюючи втричі швидше згідно з тестуванням Artificial Analysis. За кількома бенчмарками вона конкурує з GPT-5.2 — моделлю, яку OpenAI терміново випустила на противагу Gemini 3 Pro.

Такі компанії, як JetBrains, Figma, Cursor, Harvey та Latitude, вже використовують Gemini 3 Flash у production.

Чому це важливо

Економіка інференсу для AI-застосунків щойно змінилася. Gemini 3 Flash пропонує reasoning рівня frontier за commodity-цінами, створюючи нові економічні умови для операторів дата-центрів та розробників застосунків.

Цінова перевага: За $0,50 за мільйон вхідних токенів Gemini 3 Flash коштує в 6 разів дешевше за Claude Opus 4.5 ($3,00), досягаючи порівнянної продуктивності за більшістю бенчмарків. Кешування контексту дозволяє зменшити витрати на 90% для навантажень з повторним використанням токенів.

Швидкість інференсу: Тестування Artificial Analysis зафіксувало 218 вихідних токенів на секунду, що на 74% більше за GPT-5.1 (125 т/с) і в 7 разів більше за DeepSeek V3.2 reasoning mode (30 т/с). Субсекундна затримка для коротких промптів забезпечує швидкі чат-інтерфейси та оперативні ітерації агентних циклів.

Агентні робочі процеси: Модель досягла 78% на SWE-bench Verified, перевершивши як серію 2.5, так і Gemini 3 Pro для агентних задач програмування. Для підприємств, що створюють AI-агентів, порівнянні можливості за нижчою ціною безпосередньо впливають на ROI розгортання.

Мультимодальна обробка: Resemble AI повідомила про у 4 рази швидший мультимодальний аналіз порівняно з 2.5 Pro, обробляючи необроблені технічні дані без вузьких місць у робочому процесі.

Технічні деталі

Специфікації

Специфікація	Gemini 3 Flash
Вхідні модальності	Текст, зображення, відео, аудіо, PDF
Вихідні модальності	Текст
Макс. вхідних токенів	1 048 576 (1М)
Макс. вихідних токенів	65 536
Knowledge Cutoff	Січень 2025
Дата випуску	17 грудня 2025

Результати бенчмарків

Бенчмарк	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90,4%	91,9%	88,4%	88,0%
SWE-bench Verified	78%	76,2%	—	80,9%
MMMU-Pro	81,2%	—	79,5%	—
Humanity's Last Exam	33,7%	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash перевершує 2.5 Flash за всіма показниками і значно випереджає 2.5 Pro за кількома бенчмарками, досягаючи рівня або перевершуючи 3 Pro у таких сферах, як MMMU Pro, Toolathlon та MPC Atlas.

Порівняння цін

Модель	Вхід (за 1М токенів)	Вихід (за 1М токенів)
Gemini 3 Flash	$0,50	$3,00
Gemini 2.5 Flash	$0,30	$2,50
Gemini 3 Pro	~$2,00	~$10,00
Claude Opus 4.5	$3,00	$15,00
GPT-5.2	~$2,50	~$10,00

Gemini 3 Flash коштує менше чверті від Gemini 3 Pro, забезпечуючи порівнянні можливості reasoning. Batch API пропонує додаткову економію 50% для асинхронної обробки з вищими лімітами запитів.

Показники швидкості

Модель	Вихідних токенів/секунду
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash працює на 22% повільніше за 2.5 Flash, але значно швидше за конкуруючі frontier-моделі, що робить її лідером швидкості серед систем з можливостями reasoning.

Що далі

Gemini 3 Flash розгортається зараз через Google AI Studio, Gemini CLI, Android Studio та Vertex AI для корпоративних розгортань. Модель залишається у статусі preview, поки Google збирає відгуки з production.

Для вибору моделі у грудні 2025: - Тривалі сесії програмування та виправлення багів: Claude Opus 4.5 лідирує з 80,9% на SWE-bench - Проєктування алгоритмів та спортивне програмування: Gemini 3 Pro домінує з 2439 Elo на LiveCodeBench - Високонавантажений інференс за низькою ціною: Gemini 3 Flash пропонує найкраще співвідношення якості до вартості - Чистий reasoning та математика: GPT-5.2 досягає 100% на AIME 2025

Порівняння Artificial Analysis показує, що Gemini 3 Flash має Intelligence Index 71,3 проти 62,8 у Claude Sonnet 4.5, у поєднанні з утричі швидшим часом відгуку та вчетверо кращою швидкістю виводу.

Позиція Introl

Високопропускні AI-навантаження інференсу потребують GPU-інфраструктури, оптимізованої для стабільної низької затримки. Мережа з 550 польових інженерів Introl розгортає та обслуговує кластери прискорювачів у 257 локаціях по всьому світу. Дізнайтеся більше про нашу зону покриття.

Опубліковано: 29 грудня 2025

Gemini 3 Flash: швидкісний чемпіон Google досягає рівня GPT-5.2 за 6 разів нижчою ціною

Коротко

Що сталося

Чому це важливо

Технічні деталі

Специфікації

Результати бенчмарків

Порівняння цін

Показники швидкості

Що далі

Позиція Introl

You Might Also Like

AIOps для дата-центрів: використання LLM для управління AI-і...

Балансування навантаження для AI-інференсу: розподіл запитів...

Дезагреговані обчислення для ШІ: архітектура композитної інф...

Запросити пропозицію_

Запит отримано_