Gemini 3 Flash : Le champion de la vitesse de Google égale GPT-5.2 à un coût 6 fois inférieur

Le Gemini 3 Flash de Google atteint 90,4 % au GPQA Diamond et 78 % au SWE-bench pour 0,50 $/M de tokens. Ce que le modèle frontier le plus rapide signifie pour l'infrastructure IA.

Blake Crosley

Dec 29, 2025 5 min read Disclaimer

Gemini 3 Flash : Le champion de la vitesse de Google égale GPT-5.2 à un coût 6 fois inférieur

En bref

Google a lancé Gemini 3 Flash le 17 décembre 2025, offrant des performances de classe frontier à la vitesse et au coût d'un modèle Flash. Le modèle atteint 90,4 % sur GPQA Diamond et 78 % sur SWE-bench Verified tout en ne coûtant que 0,50 $ par million de tokens en entrée, soit environ 6 fois moins cher que Claude Opus 4.5. Pour les déploiements intensifs en inférence, Gemini 3 Flash traite 218 tokens par seconde, surpassant GPT-5.1 (125 t/s) et le mode raisonnement de DeepSeek V3.2 (30 t/s).

Ce qui s'est passé

Google a publié Gemini 3 Flash le 17 décembre 2025, un mois après que Gemini 3 Pro a pris la tête du classement LMArena. Le modèle combine le raisonnement de niveau Pro avec la latence et l'efficacité du niveau Flash, ciblant les charges de travail de production à haut volume où le coût et la vitesse comptent autant que les capacités.

Gemini 3 Flash est immédiatement devenu le modèle par défaut dans l'application Gemini et dans AI Mode dans Google Search, signalant la confiance de Google dans le déploiement d'une intelligence frontier à l'échelle grand public.

Le modèle surpasse Gemini 2.5 Pro sur tous les benchmarks tout en fonctionnant 3 fois plus vite selon les tests d'Artificial Analysis. Sur plusieurs benchmarks, il rivalise avec GPT-5.2, le modèle qu'OpenAI a précipité pour contrer Gemini 3 Pro.

Des entreprises comme JetBrains, Figma, Cursor, Harvey et Latitude utilisent déjà Gemini 3 Flash en production.

Pourquoi c'est important

L'équation du coût d'inférence pour les applications IA vient de changer. Gemini 3 Flash offre un raisonnement de classe frontier à un prix de commodité, créant de nouvelles économies de déploiement pour les opérateurs de centres de données et les développeurs d'applications.

Avantage de coût : À 0,50 $ par million de tokens en entrée, Gemini 3 Flash coûte 6 fois moins que Claude Opus 4.5 (3,00 $) tout en atteignant des performances comparables sur la plupart des benchmarks. La mise en cache du contexte permet des réductions de coûts de 90 % pour les charges de travail avec réutilisation répétée de tokens.

Vitesse d'inférence : Les tests d'Artificial Analysis ont enregistré 218 tokens de sortie par seconde, dépassant GPT-5.1 (125 t/s) de 74 % et le mode raisonnement de DeepSeek V3.2 (30 t/s) de 7 fois. Une latence inférieure à la seconde pour les prompts courts permet des interfaces de chat réactives et des itérations rapides de boucles agentiques.

Workflows agentiques : Le modèle a atteint 78 % sur SWE-bench Verified, surpassant à la fois la série 2.5 et Gemini 3 Pro pour les tâches de codage agentique. Pour les entreprises construisant des agents IA, une capacité comparable à moindre coût impacte directement le ROI du déploiement.

Traitement multimodal : Resemble AI a rapporté une analyse multimodale 4 fois plus rapide par rapport à 2.5 Pro, traitant les sorties techniques brutes sans goulots d'étranglement dans le workflow.

Détails techniques

Spécifications

Spécification	Gemini 3 Flash
Modalités d'entrée	Texte, image, vidéo, audio, PDF
Modalités de sortie	Texte
Tokens d'entrée max	1 048 576 (1M)
Tokens de sortie max	65 536
Date limite des connaissances	Janvier 2025
Date de sortie	17 décembre 2025

Performances sur les benchmarks

Benchmark	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90,4 %	91,9 %	88,4 %	88,0 %
SWE-bench Verified	78 %	76,2 %	—	80,9 %
MMMU-Pro	81,2 %	—	79,5 %	—
Humanity's Last Exam	33,7 %	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash surpasse 2.5 Flash sur tous les plans et dépasse significativement 2.5 Pro sur plusieurs benchmarks tout en égalant ou battant 3 Pro dans des domaines incluant MMMU Pro, Toolathlon et MPC Atlas.

Comparaison des prix

Modèle	Entrée (par 1M de tokens)	Sortie (par 1M de tokens)
Gemini 3 Flash	0,50 $	3,00 $
Gemini 2.5 Flash	0,30 $	2,50 $
Gemini 3 Pro	~2,00 $	~10,00 $
Claude Opus 4.5	3,00 $	15,00 $
GPT-5.2	~2,50 $	~10,00 $

Gemini 3 Flash coûte moins d'un quart du prix de Gemini 3 Pro tout en offrant une capacité de raisonnement comparable. L'API Batch offre 50 % d'économies supplémentaires pour le traitement asynchrone avec des limites de débit plus élevées.

Métriques de vitesse

Modèle	Tokens de sortie/seconde
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash fonctionne 22 % plus lentement que 2.5 Flash mais significativement plus vite que les modèles frontier concurrents, ce qui en fait le leader de la vitesse parmi les systèmes capables de raisonnement.

La suite

Gemini 3 Flash se déploie maintenant sur Google AI Studio, Gemini CLI, Android Studio et Vertex AI pour les déploiements entreprise. Le modèle reste en statut preview tandis que Google recueille les retours de production.

Pour le choix de modèle en décembre 2025 : - Sessions de codage longues et correction de bugs : Claude Opus 4.5 domine avec 80,9 % sur SWE-bench - Conception d'algorithmes et programmation compétitive : Gemini 3 Pro domine avec 2 439 Elo LiveCodeBench - Inférence à haut volume et faible coût : Gemini 3 Flash offre le meilleur rapport qualité-prix - Raisonnement pur et mathématiques : GPT-5.2 atteint 100 % sur AIME 2025

La comparaison d'Artificial Analysis montre Gemini 3 Flash avec un score d'Intelligence Index de 71,3 contre 62,8 pour Claude Sonnet 4.5, combiné à des temps de réponse 3 fois plus rapides et une vitesse de sortie 4 fois meilleure.

Le point de vue d'Introl

Les charges de travail d'inférence IA à haut débit exigent une infrastructure GPU optimisée pour des performances à faible latence constantes. Le réseau de 550 ingénieurs terrain d'Introl déploie et maintient des clusters d'accélérateurs dans 257 emplacements mondiaux. En savoir plus sur notre zone de couverture.

Publié le : 29 décembre 2025

Gemini 3 Flash : Le champion de la vitesse de Google égale GPT-5.2 à un coût 6 fois inférieur

En bref

Ce qui s'est passé

Pourquoi c'est important

Détails techniques

Spécifications

Performances sur les benchmarks

Comparaison des prix

Métriques de vitesse

La suite

Le point de vue d'Introl

You Might Also Like

AIOps pour les centres de données : utiliser les LLM pour gé...

Équilibrage de charge pour l'inférence IA : Distribution des...

L'informatique désagrégée pour l'IA : architecture d'infrast...

Demander un devis_

Demande reçue_