GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence
1er janvier 2026
Mise à jour janvier 2026 : OpenAI a lancé GPT-5.2 le 11 décembre 2025, atteignant des scores de référence qui redéfinissent ce qui est possible dans le travail de connaissance professionnelle. Le modèle bat les experts humains sur 70,9% des tâches GDPval à 11x la vitesse et <1% du coût.
Résumé
GPT-5.2 franchit des seuils de capacité critiques : premier modèle au-dessus de 90% sur ARC-AGI-1, 100% parfait sur AIME 2025, et 40,3% sur FrontierMath (amélioration de 10% par rapport à 5.1). La fenêtre de contexte de 400K et les 128K tokens de sortie créent de nouvelles demandes d'infrastructure. Pour les fournisseurs d'inférence, l'augmentation de prix de 1,4x signale la confiance d'OpenAI—et l'intensité de calcul requise pour servir ces capacités.
Ce qui s'est passé
OpenAI a lancé GPT-5.2 le 11 décembre 2025, seulement 11 jours après avoir prétendument déclaré "code rouge" en réponse à la domination de Google Gemini 3 sur les benchmarks.1
Le lancement comprend deux variantes :
| Variante | Cas d'utilisation | Prix (par 1M tokens) |
|---|---|---|
| GPT-5.2 | Usage général | 1,75$ entrée / 14$ sortie |
| GPT-5.2 Pro | Raisonnement étendu | Plus élevé (niveau xhigh) |
Spécifications clés :2
- Fenêtre de contexte : 400 000 tokens
- Sortie maximale : 128 000 tokens
- Date limite de connaissance : 31 août 2025 (mise à jour depuis sep 2024)
- Prix : 1,4x le coût de GPT-5.1
GPT-5.2 a été construit sur l'infrastructure Azure en utilisant des GPU NVIDIA H100, H200 et GB200-NVL72.3
Performance des benchmarks
GPT-5.2 établit de nouveaux records sur les benchmarks professionnels, scientifiques et mathématiques :4
| Benchmark | Score GPT-5.2 | Meilleur précédent | Amélioration |
|---|---|---|---|
| GPQA Diamond (science PhD) | 93,2% | 91,9% (Gemini 3) | +1,3% |
| ARC-AGI-1 Vérifié | >90% | ~85% | Premier au-dessus de 90% |
| AIME 2025 (maths) | 100% | 96,7% (Gemini 3) | Score parfait |
| FrontierMath T1-3 | 40,3% | 30% (GPT-5.1) | +10% |
| GDPval (travail de connaissance) | 70,9% | — | Bat les experts |
| SWE-Bench Pro (programmation) | 55,6% | 51% (GPT-5.1) | +4,6% |
| Tau2 Telecom (utilisation d'outils) | 98,7% | ~95% | Quasi parfait |
Le résultat GDPval mérite attention : GPT-5.2 Thinking a produit des résultats à >11x la vitesse et <1% du coût par rapport aux professionnels experts humains dans 44 professions.5
Pourquoi c'est important
Pic de demande d'inférence
La fenêtre de contexte de 400K nécessite une mémoire substantielle par requête. Une seule inférence avec contexte complet consomme significativement plus de mémoire GPU que les modèles précédents de 128K. Les fournisseurs doivent planifier :6
- Mise à l'échelle mémoire : 3x+ mémoire par requête vs contexte 128K
- Réduction taille de lot : Moins de requêtes simultanées par GPU
- Croissance cache KV : Longueur contexte × taille lot = exigences massives de cache KV
Changement de structure de coûts
L'augmentation de prix de 1,4x depuis GPT-5.1 reflète l'intensité de calcul réelle :7
| Modèle | Coût entrée | Coût sortie | Ratio à 5.1 |
|---|---|---|---|
| GPT-5.1 | 1,25$/M | 10$/M | 1,0x |
| GPT-5.2 | 1,75$/M | 14$/M | 1,4x |
Pour les opérations d'inférence à haut volume, cela représente une augmentation de 40% du TCO pour des charges de travail équivalentes.
Automatisation du travail professionnel
La performance GDPval de GPT-5.2—battant les experts sur 70,9% des tâches à <1% du coût—crée une demande immédiate pour le déploiement entreprise. Les organisations recherchant ces capacités ont besoin d'une infrastructure d'inférence capable de gérer :8
- Chaînes de raisonnement étendues (variante Pro)
- Traitement de documents à long contexte
- Appels d'outils fiables (98,7% Tau2)
Détails techniques
Architecture
OpenAI n'a pas divulgué de changements d'architecture spécifiques, mais les patterns de benchmark suggèrent :9
- Capacités de raisonnement améliorées (FrontierMath +10%)
- Précision de long contexte améliorée (récupération 256K tokens)
- Meilleure fiabilité d'utilisation d'outils (Tau2 98,7%)
Exigences d'inférence
Servir GPT-5.2 à l'échelle nécessite de considérer :10
| Facteur | GPT-5.1 | GPT-5.2 | Implication |
|---|---|---|---|
| Fenêtre contexte | 200K | 400K | 2x mémoire par requête |
| Sortie max | 64K | 128K | 2x temps génération |
| Profondeur raisonnement | Standard | Étendue (Pro) | Latence variable |
| Appels outils | 95% | 98,7% | Orchestration plus complexe |
Contexte concurrentiel
GPT-5.2 récupère certains benchmarks de Gemini 3 mais pas tous :11
| Benchmark | Leader | Score |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93,8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76,2% |
| Humanity's Last Exam | Gemini 3 | En tête |
| GDPval | GPT-5.2 Thinking | 70,9% |
La cadence de publication rapide—GPT-5.2 seulement 11 jours après Gemini 3—démontre la pression d'infrastructure d'inférence que les deux entreprises subissent.
Et ensuite
Court terme (T1 2026)
- GPT-5.2 Mini probablement à venir (pas de variante Mini au lancement)
- Déploiement API entreprise en expansion
- Fournisseurs d'inférence tiers ajoutant le support
Implications infrastructure
Les organisations planifiant des déploiements GPT-5.2 devraient :12
- Évaluer capacité mémoire : Contexte 400K nécessite 3x+ mémoire vs modèles 128K
- Planifier le cache KV : Extension mémoire CXL de plus en plus pertinente
- Budgéter le calcul : L'augmentation de coût de 1,4x est réelle
- Considérer approches hybrides : Router tâches simples vers modèles moins chers
Pour le déploiement d'infrastructure d'inférence supportant les modèles de pointe, contactez Introl.
Références
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Décembre 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Décembre 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 décembre 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Décembre 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." Décembre 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Décembre 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 décembre 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." Décembre 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." Décembre 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Décembre 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." Décembre 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Décembre 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩