GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

GPT-5.2 d'OpenAI atteint 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. La fenêtre de contexte de 400K entraîne de nouvelles exigences d'infrastructure d'inférence.

Blake Crosley

Jan 02, 2026 5 min read Disclaimer

GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

1er janvier 2026

Mise à jour janvier 2026 : OpenAI a lancé GPT-5.2 le 11 décembre 2025, atteignant des scores de référence qui redéfinissent ce qui est possible dans le travail de connaissance professionnelle. Le modèle bat les experts humains sur 70,9% des tâches GDPval à 11x la vitesse et <1% du coût.

Résumé

GPT-5.2 franchit des seuils de capacité critiques : premier modèle au-dessus de 90% sur ARC-AGI-1, 100% parfait sur AIME 2025, et 40,3% sur FrontierMath (amélioration de 10% par rapport à 5.1). La fenêtre de contexte de 400K et les 128K tokens de sortie créent de nouvelles demandes d'infrastructure. Pour les fournisseurs d'inférence, l'augmentation de prix de 1,4x signale la confiance d'OpenAI—et l'intensité de calcul requise pour servir ces capacités.

Ce qui s'est passé

OpenAI a lancé GPT-5.2 le 11 décembre 2025, seulement 11 jours après avoir prétendument déclaré "code rouge" en réponse à la domination de Google Gemini 3 sur les benchmarks.¹

Le lancement comprend deux variantes :

Variante	Cas d'utilisation	Prix (par 1M tokens)
GPT-5.2	Usage général	1,75$ entrée / 14$ sortie
GPT-5.2 Pro	Raisonnement étendu	Plus élevé (niveau xhigh)

Spécifications clés :²

Fenêtre de contexte : 400 000 tokens
Sortie maximale : 128 000 tokens
Date limite de connaissance : 31 août 2025 (mise à jour depuis sep 2024)
Prix : 1,4x le coût de GPT-5.1

GPT-5.2 a été construit sur l'infrastructure Azure en utilisant des GPU NVIDIA H100, H200 et GB200-NVL72.³

Performance des benchmarks

GPT-5.2 établit de nouveaux records sur les benchmarks professionnels, scientifiques et mathématiques :⁴

Benchmark	Score GPT-5.2	Meilleur précédent	Amélioration
GPQA Diamond (science PhD)	93,2%	91,9% (Gemini 3)	+1,3%
ARC-AGI-1 Vérifié	>90%	~85%	Premier au-dessus de 90%
AIME 2025 (maths)	100%	96,7% (Gemini 3)	Score parfait
FrontierMath T1-3	40,3%	30% (GPT-5.1)	+10%
GDPval (travail de connaissance)	70,9%	—	Bat les experts
SWE-Bench Pro (programmation)	55,6%	51% (GPT-5.1)	+4,6%
Tau2 Telecom (utilisation d'outils)	98,7%	~95%	Quasi parfait

Le résultat GDPval mérite attention : GPT-5.2 Thinking a produit des résultats à >11x la vitesse et <1% du coût par rapport aux professionnels experts humains dans 44 professions.⁵

Pourquoi c'est important

Pic de demande d'inférence

La fenêtre de contexte de 400K nécessite une mémoire substantielle par requête. Une seule inférence avec contexte complet consomme significativement plus de mémoire GPU que les modèles précédents de 128K. Les fournisseurs doivent planifier :⁶

Mise à l'échelle mémoire : 3x+ mémoire par requête vs contexte 128K
Réduction taille de lot : Moins de requêtes simultanées par GPU
Croissance cache KV : Longueur contexte × taille lot = exigences massives de cache KV

Changement de structure de coûts

L'augmentation de prix de 1,4x depuis GPT-5.1 reflète l'intensité de calcul réelle :⁷

Modèle	Coût entrée	Coût sortie	Ratio à 5.1
GPT-5.1	1,25$/M	10$/M	1,0x
GPT-5.2	1,75$/M	14$/M	1,4x

Pour les opérations d'inférence à haut volume, cela représente une augmentation de 40% du TCO pour des charges de travail équivalentes.

Automatisation du travail professionnel

La performance GDPval de GPT-5.2—battant les experts sur 70,9% des tâches à <1% du coût—crée une demande immédiate pour le déploiement entreprise. Les organisations recherchant ces capacités ont besoin d'une infrastructure d'inférence capable de gérer :⁸

Chaînes de raisonnement étendues (variante Pro)
Traitement de documents à long contexte
Appels d'outils fiables (98,7% Tau2)

Détails techniques

Architecture

OpenAI n'a pas divulgué de changements d'architecture spécifiques, mais les patterns de benchmark suggèrent :⁹

Capacités de raisonnement améliorées (FrontierMath +10%)
Précision de long contexte améliorée (récupération 256K tokens)
Meilleure fiabilité d'utilisation d'outils (Tau2 98,7%)

Exigences d'inférence

Servir GPT-5.2 à l'échelle nécessite de considérer :¹⁰

Facteur	GPT-5.1	GPT-5.2	Implication
Fenêtre contexte	200K	400K	2x mémoire par requête
Sortie max	64K	128K	2x temps génération
Profondeur raisonnement	Standard	Étendue (Pro)	Latence variable
Appels outils	95%	98,7%	Orchestration plus complexe

Contexte concurrentiel

GPT-5.2 récupère certains benchmarks de Gemini 3 mais pas tous :¹¹

Benchmark	Leader	Score
GPQA Diamond	Gemini 3 Deep Think	93,8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76,2%
Humanity's Last Exam	Gemini 3	En tête
GDPval	GPT-5.2 Thinking	70,9%

La cadence de publication rapide—GPT-5.2 seulement 11 jours après Gemini 3—démontre la pression d'infrastructure d'inférence que les deux entreprises subissent.

Et ensuite

Court terme (T1 2026)

GPT-5.2 Mini probablement à venir (pas de variante Mini au lancement)
Déploiement API entreprise en expansion
Fournisseurs d'inférence tiers ajoutant le support

Implications infrastructure

Les organisations planifiant des déploiements GPT-5.2 devraient :¹²

Évaluer capacité mémoire : Contexte 400K nécessite 3x+ mémoire vs modèles 128K
Planifier le cache KV : Extension mémoire CXL de plus en plus pertinente
Budgéter le calcul : L'augmentation de coût de 1,4x est réelle
Considérer approches hybrides : Router tâches simples vers modèles moins chers

Pour le déploiement d'infrastructure d'inférence supportant les modèles de pointe, contactez Introl.

Références

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Décembre 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Décembre 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 décembre 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Décembre 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Décembre 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Décembre 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 décembre 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." Décembre 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." Décembre 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Décembre 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." Décembre 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Décembre 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

Résumé

Ce qui s'est passé

Performance des benchmarks

Pourquoi c'est important

Pic de demande d'inférence

Changement de structure de coûts

Automatisation du travail professionnel

Détails techniques

Architecture

Exigences d'inférence

Contexte concurrentiel

Et ensuite

Court terme (T1 2026)

Implications infrastructure

Références

You Might Also Like

Les CapEx des Hyperscalers Atteignent 600 Md$ en 2026 : La V...

Le Pari de 60 Milliards de Dollars de Microsoft sur les Neoc...

DeepSeek V3.2 bat GPT-5 sur les benchmarks d'élite : ce que ...

Demander un devis_

Demande reçue_