GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

GPT-5.2 d'OpenAI atteint 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. La fenêtre de contexte de 400K entraîne de nouvelles exigences d'infrastructure d'inférence.

GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

GPT-5.2 : Premier modèle au-dessus de 90% ARC-AGI change les mathématiques de l'inférence

1er janvier 2026

Mise à jour janvier 2026 : OpenAI a lancé GPT-5.2 le 11 décembre 2025, atteignant des scores de référence qui redéfinissent ce qui est possible dans le travail de connaissance professionnelle. Le modèle bat les experts humains sur 70,9% des tâches GDPval à 11x la vitesse et <1% du coût.


Résumé

GPT-5.2 franchit des seuils de capacité critiques : premier modèle au-dessus de 90% sur ARC-AGI-1, 100% parfait sur AIME 2025, et 40,3% sur FrontierMath (amélioration de 10% par rapport à 5.1). La fenêtre de contexte de 400K et les 128K tokens de sortie créent de nouvelles demandes d'infrastructure. Pour les fournisseurs d'inférence, l'augmentation de prix de 1,4x signale la confiance d'OpenAI—et l'intensité de calcul requise pour servir ces capacités.


Ce qui s'est passé

OpenAI a lancé GPT-5.2 le 11 décembre 2025, seulement 11 jours après avoir prétendument déclaré "code rouge" en réponse à la domination de Google Gemini 3 sur les benchmarks.1

Le lancement comprend deux variantes :

Variante Cas d'utilisation Prix (par 1M tokens)
GPT-5.2 Usage général 1,75$ entrée / 14$ sortie
GPT-5.2 Pro Raisonnement étendu Plus élevé (niveau xhigh)

Spécifications clés :2

  • Fenêtre de contexte : 400 000 tokens
  • Sortie maximale : 128 000 tokens
  • Date limite de connaissance : 31 août 2025 (mise à jour depuis sep 2024)
  • Prix : 1,4x le coût de GPT-5.1

GPT-5.2 a été construit sur l'infrastructure Azure en utilisant des GPU NVIDIA H100, H200 et GB200-NVL72.3


Performance des benchmarks

GPT-5.2 établit de nouveaux records sur les benchmarks professionnels, scientifiques et mathématiques :4

Benchmark Score GPT-5.2 Meilleur précédent Amélioration
GPQA Diamond (science PhD) 93,2% 91,9% (Gemini 3) +1,3%
ARC-AGI-1 Vérifié >90% ~85% Premier au-dessus de 90%
AIME 2025 (maths) 100% 96,7% (Gemini 3) Score parfait
FrontierMath T1-3 40,3% 30% (GPT-5.1) +10%
GDPval (travail de connaissance) 70,9% Bat les experts
SWE-Bench Pro (programmation) 55,6% 51% (GPT-5.1) +4,6%
Tau2 Telecom (utilisation d'outils) 98,7% ~95% Quasi parfait

Le résultat GDPval mérite attention : GPT-5.2 Thinking a produit des résultats à >11x la vitesse et <1% du coût par rapport aux professionnels experts humains dans 44 professions.5


Pourquoi c'est important

Pic de demande d'inférence

La fenêtre de contexte de 400K nécessite une mémoire substantielle par requête. Une seule inférence avec contexte complet consomme significativement plus de mémoire GPU que les modèles précédents de 128K. Les fournisseurs doivent planifier :6

  • Mise à l'échelle mémoire : 3x+ mémoire par requête vs contexte 128K
  • Réduction taille de lot : Moins de requêtes simultanées par GPU
  • Croissance cache KV : Longueur contexte × taille lot = exigences massives de cache KV

Changement de structure de coûts

L'augmentation de prix de 1,4x depuis GPT-5.1 reflète l'intensité de calcul réelle :7

Modèle Coût entrée Coût sortie Ratio à 5.1
GPT-5.1 1,25$/M 10$/M 1,0x
GPT-5.2 1,75$/M 14$/M 1,4x

Pour les opérations d'inférence à haut volume, cela représente une augmentation de 40% du TCO pour des charges de travail équivalentes.

Automatisation du travail professionnel

La performance GDPval de GPT-5.2—battant les experts sur 70,9% des tâches à <1% du coût—crée une demande immédiate pour le déploiement entreprise. Les organisations recherchant ces capacités ont besoin d'une infrastructure d'inférence capable de gérer :8

  • Chaînes de raisonnement étendues (variante Pro)
  • Traitement de documents à long contexte
  • Appels d'outils fiables (98,7% Tau2)

Détails techniques

Architecture

OpenAI n'a pas divulgué de changements d'architecture spécifiques, mais les patterns de benchmark suggèrent :9

  • Capacités de raisonnement améliorées (FrontierMath +10%)
  • Précision de long contexte améliorée (récupération 256K tokens)
  • Meilleure fiabilité d'utilisation d'outils (Tau2 98,7%)

Exigences d'inférence

Servir GPT-5.2 à l'échelle nécessite de considérer :10

Facteur GPT-5.1 GPT-5.2 Implication
Fenêtre contexte 200K 400K 2x mémoire par requête
Sortie max 64K 128K 2x temps génération
Profondeur raisonnement Standard Étendue (Pro) Latence variable
Appels outils 95% 98,7% Orchestration plus complexe

Contexte concurrentiel

GPT-5.2 récupère certains benchmarks de Gemini 3 mais pas tous :11

Benchmark Leader Score
GPQA Diamond Gemini 3 Deep Think 93,8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76,2%
Humanity's Last Exam Gemini 3 En tête
GDPval GPT-5.2 Thinking 70,9%

La cadence de publication rapide—GPT-5.2 seulement 11 jours après Gemini 3—démontre la pression d'infrastructure d'inférence que les deux entreprises subissent.


Et ensuite

Court terme (T1 2026)

  • GPT-5.2 Mini probablement à venir (pas de variante Mini au lancement)
  • Déploiement API entreprise en expansion
  • Fournisseurs d'inférence tiers ajoutant le support

Implications infrastructure

Les organisations planifiant des déploiements GPT-5.2 devraient :12

  1. Évaluer capacité mémoire : Contexte 400K nécessite 3x+ mémoire vs modèles 128K
  2. Planifier le cache KV : Extension mémoire CXL de plus en plus pertinente
  3. Budgéter le calcul : L'augmentation de coût de 1,4x est réelle
  4. Considérer approches hybrides : Router tâches simples vers modèles moins chers

Pour le déploiement d'infrastructure d'inférence supportant les modèles de pointe, contactez Introl.


Références


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Décembre 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Décembre 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 décembre 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Décembre 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." Décembre 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Décembre 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 décembre 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." Décembre 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." Décembre 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Décembre 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." Décembre 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Décembre 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT