GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

OpenAI's GPT-5.2 haalt 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. 400K token contextvenster drijft nieuwe inference-infrastructuurvereisten.

GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

1 januari 2026

Update januari 2026: OpenAI lanceerde GPT-5.2 op 11 december 2025 en behaalde benchmarkscores die herdefiniëren wat mogelijk is in professioneel kenniswerk. Het model verslaat menselijke experts op 70,9% van GDPval-taken met 11x de snelheid en <1% van de kosten.


Samenvatting

GPT-5.2 overschrijdt kritieke capaciteitsdrempels: eerste model boven 90% op ARC-AGI-1, perfect 100% op AIME 2025, en 40,3% op FrontierMath (10% verbetering t.o.v. 5.1). Het 400K token contextvenster en 128K outputtokens creëren nieuwe infrastructuurvraag. Voor inference-providers signaleert de 1,4x prijsverhoging OpenAI's vertrouwen—en de rekenintensiteit die nodig is om deze capaciteiten te leveren.


Wat Gebeurde

OpenAI lanceerde GPT-5.2 op 11 december 2025, slechts 11 dagen nadat ze naar verluidt "code rood" hadden verklaard als reactie op Google Gemini 3's benchmarkdominantie.1

De lancering omvat twee varianten:

Variant Gebruiksscenario Prijs (per 1M tokens)
GPT-5.2 Algemeen gebruik $1,75 input / $14 output
GPT-5.2 Pro Uitgebreid redeneren Hoger (xhigh reasoning tier)

Belangrijkste specificaties:2

  • Contextvenster: 400.000 tokens
  • Maximale output: 128.000 tokens
  • Kennisgrens: 31 augustus 2025 (geüpdatet vanaf sep 2024)
  • Prijs: 1,4x de kosten van GPT-5.1

GPT-5.2 is gebouwd op Azure-infrastructuur met NVIDIA H100, H200 en GB200-NVL72 GPU's.3


Benchmarkprestaties

GPT-5.2 vestigt nieuwe records op professionele, wetenschappelijke en wiskundige benchmarks:4

Benchmark GPT-5.2 Score Vorige Beste Verbetering
GPQA Diamond (PhD wetenschap) 93,2% 91,9% (Gemini 3) +1,3%
ARC-AGI-1 Geverifieerd >90% ~85% Eerste boven 90%
AIME 2025 (wiskunde) 100% 96,7% (Gemini 3) Perfecte score
FrontierMath T1-3 40,3% 30% (GPT-5.1) +10%
GDPval (kenniswerk) 70,9% Verslaat experts
SWE-Bench Pro (coderen) 55,6% 51% (GPT-5.1) +4,6%
Tau2 Telecom (toolgebruik) 98,7% ~95% Bijna perfect

Het GDPval-resultaat verdient aandacht: GPT-5.2 Thinking produceerde resultaten met >11x de snelheid en <1% van de kosten vergeleken met menselijke expertprofessionals in 44 beroepen.5


Waarom Dit Belangrijk Is

Inference-Vraagpiek

Het 400K token contextvenster vereist aanzienlijk geheugen per verzoek. Eén enkele inference met volledige context verbruikt aanzienlijk meer GPU-geheugen dan eerdere 128K modellen. Providers moeten plannen voor:6

  • Geheugeschaling: 3x+ geheugen per verzoek vs 128K context
  • Batchgrootte-reductie: Minder gelijktijdige verzoeken per GPU
  • KV-cache-groei: Contextlengte × batchgrootte = massieve KV-cache-vereisten

Kostenstructuurverschuiving

De 1,4x prijsverhoging t.o.v. GPT-5.1 weerspiegelt echte rekenintensiteit:7

Model Inputkosten Outputkosten Ratio t.o.v. 5.1
GPT-5.1 $1,25/M $10/M 1,0x
GPT-5.2 $1,75/M $14/M 1,4x

Voor high-volume inference-operaties betekent dit een 40% TCO-toename voor equivalente werklasten.

Automatisering van Professioneel Werk

GPT-5.2's GDPval-prestaties—experts verslaan op 70,9% van taken voor <1% van de kosten—creëert onmiddellijke vraag naar enterprise-implementatie. Organisaties die deze capaciteiten zoeken hebben inference-infrastructuur nodig die kan omgaan met:8

  • Uitgebreide redeneringketens (Pro-variant)
  • Lange-context documentverwerking
  • Betrouwbare toolaanroepen (98,7% Tau2)

Technische Details

Architectuur

OpenAI heeft geen specifieke architectuurwijzigingen onthuld, maar benchmarkpatronen suggereren:9

  • Verbeterde redeneercapaciteiten (FrontierMath +10%)
  • Verbeterde lange-contextnauwkeurigheid (256K token retrieval)
  • Betere betrouwbaarheid van toolgebruik (Tau2 98,7%)

Inference-Vereisten

GPT-5.2 op schaal serveren vereist overweging van:10

Factor GPT-5.1 GPT-5.2 Implicatie
Contextvenster 200K 400K 2x geheugen per verzoek
Max output 64K 128K 2x generatietijd
Redeneerdiepte Standaard Uitgebreid (Pro) Variabele latentie
Toolaanroepen 95% 98,7% Complexere orchestratie

Competitieve Context

GPT-5.2 wint sommige benchmarks terug van Gemini 3 maar niet alle:11

Benchmark Leider Score
GPQA Diamond Gemini 3 Deep Think 93,8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76,2%
Humanity's Last Exam Gemini 3 Leidend
GDPval GPT-5.2 Thinking 70,9%

De snelle releasecadans—GPT-5.2 slechts 11 dagen na Gemini 3—toont de inference-infrastructuurdruk waarmee beide bedrijven te maken hebben.


Wat Volgt

Korte Termijn (Q1 2026)

  • GPT-5.2 Mini waarschijnlijk binnenkort (geen Mini-variant bij lancering)
  • Enterprise API-uitrol breidt uit
  • Third-party inference-providers voegen ondersteuning toe

Infrastructuurimplicaties

Organisaties die GPT-5.2-implementaties plannen moeten:12

  1. Geheugencapaciteit evalueren: 400K context vereist 3x+ geheugen vs 128K modellen
  2. KV-cache plannen: CXL-geheugenuitbreiding wordt steeds relevanter
  3. Rekenkracht budgetteren: 1,4x kostenstijging is reëel
  4. Hybride benaderingen overwegen: Eenvoudigere taken routeren naar goedkopere modellen

Voor inference-infrastructuurimplementatie die frontier-modellen ondersteunt, neem contact op met Introl.


Referenties


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." December 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." December 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 december 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." December 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." December 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." December 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 december 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." December 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." December 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." December 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." December 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." December 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING