GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

OpenAI's GPT-5.2 haalt 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. 400K token contextvenster drijft nieuwe inference-infrastructuurvereisten.

Blake Crosley

Jan 02, 2026 4 min read Disclaimer

GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

1 januari 2026

Update januari 2026: OpenAI lanceerde GPT-5.2 op 11 december 2025 en behaalde benchmarkscores die herdefiniëren wat mogelijk is in professioneel kenniswerk. Het model verslaat menselijke experts op 70,9% van GDPval-taken met 11x de snelheid en <1% van de kosten.

Samenvatting

GPT-5.2 overschrijdt kritieke capaciteitsdrempels: eerste model boven 90% op ARC-AGI-1, perfect 100% op AIME 2025, en 40,3% op FrontierMath (10% verbetering t.o.v. 5.1). Het 400K token contextvenster en 128K outputtokens creëren nieuwe infrastructuurvraag. Voor inference-providers signaleert de 1,4x prijsverhoging OpenAI's vertrouwen—en de rekenintensiteit die nodig is om deze capaciteiten te leveren.

Wat Gebeurde

OpenAI lanceerde GPT-5.2 op 11 december 2025, slechts 11 dagen nadat ze naar verluidt "code rood" hadden verklaard als reactie op Google Gemini 3's benchmarkdominantie.¹

De lancering omvat twee varianten:

Variant	Gebruiksscenario	Prijs (per 1M tokens)
GPT-5.2	Algemeen gebruik	$1,75 input / $14 output
GPT-5.2 Pro	Uitgebreid redeneren	Hoger (xhigh reasoning tier)

Belangrijkste specificaties:²

Contextvenster: 400.000 tokens
Maximale output: 128.000 tokens
Kennisgrens: 31 augustus 2025 (geüpdatet vanaf sep 2024)
Prijs: 1,4x de kosten van GPT-5.1

GPT-5.2 is gebouwd op Azure-infrastructuur met NVIDIA H100, H200 en GB200-NVL72 GPU's.³

Benchmarkprestaties

GPT-5.2 vestigt nieuwe records op professionele, wetenschappelijke en wiskundige benchmarks:⁴

Benchmark	GPT-5.2 Score	Vorige Beste	Verbetering
GPQA Diamond (PhD wetenschap)	93,2%	91,9% (Gemini 3)	+1,3%
ARC-AGI-1 Geverifieerd	>90%	~85%	Eerste boven 90%
AIME 2025 (wiskunde)	100%	96,7% (Gemini 3)	Perfecte score
FrontierMath T1-3	40,3%	30% (GPT-5.1)	+10%
GDPval (kenniswerk)	70,9%	—	Verslaat experts
SWE-Bench Pro (coderen)	55,6%	51% (GPT-5.1)	+4,6%
Tau2 Telecom (toolgebruik)	98,7%	~95%	Bijna perfect

Het GDPval-resultaat verdient aandacht: GPT-5.2 Thinking produceerde resultaten met >11x de snelheid en <1% van de kosten vergeleken met menselijke expertprofessionals in 44 beroepen.⁵

Waarom Dit Belangrijk Is

Inference-Vraagpiek

Het 400K token contextvenster vereist aanzienlijk geheugen per verzoek. Eén enkele inference met volledige context verbruikt aanzienlijk meer GPU-geheugen dan eerdere 128K modellen. Providers moeten plannen voor:⁶

Geheugeschaling: 3x+ geheugen per verzoek vs 128K context
Batchgrootte-reductie: Minder gelijktijdige verzoeken per GPU
KV-cache-groei: Contextlengte × batchgrootte = massieve KV-cache-vereisten

Kostenstructuurverschuiving

De 1,4x prijsverhoging t.o.v. GPT-5.1 weerspiegelt echte rekenintensiteit:⁷

Model	Inputkosten	Outputkosten	Ratio t.o.v. 5.1
GPT-5.1	$1,25/M	$10/M	1,0x
GPT-5.2	$1,75/M	$14/M	1,4x

Voor high-volume inference-operaties betekent dit een 40% TCO-toename voor equivalente werklasten.

Automatisering van Professioneel Werk

GPT-5.2's GDPval-prestaties—experts verslaan op 70,9% van taken voor <1% van de kosten—creëert onmiddellijke vraag naar enterprise-implementatie. Organisaties die deze capaciteiten zoeken hebben inference-infrastructuur nodig die kan omgaan met:⁸

Uitgebreide redeneringketens (Pro-variant)
Lange-context documentverwerking
Betrouwbare toolaanroepen (98,7% Tau2)

Technische Details

Architectuur

OpenAI heeft geen specifieke architectuurwijzigingen onthuld, maar benchmarkpatronen suggereren:⁹

Verbeterde redeneercapaciteiten (FrontierMath +10%)
Verbeterde lange-contextnauwkeurigheid (256K token retrieval)
Betere betrouwbaarheid van toolgebruik (Tau2 98,7%)

Inference-Vereisten

GPT-5.2 op schaal serveren vereist overweging van:¹⁰

Factor	GPT-5.1	GPT-5.2	Implicatie
Contextvenster	200K	400K	2x geheugen per verzoek
Max output	64K	128K	2x generatietijd
Redeneerdiepte	Standaard	Uitgebreid (Pro)	Variabele latentie
Toolaanroepen	95%	98,7%	Complexere orchestratie

Competitieve Context

GPT-5.2 wint sommige benchmarks terug van Gemini 3 maar niet alle:¹¹

Benchmark	Leider	Score
GPQA Diamond	Gemini 3 Deep Think	93,8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76,2%
Humanity's Last Exam	Gemini 3	Leidend
GDPval	GPT-5.2 Thinking	70,9%

De snelle releasecadans—GPT-5.2 slechts 11 dagen na Gemini 3—toont de inference-infrastructuurdruk waarmee beide bedrijven te maken hebben.

Wat Volgt

Korte Termijn (Q1 2026)

GPT-5.2 Mini waarschijnlijk binnenkort (geen Mini-variant bij lancering)
Enterprise API-uitrol breidt uit
Third-party inference-providers voegen ondersteuning toe

Infrastructuurimplicaties

Organisaties die GPT-5.2-implementaties plannen moeten:¹²

Geheugencapaciteit evalueren: 400K context vereist 3x+ geheugen vs 128K modellen
KV-cache plannen: CXL-geheugenuitbreiding wordt steeds relevanter
Rekenkracht budgetteren: 1,4x kostenstijging is reëel
Hybride benaderingen overwegen: Eenvoudigere taken routeren naar goedkopere modellen

Voor inference-infrastructuurimplementatie die frontier-modellen ondersteunt, neem contact op met Introl.

Referenties

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." December 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." December 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 december 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." December 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." December 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." December 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 december 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." December 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." December 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." December 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." December 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." December 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde

Samenvatting

Wat Gebeurde

Benchmarkprestaties

Waarom Dit Belangrijk Is

Inference-Vraagpiek

Kostenstructuurverschuiving

Automatisering van Professioneel Werk

Technische Details

Architectuur

Inference-Vereisten

Competitieve Context

Wat Volgt

Korte Termijn (Q1 2026)

Infrastructuurimplicaties

Referenties

You Might Also Like

Hyperscaler CapEx bereikt $600 miljard in 2026: De AI-infras...

Microsofts $60 Miljard Neocloud Gok: Tijd Winnen in de AI-Ca...

DeepSeek V3.2 verslaat GPT-5 op elite benchmarks: wat de Chi...

Offerte aanvragen_

Aanvraag Ontvangen_