GPT-5.2: Eerste Model Boven 90% ARC-AGI Verandert Inference-Wiskunde
1 januari 2026
Update januari 2026: OpenAI lanceerde GPT-5.2 op 11 december 2025 en behaalde benchmarkscores die herdefiniëren wat mogelijk is in professioneel kenniswerk. Het model verslaat menselijke experts op 70,9% van GDPval-taken met 11x de snelheid en <1% van de kosten.
Samenvatting
GPT-5.2 overschrijdt kritieke capaciteitsdrempels: eerste model boven 90% op ARC-AGI-1, perfect 100% op AIME 2025, en 40,3% op FrontierMath (10% verbetering t.o.v. 5.1). Het 400K token contextvenster en 128K outputtokens creëren nieuwe infrastructuurvraag. Voor inference-providers signaleert de 1,4x prijsverhoging OpenAI's vertrouwen—en de rekenintensiteit die nodig is om deze capaciteiten te leveren.
Wat Gebeurde
OpenAI lanceerde GPT-5.2 op 11 december 2025, slechts 11 dagen nadat ze naar verluidt "code rood" hadden verklaard als reactie op Google Gemini 3's benchmarkdominantie.1
De lancering omvat twee varianten:
| Variant | Gebruiksscenario | Prijs (per 1M tokens) |
|---|---|---|
| GPT-5.2 | Algemeen gebruik | $1,75 input / $14 output |
| GPT-5.2 Pro | Uitgebreid redeneren | Hoger (xhigh reasoning tier) |
Belangrijkste specificaties:2
- Contextvenster: 400.000 tokens
- Maximale output: 128.000 tokens
- Kennisgrens: 31 augustus 2025 (geüpdatet vanaf sep 2024)
- Prijs: 1,4x de kosten van GPT-5.1
GPT-5.2 is gebouwd op Azure-infrastructuur met NVIDIA H100, H200 en GB200-NVL72 GPU's.3
Benchmarkprestaties
GPT-5.2 vestigt nieuwe records op professionele, wetenschappelijke en wiskundige benchmarks:4
| Benchmark | GPT-5.2 Score | Vorige Beste | Verbetering |
|---|---|---|---|
| GPQA Diamond (PhD wetenschap) | 93,2% | 91,9% (Gemini 3) | +1,3% |
| ARC-AGI-1 Geverifieerd | >90% | ~85% | Eerste boven 90% |
| AIME 2025 (wiskunde) | 100% | 96,7% (Gemini 3) | Perfecte score |
| FrontierMath T1-3 | 40,3% | 30% (GPT-5.1) | +10% |
| GDPval (kenniswerk) | 70,9% | — | Verslaat experts |
| SWE-Bench Pro (coderen) | 55,6% | 51% (GPT-5.1) | +4,6% |
| Tau2 Telecom (toolgebruik) | 98,7% | ~95% | Bijna perfect |
Het GDPval-resultaat verdient aandacht: GPT-5.2 Thinking produceerde resultaten met >11x de snelheid en <1% van de kosten vergeleken met menselijke expertprofessionals in 44 beroepen.5
Waarom Dit Belangrijk Is
Inference-Vraagpiek
Het 400K token contextvenster vereist aanzienlijk geheugen per verzoek. Eén enkele inference met volledige context verbruikt aanzienlijk meer GPU-geheugen dan eerdere 128K modellen. Providers moeten plannen voor:6
- Geheugeschaling: 3x+ geheugen per verzoek vs 128K context
- Batchgrootte-reductie: Minder gelijktijdige verzoeken per GPU
- KV-cache-groei: Contextlengte × batchgrootte = massieve KV-cache-vereisten
Kostenstructuurverschuiving
De 1,4x prijsverhoging t.o.v. GPT-5.1 weerspiegelt echte rekenintensiteit:7
| Model | Inputkosten | Outputkosten | Ratio t.o.v. 5.1 |
|---|---|---|---|
| GPT-5.1 | $1,25/M | $10/M | 1,0x |
| GPT-5.2 | $1,75/M | $14/M | 1,4x |
Voor high-volume inference-operaties betekent dit een 40% TCO-toename voor equivalente werklasten.
Automatisering van Professioneel Werk
GPT-5.2's GDPval-prestaties—experts verslaan op 70,9% van taken voor <1% van de kosten—creëert onmiddellijke vraag naar enterprise-implementatie. Organisaties die deze capaciteiten zoeken hebben inference-infrastructuur nodig die kan omgaan met:8
- Uitgebreide redeneringketens (Pro-variant)
- Lange-context documentverwerking
- Betrouwbare toolaanroepen (98,7% Tau2)
Technische Details
Architectuur
OpenAI heeft geen specifieke architectuurwijzigingen onthuld, maar benchmarkpatronen suggereren:9
- Verbeterde redeneercapaciteiten (FrontierMath +10%)
- Verbeterde lange-contextnauwkeurigheid (256K token retrieval)
- Betere betrouwbaarheid van toolgebruik (Tau2 98,7%)
Inference-Vereisten
GPT-5.2 op schaal serveren vereist overweging van:10
| Factor | GPT-5.1 | GPT-5.2 | Implicatie |
|---|---|---|---|
| Contextvenster | 200K | 400K | 2x geheugen per verzoek |
| Max output | 64K | 128K | 2x generatietijd |
| Redeneerdiepte | Standaard | Uitgebreid (Pro) | Variabele latentie |
| Toolaanroepen | 95% | 98,7% | Complexere orchestratie |
Competitieve Context
GPT-5.2 wint sommige benchmarks terug van Gemini 3 maar niet alle:11
| Benchmark | Leider | Score |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93,8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76,2% |
| Humanity's Last Exam | Gemini 3 | Leidend |
| GDPval | GPT-5.2 Thinking | 70,9% |
De snelle releasecadans—GPT-5.2 slechts 11 dagen na Gemini 3—toont de inference-infrastructuurdruk waarmee beide bedrijven te maken hebben.
Wat Volgt
Korte Termijn (Q1 2026)
- GPT-5.2 Mini waarschijnlijk binnenkort (geen Mini-variant bij lancering)
- Enterprise API-uitrol breidt uit
- Third-party inference-providers voegen ondersteuning toe
Infrastructuurimplicaties
Organisaties die GPT-5.2-implementaties plannen moeten:12
- Geheugencapaciteit evalueren: 400K context vereist 3x+ geheugen vs 128K modellen
- KV-cache plannen: CXL-geheugenuitbreiding wordt steeds relevanter
- Rekenkracht budgetteren: 1,4x kostenstijging is reëel
- Hybride benaderingen overwegen: Eenvoudigere taken routeren naar goedkopere modellen
Voor inference-infrastructuurimplementatie die frontier-modellen ondersteunt, neem contact op met Introl.
Referenties
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." December 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." December 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 december 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." December 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." December 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." December 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 december 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." December 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." December 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." December 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." December 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." December 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩