GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

GPT-5.2 dari OpenAI mencapai 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Jendela konteks 400K token mendorong persyaratan infrastruktur inferensi baru.

Blake Crosley

Jan 02, 2026 4 min read Disclaimer

GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

1 Januari 2026

Update Januari 2026: OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, mencapai skor benchmark yang mendefinisikan ulang apa yang mungkin dalam pekerjaan pengetahuan profesional. Model ini mengalahkan pakar manusia pada 70,9% tugas GDPval dengan kecepatan 11x dan biaya <1%.

Ringkasan

GPT-5.2 melewati ambang kemampuan kritis: model pertama di atas 90% pada ARC-AGI-1, sempurna 100% pada AIME 2025, dan 40,3% pada FrontierMath (peningkatan 10% dari 5.1). Jendela konteks 400K token dan 128K token output menciptakan permintaan infrastruktur baru. Bagi penyedia inferensi, kenaikan harga 1,4x menandakan kepercayaan OpenAI—dan intensitas komputasi yang diperlukan untuk melayani kemampuan ini.

Apa yang Terjadi

OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, hanya 11 hari setelah dilaporkan mendeklarasikan "kode merah" sebagai respons terhadap dominasi benchmark Google Gemini 3.¹

Peluncuran mencakup dua varian:

Varian	Kasus Penggunaan	Harga (per 1M token)
GPT-5.2	Penggunaan umum	$1,75 input / $14 output
GPT-5.2 Pro	Penalaran diperluas	Lebih tinggi (tier xhigh reasoning)

Spesifikasi utama:²

Jendela Konteks: 400.000 token
Output Maksimum: 128.000 token
Batas Pengetahuan: 31 Agustus 2025 (diperbarui dari Sep 2024)
Harga: 1,4x biaya GPT-5.1

GPT-5.2 dibangun di infrastruktur Azure menggunakan GPU NVIDIA H100, H200, dan GB200-NVL72.³

Kinerja Benchmark

GPT-5.2 menetapkan rekor baru pada benchmark profesional, sains, dan matematika:⁴

Benchmark	Skor GPT-5.2	Terbaik Sebelumnya	Peningkatan
GPQA Diamond (sains PhD)	93,2%	91,9% (Gemini 3)	+1,3%
ARC-AGI-1 Terverifikasi	>90%	~85%	Pertama di atas 90%
AIME 2025 (matematika)	100%	96,7% (Gemini 3)	Skor sempurna
FrontierMath T1-3	40,3%	30% (GPT-5.1)	+10%
GDPval (pekerjaan pengetahuan)	70,9%	—	Mengalahkan pakar
SWE-Bench Pro (coding)	55,6%	51% (GPT-5.1)	+4,6%
Tau2 Telecom (penggunaan alat)	98,7%	~95%	Hampir sempurna

Hasil GDPval patut diperhatikan: GPT-5.2 Thinking menghasilkan output dengan kecepatan >11x dan biaya <1% dibandingkan profesional pakar manusia dalam 44 profesi.⁵

Mengapa Ini Penting

Lonjakan Permintaan Inferensi

Jendela konteks 400K token memerlukan memori substansial per permintaan. Satu inferensi dengan konteks penuh mengonsumsi memori GPU secara signifikan lebih banyak daripada model 128K sebelumnya. Penyedia harus merencanakan:⁶

Skalabilitas Memori: 3x+ memori per permintaan vs konteks 128K
Pengurangan Ukuran Batch: Lebih sedikit permintaan bersamaan per GPU
Pertumbuhan KV Cache: Panjang konteks × ukuran batch = persyaratan KV cache masif

Pergeseran Struktur Biaya

Kenaikan harga 1,4x dari GPT-5.1 mencerminkan intensitas komputasi nyata:⁷

Model	Biaya Input	Biaya Output	Rasio ke 5.1
GPT-5.1	$1,25/M	$10/M	1,0x
GPT-5.2	$1,75/M	$14/M	1,4x

Untuk operasi inferensi volume tinggi, ini berarti peningkatan TCO 40% untuk beban kerja setara.

Otomatisasi Pekerjaan Profesional

Kinerja GDPval GPT-5.2—mengalahkan pakar pada 70,9% tugas dengan biaya <1%—menciptakan permintaan segera untuk deployment enterprise. Organisasi yang mencari kemampuan ini membutuhkan infrastruktur inferensi yang mampu menangani:⁸

Rantai penalaran diperluas (varian Pro)
Pemrosesan dokumen konteks panjang
Panggilan alat yang andal (98,7% Tau2)

Detail Teknis

Arsitektur

OpenAI tidak mengungkapkan perubahan arsitektur spesifik, tetapi pola benchmark menunjukkan:⁹

Kemampuan penalaran yang ditingkatkan (FrontierMath +10%)
Akurasi konteks panjang yang ditingkatkan (pengambilan 256K token)
Keandalan penggunaan alat yang lebih baik (Tau2 98,7%)

Persyaratan Inferensi

Melayani GPT-5.2 dalam skala besar memerlukan pertimbangan:¹⁰

Faktor	GPT-5.1	GPT-5.2	Implikasi
Jendela konteks	200K	400K	2x memori per permintaan
Output maks	64K	128K	2x waktu generasi
Kedalaman penalaran	Standar	Diperluas (Pro)	Latensi variabel
Panggilan alat	95%	98,7%	Orkestrasi lebih kompleks

Konteks Kompetitif

GPT-5.2 merebut kembali beberapa benchmark dari Gemini 3 tetapi tidak semua:¹¹

Benchmark	Pemimpin	Skor
GPQA Diamond	Gemini 3 Deep Think	93,8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76,2%
Humanity's Last Exam	Gemini 3	Memimpin
GDPval	GPT-5.2 Thinking	70,9%

Irama rilis cepat—GPT-5.2 hanya 11 hari setelah Gemini 3—menunjukkan tekanan infrastruktur inferensi yang dihadapi kedua perusahaan.

Apa Selanjutnya

Jangka Pendek (Q1 2026)

GPT-5.2 Mini kemungkinan segera hadir (tidak ada varian Mini saat peluncuran)
Rollout API enterprise meluas
Penyedia inferensi pihak ketiga menambahkan dukungan

Implikasi Infrastruktur

Organisasi yang merencanakan deployment GPT-5.2 harus:¹²

Menilai kapasitas memori: Konteks 400K memerlukan 3x+ memori vs model 128K
Merencanakan KV cache: Ekspansi memori CXL semakin relevan
Menganggarkan komputasi: Kenaikan biaya 1,4x adalah nyata
Mempertimbangkan pendekatan hybrid: Merutekan tugas lebih sederhana ke model lebih murah

Untuk deployment infrastruktur inferensi yang mendukung model frontier, hubungi Introl.

Referensi

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Desember 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Desember 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 Desember 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Desember 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Desember 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Desember 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 Desember 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." Desember 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." Desember 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Desember 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." Desember 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Desember 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

Ringkasan

Apa yang Terjadi

Kinerja Benchmark

Mengapa Ini Penting

Lonjakan Permintaan Inferensi

Pergeseran Struktur Biaya

Otomatisasi Pekerjaan Profesional

Detail Teknis

Arsitektur

Persyaratan Inferensi

Konteks Kompetitif

Apa Selanjutnya

Jangka Pendek (Q1 2026)

Implikasi Infrastruktur

Referensi

You Might Also Like

CapEx Hyperscaler Mencapai $600B di 2026: Gelombang Utang In...

Taruhan $60 Miliar Microsoft pada Neocloud: Membeli Waktu da...

DeepSeek V3.2 Mengalahkan GPT-5 di Benchmark Elite: Apa Arti...

Minta Penawaran_

Permintaan Diterima_