GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi
1 Januari 2026
Update Januari 2026: OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, mencapai skor benchmark yang mendefinisikan ulang apa yang mungkin dalam pekerjaan pengetahuan profesional. Model ini mengalahkan pakar manusia pada 70,9% tugas GDPval dengan kecepatan 11x dan biaya <1%.
Ringkasan
GPT-5.2 melewati ambang kemampuan kritis: model pertama di atas 90% pada ARC-AGI-1, sempurna 100% pada AIME 2025, dan 40,3% pada FrontierMath (peningkatan 10% dari 5.1). Jendela konteks 400K token dan 128K token output menciptakan permintaan infrastruktur baru. Bagi penyedia inferensi, kenaikan harga 1,4x menandakan kepercayaan OpenAI—dan intensitas komputasi yang diperlukan untuk melayani kemampuan ini.
Apa yang Terjadi
OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, hanya 11 hari setelah dilaporkan mendeklarasikan "kode merah" sebagai respons terhadap dominasi benchmark Google Gemini 3.1
Peluncuran mencakup dua varian:
| Varian | Kasus Penggunaan | Harga (per 1M token) |
|---|---|---|
| GPT-5.2 | Penggunaan umum | $1,75 input / $14 output |
| GPT-5.2 Pro | Penalaran diperluas | Lebih tinggi (tier xhigh reasoning) |
Spesifikasi utama:2
- Jendela Konteks: 400.000 token
- Output Maksimum: 128.000 token
- Batas Pengetahuan: 31 Agustus 2025 (diperbarui dari Sep 2024)
- Harga: 1,4x biaya GPT-5.1
GPT-5.2 dibangun di infrastruktur Azure menggunakan GPU NVIDIA H100, H200, dan GB200-NVL72.3
Kinerja Benchmark
GPT-5.2 menetapkan rekor baru pada benchmark profesional, sains, dan matematika:4
| Benchmark | Skor GPT-5.2 | Terbaik Sebelumnya | Peningkatan |
|---|---|---|---|
| GPQA Diamond (sains PhD) | 93,2% | 91,9% (Gemini 3) | +1,3% |
| ARC-AGI-1 Terverifikasi | >90% | ~85% | Pertama di atas 90% |
| AIME 2025 (matematika) | 100% | 96,7% (Gemini 3) | Skor sempurna |
| FrontierMath T1-3 | 40,3% | 30% (GPT-5.1) | +10% |
| GDPval (pekerjaan pengetahuan) | 70,9% | — | Mengalahkan pakar |
| SWE-Bench Pro (coding) | 55,6% | 51% (GPT-5.1) | +4,6% |
| Tau2 Telecom (penggunaan alat) | 98,7% | ~95% | Hampir sempurna |
Hasil GDPval patut diperhatikan: GPT-5.2 Thinking menghasilkan output dengan kecepatan >11x dan biaya <1% dibandingkan profesional pakar manusia dalam 44 profesi.5
Mengapa Ini Penting
Lonjakan Permintaan Inferensi
Jendela konteks 400K token memerlukan memori substansial per permintaan. Satu inferensi dengan konteks penuh mengonsumsi memori GPU secara signifikan lebih banyak daripada model 128K sebelumnya. Penyedia harus merencanakan:6
- Skalabilitas Memori: 3x+ memori per permintaan vs konteks 128K
- Pengurangan Ukuran Batch: Lebih sedikit permintaan bersamaan per GPU
- Pertumbuhan KV Cache: Panjang konteks × ukuran batch = persyaratan KV cache masif
Pergeseran Struktur Biaya
Kenaikan harga 1,4x dari GPT-5.1 mencerminkan intensitas komputasi nyata:7
| Model | Biaya Input | Biaya Output | Rasio ke 5.1 |
|---|---|---|---|
| GPT-5.1 | $1,25/M | $10/M | 1,0x |
| GPT-5.2 | $1,75/M | $14/M | 1,4x |
Untuk operasi inferensi volume tinggi, ini berarti peningkatan TCO 40% untuk beban kerja setara.
Otomatisasi Pekerjaan Profesional
Kinerja GDPval GPT-5.2—mengalahkan pakar pada 70,9% tugas dengan biaya <1%—menciptakan permintaan segera untuk deployment enterprise. Organisasi yang mencari kemampuan ini membutuhkan infrastruktur inferensi yang mampu menangani:8
- Rantai penalaran diperluas (varian Pro)
- Pemrosesan dokumen konteks panjang
- Panggilan alat yang andal (98,7% Tau2)
Detail Teknis
Arsitektur
OpenAI tidak mengungkapkan perubahan arsitektur spesifik, tetapi pola benchmark menunjukkan:9
- Kemampuan penalaran yang ditingkatkan (FrontierMath +10%)
- Akurasi konteks panjang yang ditingkatkan (pengambilan 256K token)
- Keandalan penggunaan alat yang lebih baik (Tau2 98,7%)
Persyaratan Inferensi
Melayani GPT-5.2 dalam skala besar memerlukan pertimbangan:10
| Faktor | GPT-5.1 | GPT-5.2 | Implikasi |
|---|---|---|---|
| Jendela konteks | 200K | 400K | 2x memori per permintaan |
| Output maks | 64K | 128K | 2x waktu generasi |
| Kedalaman penalaran | Standar | Diperluas (Pro) | Latensi variabel |
| Panggilan alat | 95% | 98,7% | Orkestrasi lebih kompleks |
Konteks Kompetitif
GPT-5.2 merebut kembali beberapa benchmark dari Gemini 3 tetapi tidak semua:11
| Benchmark | Pemimpin | Skor |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93,8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76,2% |
| Humanity's Last Exam | Gemini 3 | Memimpin |
| GDPval | GPT-5.2 Thinking | 70,9% |
Irama rilis cepat—GPT-5.2 hanya 11 hari setelah Gemini 3—menunjukkan tekanan infrastruktur inferensi yang dihadapi kedua perusahaan.
Apa Selanjutnya
Jangka Pendek (Q1 2026)
- GPT-5.2 Mini kemungkinan segera hadir (tidak ada varian Mini saat peluncuran)
- Rollout API enterprise meluas
- Penyedia inferensi pihak ketiga menambahkan dukungan
Implikasi Infrastruktur
Organisasi yang merencanakan deployment GPT-5.2 harus:12
- Menilai kapasitas memori: Konteks 400K memerlukan 3x+ memori vs model 128K
- Merencanakan KV cache: Ekspansi memori CXL semakin relevan
- Menganggarkan komputasi: Kenaikan biaya 1,4x adalah nyata
- Mempertimbangkan pendekatan hybrid: Merutekan tugas lebih sederhana ke model lebih murah
Untuk deployment infrastruktur inferensi yang mendukung model frontier, hubungi Introl.
Referensi
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Desember 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Desember 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 Desember 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Desember 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." Desember 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Desember 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 Desember 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." Desember 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." Desember 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Desember 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." Desember 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Desember 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩