GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

GPT-5.2 dari OpenAI mencapai 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Jendela konteks 400K token mendorong persyaratan infrastruktur inferensi baru.

GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

GPT-5.2: Model Pertama di Atas 90% ARC-AGI Mengubah Matematika Inferensi

1 Januari 2026

Update Januari 2026: OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, mencapai skor benchmark yang mendefinisikan ulang apa yang mungkin dalam pekerjaan pengetahuan profesional. Model ini mengalahkan pakar manusia pada 70,9% tugas GDPval dengan kecepatan 11x dan biaya <1%.


Ringkasan

GPT-5.2 melewati ambang kemampuan kritis: model pertama di atas 90% pada ARC-AGI-1, sempurna 100% pada AIME 2025, dan 40,3% pada FrontierMath (peningkatan 10% dari 5.1). Jendela konteks 400K token dan 128K token output menciptakan permintaan infrastruktur baru. Bagi penyedia inferensi, kenaikan harga 1,4x menandakan kepercayaan OpenAI—dan intensitas komputasi yang diperlukan untuk melayani kemampuan ini.


Apa yang Terjadi

OpenAI meluncurkan GPT-5.2 pada 11 Desember 2025, hanya 11 hari setelah dilaporkan mendeklarasikan "kode merah" sebagai respons terhadap dominasi benchmark Google Gemini 3.1

Peluncuran mencakup dua varian:

Varian Kasus Penggunaan Harga (per 1M token)
GPT-5.2 Penggunaan umum $1,75 input / $14 output
GPT-5.2 Pro Penalaran diperluas Lebih tinggi (tier xhigh reasoning)

Spesifikasi utama:2

  • Jendela Konteks: 400.000 token
  • Output Maksimum: 128.000 token
  • Batas Pengetahuan: 31 Agustus 2025 (diperbarui dari Sep 2024)
  • Harga: 1,4x biaya GPT-5.1

GPT-5.2 dibangun di infrastruktur Azure menggunakan GPU NVIDIA H100, H200, dan GB200-NVL72.3


Kinerja Benchmark

GPT-5.2 menetapkan rekor baru pada benchmark profesional, sains, dan matematika:4

Benchmark Skor GPT-5.2 Terbaik Sebelumnya Peningkatan
GPQA Diamond (sains PhD) 93,2% 91,9% (Gemini 3) +1,3%
ARC-AGI-1 Terverifikasi >90% ~85% Pertama di atas 90%
AIME 2025 (matematika) 100% 96,7% (Gemini 3) Skor sempurna
FrontierMath T1-3 40,3% 30% (GPT-5.1) +10%
GDPval (pekerjaan pengetahuan) 70,9% Mengalahkan pakar
SWE-Bench Pro (coding) 55,6% 51% (GPT-5.1) +4,6%
Tau2 Telecom (penggunaan alat) 98,7% ~95% Hampir sempurna

Hasil GDPval patut diperhatikan: GPT-5.2 Thinking menghasilkan output dengan kecepatan >11x dan biaya <1% dibandingkan profesional pakar manusia dalam 44 profesi.5


Mengapa Ini Penting

Lonjakan Permintaan Inferensi

Jendela konteks 400K token memerlukan memori substansial per permintaan. Satu inferensi dengan konteks penuh mengonsumsi memori GPU secara signifikan lebih banyak daripada model 128K sebelumnya. Penyedia harus merencanakan:6

  • Skalabilitas Memori: 3x+ memori per permintaan vs konteks 128K
  • Pengurangan Ukuran Batch: Lebih sedikit permintaan bersamaan per GPU
  • Pertumbuhan KV Cache: Panjang konteks × ukuran batch = persyaratan KV cache masif

Pergeseran Struktur Biaya

Kenaikan harga 1,4x dari GPT-5.1 mencerminkan intensitas komputasi nyata:7

Model Biaya Input Biaya Output Rasio ke 5.1
GPT-5.1 $1,25/M $10/M 1,0x
GPT-5.2 $1,75/M $14/M 1,4x

Untuk operasi inferensi volume tinggi, ini berarti peningkatan TCO 40% untuk beban kerja setara.

Otomatisasi Pekerjaan Profesional

Kinerja GDPval GPT-5.2—mengalahkan pakar pada 70,9% tugas dengan biaya <1%—menciptakan permintaan segera untuk deployment enterprise. Organisasi yang mencari kemampuan ini membutuhkan infrastruktur inferensi yang mampu menangani:8

  • Rantai penalaran diperluas (varian Pro)
  • Pemrosesan dokumen konteks panjang
  • Panggilan alat yang andal (98,7% Tau2)

Detail Teknis

Arsitektur

OpenAI tidak mengungkapkan perubahan arsitektur spesifik, tetapi pola benchmark menunjukkan:9

  • Kemampuan penalaran yang ditingkatkan (FrontierMath +10%)
  • Akurasi konteks panjang yang ditingkatkan (pengambilan 256K token)
  • Keandalan penggunaan alat yang lebih baik (Tau2 98,7%)

Persyaratan Inferensi

Melayani GPT-5.2 dalam skala besar memerlukan pertimbangan:10

Faktor GPT-5.1 GPT-5.2 Implikasi
Jendela konteks 200K 400K 2x memori per permintaan
Output maks 64K 128K 2x waktu generasi
Kedalaman penalaran Standar Diperluas (Pro) Latensi variabel
Panggilan alat 95% 98,7% Orkestrasi lebih kompleks

Konteks Kompetitif

GPT-5.2 merebut kembali beberapa benchmark dari Gemini 3 tetapi tidak semua:11

Benchmark Pemimpin Skor
GPQA Diamond Gemini 3 Deep Think 93,8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76,2%
Humanity's Last Exam Gemini 3 Memimpin
GDPval GPT-5.2 Thinking 70,9%

Irama rilis cepat—GPT-5.2 hanya 11 hari setelah Gemini 3—menunjukkan tekanan infrastruktur inferensi yang dihadapi kedua perusahaan.


Apa Selanjutnya

Jangka Pendek (Q1 2026)

  • GPT-5.2 Mini kemungkinan segera hadir (tidak ada varian Mini saat peluncuran)
  • Rollout API enterprise meluas
  • Penyedia inferensi pihak ketiga menambahkan dukungan

Implikasi Infrastruktur

Organisasi yang merencanakan deployment GPT-5.2 harus:12

  1. Menilai kapasitas memori: Konteks 400K memerlukan 3x+ memori vs model 128K
  2. Merencanakan KV cache: Ekspansi memori CXL semakin relevan
  3. Menganggarkan komputasi: Kenaikan biaya 1,4x adalah nyata
  4. Mempertimbangkan pendekatan hybrid: Merutekan tugas lebih sederhana ke model lebih murah

Untuk deployment infrastruktur inferensi yang mendukung model frontier, hubungi Introl.


Referensi


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Desember 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Desember 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 Desember 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Desember 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." Desember 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Desember 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 Desember 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." Desember 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." Desember 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Desember 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." Desember 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Desember 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING