GPT-5.2: โมเดลแรกที่เกิน 90% ARC-AGI เปลี่ยนคณิตศาสตร์การอนุมาน
1 มกราคม 2026
อัปเดตมกราคม 2026: OpenAI เปิดตัว GPT-5.2 เมื่อวันที่ 11 ธันวาคม 2025 ด้วยคะแนน benchmark ที่นิยามใหม่ถึงสิ่งที่เป็นไปได้ในงานความรู้ระดับมืออาชีพ โมเดลนี้เอาชนะผู้เชี่ยวชาญมนุษย์ใน 70.9% ของงาน GDPval ด้วยความเร็ว 11 เท่าและต้นทุน <1%
สรุป
GPT-5.2 ข้ามเกณฑ์ความสามารถที่สำคัญ: โมเดลแรกที่เกิน 90% บน ARC-AGI-1, สมบูรณ์แบบ 100% บน AIME 2025, และ 40.3% บน FrontierMath (ปรับปรุง 10% จาก 5.1) หน้าต่างบริบท 400K โทเค็นและ 128K โทเค็นเอาต์พุตสร้างความต้องการโครงสร้างพื้นฐานใหม่ สำหรับผู้ให้บริการอนุมาน การขึ้นราคา 1.4 เท่าบ่งบอกถึงความมั่นใจของ OpenAI—และความเข้มข้นในการประมวลผลที่จำเป็นในการให้บริการความสามารถเหล่านี้
เกิดอะไรขึ้น
OpenAI เปิดตัว GPT-5.2 เมื่อวันที่ 11 ธันวาคม 2025 เพียง 11 วันหลังจากที่มีรายงานว่าประกาศ "รหัสแดง" เพื่อตอบสนองต่อการครอง benchmark ของ Google Gemini 31
การเปิดตัวประกอบด้วยสองรุ่น:
| รุ่น | กรณีใช้งาน | ราคา (ต่อ 1M โทเค็น) |
|---|---|---|
| GPT-5.2 | ใช้งานทั่วไป | $1.75 อินพุต / $14 เอาต์พุต |
| GPT-5.2 Pro | การให้เหตุผลขยาย | สูงกว่า (ระดับ xhigh reasoning) |
ข้อมูลจำเพาะหลัก:2
- หน้าต่างบริบท: 400,000 โทเค็น
- เอาต์พุตสูงสุด: 128,000 โทเค็น
- วันที่ตัดความรู้: 31 สิงหาคม 2025 (อัปเดตจาก ก.ย. 2024)
- ราคา: 1.4 เท่าของต้นทุน GPT-5.1
GPT-5.2 สร้างบนโครงสร้างพื้นฐาน Azure โดยใช้ GPU NVIDIA H100, H200 และ GB200-NVL723
ประสิทธิภาพ Benchmark
GPT-5.2 สร้างสถิติใหม่บน benchmark ระดับมืออาชีพ วิทยาศาสตร์ และคณิตศาสตร์:4
| Benchmark | คะแนน GPT-5.2 | ดีที่สุดก่อนหน้า | การปรับปรุง |
|---|---|---|---|
| GPQA Diamond (วิทย์ระดับ PhD) | 93.2% | 91.9% (Gemini 3) | +1.3% |
| ARC-AGI-1 ตรวจสอบแล้ว | >90% | ~85% | แรกที่เกิน 90% |
| AIME 2025 (คณิต) | 100% | 96.7% (Gemini 3) | คะแนนเต็ม |
| FrontierMath T1-3 | 40.3% | 30% (GPT-5.1) | +10% |
| GDPval (งานความรู้) | 70.9% | — | เอาชนะผู้เชี่ยวชาญ |
| SWE-Bench Pro (เขียนโค้ด) | 55.6% | 51% (GPT-5.1) | +4.6% |
| Tau2 Telecom (ใช้เครื่องมือ) | 98.7% | ~95% | เกือบสมบูรณ์แบบ |
ผลลัพธ์ GDPval น่าสนใจ: GPT-5.2 Thinking สร้างผลลัพธ์ด้วยความเร็ว >11 เท่าและต้นทุน <1% เมื่อเทียบกับผู้เชี่ยวชาญมืออาชีพใน 44 อาชีพ5
ทำไมสิ่งนี้สำคัญ
ความต้องการอนุมานพุ่งสูง
หน้าต่างบริบท 400K โทเค็นต้องการหน่วยความจำจำนวนมากต่อคำขอ การอนุมานครั้งเดียวด้วยบริบทเต็มใช้หน่วยความจำ GPU มากกว่าโมเดล 128K ก่อนหน้าอย่างมาก ผู้ให้บริการต้องวางแผนสำหรับ:6
- การขยายหน่วยความจำ: หน่วยความจำ 3 เท่า+ ต่อคำขอเทียบกับบริบท 128K
- การลดขนาด batch: คำขอพร้อมกันน้อยลงต่อ GPU
- การเติบโตของ KV cache: ความยาวบริบท × ขนาด batch = ข้อกำหนด KV cache ขนาดใหญ่
การเปลี่ยนโครงสร้างต้นทุน
การขึ้นราคา 1.4 เท่าจาก GPT-5.1 สะท้อนความเข้มข้นในการประมวลผลจริง:7
| โมเดล | ต้นทุนอินพุต | ต้นทุนเอาต์พุต | อัตราส่วนกับ 5.1 |
|---|---|---|---|
| GPT-5.1 | $1.25/M | $10/M | 1.0x |
| GPT-5.2 | $1.75/M | $14/M | 1.4x |
สำหรับการดำเนินการอนุมานปริมาณสูง นี่หมายถึง TCO เพิ่มขึ้น 40% สำหรับ workload ที่เทียบเท่ากัน
การทำงานมืออาชีพอัตโนมัติ
ประสิทธิภาพ GDPval ของ GPT-5.2—เอาชนะผู้เชี่ยวชาญใน 70.9% ของงานด้วยต้นทุน <1%—สร้างความต้องการทันทีสำหรับการใช้งานระดับองค์กร องค์กรที่ต้องการความสามารถเหล่านี้ต้องการโครงสร้างพื้นฐานอนุมานที่สามารถจัดการ:8
- ห่วงโซ่การให้เหตุผลขยาย (รุ่น Pro)
- การประมวลผลเอกสารบริบทยาว
- การเรียกใช้เครื่องมือที่เชื่อถือได้ (98.7% Tau2)
รายละเอียดทางเทคนิค
สถาปัตยกรรม
OpenAI ไม่ได้เปิดเผยการเปลี่ยนแปลงสถาปัตยกรรมเฉพาะ แต่รูปแบบ benchmark บ่งชี้:9
- ความสามารถในการให้เหตุผลที่เพิ่มขึ้น (FrontierMath +10%)
- ความแม่นยำบริบทยาวที่ปรับปรุง (การดึง 256K โทเค็น)
- ความน่าเชื่อถือในการใช้เครื่องมือที่ดีขึ้น (Tau2 98.7%)
ข้อกำหนดการอนุมาน
การให้บริการ GPT-5.2 ในขนาดใหญ่ต้องพิจารณา:10
| ปัจจัย | GPT-5.1 | GPT-5.2 | ผลกระทบ |
|---|---|---|---|
| หน้าต่างบริบท | 200K | 400K | หน่วยความจำ 2 เท่าต่อคำขอ |
| เอาต์พุตสูงสุด | 64K | 128K | เวลาสร้าง 2 เท่า |
| ความลึกในการให้เหตุผล | มาตรฐาน | ขยาย (Pro) | latency ผันแปร |
| การเรียกเครื่องมือ | 95% | 98.7% | การจัดการที่ซับซ้อนกว่า |
บริบทการแข่งขัน
GPT-5.2 ยึด benchmark บางส่วนคืนจาก Gemini 3 แต่ไม่ทั้งหมด:11
| Benchmark | ผู้นำ | คะแนน |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | นำ |
| GDPval | GPT-5.2 Thinking | 70.9% |
จังหวะการออกรุ่นที่รวดเร็ว—GPT-5.2 เพียง 11 วันหลัง Gemini 3—แสดงให้เห็นแรงกดดันโครงสร้างพื้นฐานอนุมานที่ทั้งสองบริษัทเผชิญ
ขั้นตอนต่อไป
ระยะสั้น (Q1 2026)
- GPT-5.2 Mini น่าจะมาเร็วๆ นี้ (ไม่มีรุ่น Mini ตอนเปิดตัว)
- การขยายการเปิดตัว API องค์กร
- ผู้ให้บริการอนุมานบุคคลที่สามเพิ่มการสนับสนุน
ผลกระทบต่อโครงสร้างพื้นฐาน
องค์กรที่วางแผนใช้งาน GPT-5.2 ควร:12
- ประเมินความจุหน่วยความจำ: บริบท 400K ต้องการหน่วยความจำ 3 เท่า+ เทียบกับโมเดล 128K
- วางแผน KV cache: การขยายหน่วยความจำ CXL สำคัญขึ้นเรื่อยๆ
- งบประมาณการประมวลผล: การเพิ่มต้นทุน 1.4 เท่าเป็นจริง
- พิจารณาแนวทางผสม: ส่งงานง่ายๆ ไปยังโมเดลที่ถูกกว่า
สำหรับการใช้งานโครงสร้างพื้นฐานอนุมานที่สนับสนุนโมเดลล้ำสมัย ติดต่อ Introl
อ้างอิง
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." ธันวาคม 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." ธันวาคม 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 ธันวาคม 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." ธันวาคม 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." ธันวาคม 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." ธันวาคม 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 ธันวาคม 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." ธันวาคม 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." ธันวาคม 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." ธันวาคม 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." ธันวาคม 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." ธันวาคม 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩