GPT-5.2: โมเดลแรกที่เกิน 90% ARC-AGI เปลี่ยนคณิตศาสตร์การอนุมาน

GPT-5.2 ของ OpenAI ทำได้ 93.2% GPQA Diamond, 100% AIME, 70.9% GDPval หน้าต่างบริบท 400K โทเค็นขับเคลื่อนข้อกำหนดโครงสร้างพื้นฐานการอนุมานใหม่

Blake Crosley

Jan 02, 2026 3 min read Disclaimer

GPT-5.2: โมเดลแรกที่เกิน 90% ARC-AGI เปลี่ยนคณิตศาสตร์การอนุมาน

1 มกราคม 2026

อัปเดตมกราคม 2026: OpenAI เปิดตัว GPT-5.2 เมื่อวันที่ 11 ธันวาคม 2025 ด้วยคะแนน benchmark ที่นิยามใหม่ถึงสิ่งที่เป็นไปได้ในงานความรู้ระดับมืออาชีพ โมเดลนี้เอาชนะผู้เชี่ยวชาญมนุษย์ใน 70.9% ของงาน GDPval ด้วยความเร็ว 11 เท่าและต้นทุน <1%

สรุป

GPT-5.2 ข้ามเกณฑ์ความสามารถที่สำคัญ: โมเดลแรกที่เกิน 90% บน ARC-AGI-1, สมบูรณ์แบบ 100% บน AIME 2025, และ 40.3% บน FrontierMath (ปรับปรุง 10% จาก 5.1) หน้าต่างบริบท 400K โทเค็นและ 128K โทเค็นเอาต์พุตสร้างความต้องการโครงสร้างพื้นฐานใหม่ สำหรับผู้ให้บริการอนุมาน การขึ้นราคา 1.4 เท่าบ่งบอกถึงความมั่นใจของ OpenAI—และความเข้มข้นในการประมวลผลที่จำเป็นในการให้บริการความสามารถเหล่านี้

เกิดอะไรขึ้น

OpenAI เปิดตัว GPT-5.2 เมื่อวันที่ 11 ธันวาคม 2025 เพียง 11 วันหลังจากที่มีรายงานว่าประกาศ "รหัสแดง" เพื่อตอบสนองต่อการครอง benchmark ของ Google Gemini 3¹

การเปิดตัวประกอบด้วยสองรุ่น:

รุ่น	กรณีใช้งาน	ราคา (ต่อ 1M โทเค็น)
GPT-5.2	ใช้งานทั่วไป	$1.75 อินพุต / $14 เอาต์พุต
GPT-5.2 Pro	การให้เหตุผลขยาย	สูงกว่า (ระดับ xhigh reasoning)

ข้อมูลจำเพาะหลัก:²

หน้าต่างบริบท: 400,000 โทเค็น
เอาต์พุตสูงสุด: 128,000 โทเค็น
วันที่ตัดความรู้: 31 สิงหาคม 2025 (อัปเดตจาก ก.ย. 2024)
ราคา: 1.4 เท่าของต้นทุน GPT-5.1

GPT-5.2 สร้างบนโครงสร้างพื้นฐาน Azure โดยใช้ GPU NVIDIA H100, H200 และ GB200-NVL72³

ประสิทธิภาพ Benchmark

GPT-5.2 สร้างสถิติใหม่บน benchmark ระดับมืออาชีพ วิทยาศาสตร์ และคณิตศาสตร์:⁴

Benchmark	คะแนน GPT-5.2	ดีที่สุดก่อนหน้า	การปรับปรุง
GPQA Diamond (วิทย์ระดับ PhD)	93.2%	91.9% (Gemini 3)	+1.3%
ARC-AGI-1 ตรวจสอบแล้ว	>90%	~85%	แรกที่เกิน 90%
AIME 2025 (คณิต)	100%	96.7% (Gemini 3)	คะแนนเต็ม
FrontierMath T1-3	40.3%	30% (GPT-5.1)	+10%
GDPval (งานความรู้)	70.9%	—	เอาชนะผู้เชี่ยวชาญ
SWE-Bench Pro (เขียนโค้ด)	55.6%	51% (GPT-5.1)	+4.6%
Tau2 Telecom (ใช้เครื่องมือ)	98.7%	~95%	เกือบสมบูรณ์แบบ

ผลลัพธ์ GDPval น่าสนใจ: GPT-5.2 Thinking สร้างผลลัพธ์ด้วยความเร็ว >11 เท่าและต้นทุน <1% เมื่อเทียบกับผู้เชี่ยวชาญมืออาชีพใน 44 อาชีพ⁵

ทำไมสิ่งนี้สำคัญ

ความต้องการอนุมานพุ่งสูง

หน้าต่างบริบท 400K โทเค็นต้องการหน่วยความจำจำนวนมากต่อคำขอ การอนุมานครั้งเดียวด้วยบริบทเต็มใช้หน่วยความจำ GPU มากกว่าโมเดล 128K ก่อนหน้าอย่างมาก ผู้ให้บริการต้องวางแผนสำหรับ:⁶

การขยายหน่วยความจำ: หน่วยความจำ 3 เท่า+ ต่อคำขอเทียบกับบริบท 128K
การลดขนาด batch: คำขอพร้อมกันน้อยลงต่อ GPU
การเติบโตของ KV cache: ความยาวบริบท × ขนาด batch = ข้อกำหนด KV cache ขนาดใหญ่

การเปลี่ยนโครงสร้างต้นทุน

การขึ้นราคา 1.4 เท่าจาก GPT-5.1 สะท้อนความเข้มข้นในการประมวลผลจริง:⁷

โมเดล	ต้นทุนอินพุต	ต้นทุนเอาต์พุต	อัตราส่วนกับ 5.1
GPT-5.1	$1.25/M	$10/M	1.0x
GPT-5.2	$1.75/M	$14/M	1.4x

สำหรับการดำเนินการอนุมานปริมาณสูง นี่หมายถึง TCO เพิ่มขึ้น 40% สำหรับ workload ที่เทียบเท่ากัน

การทำงานมืออาชีพอัตโนมัติ

ประสิทธิภาพ GDPval ของ GPT-5.2—เอาชนะผู้เชี่ยวชาญใน 70.9% ของงานด้วยต้นทุน <1%—สร้างความต้องการทันทีสำหรับการใช้งานระดับองค์กร องค์กรที่ต้องการความสามารถเหล่านี้ต้องการโครงสร้างพื้นฐานอนุมานที่สามารถจัดการ:⁸

ห่วงโซ่การให้เหตุผลขยาย (รุ่น Pro)
การประมวลผลเอกสารบริบทยาว
การเรียกใช้เครื่องมือที่เชื่อถือได้ (98.7% Tau2)

รายละเอียดทางเทคนิค

สถาปัตยกรรม

OpenAI ไม่ได้เปิดเผยการเปลี่ยนแปลงสถาปัตยกรรมเฉพาะ แต่รูปแบบ benchmark บ่งชี้:⁹

ความสามารถในการให้เหตุผลที่เพิ่มขึ้น (FrontierMath +10%)
ความแม่นยำบริบทยาวที่ปรับปรุง (การดึง 256K โทเค็น)
ความน่าเชื่อถือในการใช้เครื่องมือที่ดีขึ้น (Tau2 98.7%)

ข้อกำหนดการอนุมาน

การให้บริการ GPT-5.2 ในขนาดใหญ่ต้องพิจารณา:¹⁰

ปัจจัย	GPT-5.1	GPT-5.2	ผลกระทบ
หน้าต่างบริบท	200K	400K	หน่วยความจำ 2 เท่าต่อคำขอ
เอาต์พุตสูงสุด	64K	128K	เวลาสร้าง 2 เท่า
ความลึกในการให้เหตุผล	มาตรฐาน	ขยาย (Pro)	latency ผันแปร
การเรียกเครื่องมือ	95%	98.7%	การจัดการที่ซับซ้อนกว่า

บริบทการแข่งขัน

GPT-5.2 ยึด benchmark บางส่วนคืนจาก Gemini 3 แต่ไม่ทั้งหมด:¹¹

Benchmark	ผู้นำ	คะแนน
GPQA Diamond	Gemini 3 Deep Think	93.8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76.2%
Humanity's Last Exam	Gemini 3	นำ
GDPval	GPT-5.2 Thinking	70.9%

จังหวะการออกรุ่นที่รวดเร็ว—GPT-5.2 เพียง 11 วันหลัง Gemini 3—แสดงให้เห็นแรงกดดันโครงสร้างพื้นฐานอนุมานที่ทั้งสองบริษัทเผชิญ

ขั้นตอนต่อไป

ระยะสั้น (Q1 2026)

GPT-5.2 Mini น่าจะมาเร็วๆ นี้ (ไม่มีรุ่น Mini ตอนเปิดตัว)
การขยายการเปิดตัว API องค์กร
ผู้ให้บริการอนุมานบุคคลที่สามเพิ่มการสนับสนุน

ผลกระทบต่อโครงสร้างพื้นฐาน

องค์กรที่วางแผนใช้งาน GPT-5.2 ควร:¹²

ประเมินความจุหน่วยความจำ: บริบท 400K ต้องการหน่วยความจำ 3 เท่า+ เทียบกับโมเดล 128K
วางแผน KV cache: การขยายหน่วยความจำ CXL สำคัญขึ้นเรื่อยๆ
งบประมาณการประมวลผล: การเพิ่มต้นทุน 1.4 เท่าเป็นจริง
พิจารณาแนวทางผสม: ส่งงานง่ายๆ ไปยังโมเดลที่ถูกกว่า

สำหรับการใช้งานโครงสร้างพื้นฐานอนุมานที่สนับสนุนโมเดลล้ำสมัย ติดต่อ Introl

อ้างอิง

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." ธันวาคม 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." ธันวาคม 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 ธันวาคม 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." ธันวาคม 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." ธันวาคม 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." ธันวาคม 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 ธันวาคม 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." ธันวาคม 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." ธันวาคม 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." ธันวาคม 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." ธันวาคม 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." ธันวาคม 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

GPT-5.2: โมเดลแรกที่เกิน 90% ARC-AGI เปลี่ยนคณิตศาสตร์การอนุมาน

สรุป

เกิดอะไรขึ้น

ประสิทธิภาพ Benchmark

ทำไมสิ่งนี้สำคัญ

ความต้องการอนุมานพุ่งสูง

การเปลี่ยนโครงสร้างต้นทุน

การทำงานมืออาชีพอัตโนมัติ

รายละเอียดทางเทคนิค

สถาปัตยกรรม

ข้อกำหนดการอนุมาน

บริบทการแข่งขัน

ขั้นตอนต่อไป

ระยะสั้น (Q1 2026)

ผลกระทบต่อโครงสร้างพื้นฐาน

อ้างอิง

You Might Also Like

การลงทุน CapEx ของ Hyperscaler ทะลุ $600 พันล้านในปี 2026: ค...

การเดิมพัน 60 พันล้านดอลลาร์ของ Microsoft กับ Neocloud: ซื้อ...

DeepSeek V3.2 เอาชนะ GPT-5 ในเกณฑ์มาตรฐานระดับสูง: การเติบโต...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_