DeepSeek V3.2 บรรลุการให้เหตุผลระดับเหรียญทอง IMO: AI จีนเทียบเท่าประสิทธิภาพแนวหน้า
11 ธันวาคม 2025
อัปเดตธันวาคม 2025: DeepSeek เปิดตัว V3.2 และ V3.2-Speciale เมื่อวันที่ 1 ธันวาคม 2025 รุ่น Speciale ทำคะแนน 35/42 ในโจทย์มาตรฐาน IMO 2025 เทียบเท่าการให้เหตุผลของ Gemini 3 Pro ด้วยต้นทุนการอนุมานที่ต่ำกว่า 70%
DeepSeek เปิดตัวสองโมเดลเมื่อวันที่ 1 ธันวาคม 2025: DeepSeek-V3.2 และ DeepSeek-V3.2-Speciale1 รุ่น Speciale ทำคะแนน 35 จาก 42 คะแนนในโจทย์มาตรฐาน IMO 2025 ได้รับสถานะเทียบเท่าเหรียญทองและแสดงให้เห็นความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่เทียบเท่าระบบ AI ชั้นนำของโลก2
ข้อจำกัดการส่งออกของสหรัฐฯ จำกัดการเข้าถึง GPU NVIDIA ล้ำสมัยของ DeepSeek แม้จะมีข้อจำกัดเหล่านี้ บริษัทยังคงผลิตโมเดลที่แข่งขันหรือเหนือกว่าทางเลือกตะวันตกด้วยต้นทุนที่ต่ำกว่าอย่างมาก3 การเปิดตัวนี้ยืนยันแนวทางประสิทธิภาพเป็นอันดับแรกของจีนในการพัฒนา AI
ข้อมูลจำเพาะทางเทคนิค
ทั้งสองโมเดล V3.2 มีพารามิเตอร์รวม 685 พันล้านพารามิเตอร์พร้อม open weights ภายใต้ใบอนุญาต MIT4 น้ำหนักโมเดลเต็มต้องการพื้นที่จัดเก็บประมาณ 690GB การรันโมเดลต้องการ:
- การปรับใช้ Multi-GPU: 8x H100 80GB GPU พร้อม tensor parallelism
- การอนุมานแบบ Quantized: การ quantization INT4 ลดความต้องการเหลือ 4x A100 80GB
- Cloud APIs: DeepSeek เสนอการอนุมานแบบโฮสต์ในราคา $0.70/M โทเค็น
โมเดลรองรับหน้าต่างบริบท 128,000 โทเค็น ช่วยให้วิเคราะห์เอกสารยาว codebase และเอกสารวิจัยในพรอมต์เดียวได้
V3.2-Speciale นำเสนอการให้เหตุผลแบบบูรณาการภายในการใช้เครื่องมือ โมเดลรองรับทั้งโหมด "คิด" และ "ไม่คิด" สำหรับการเรียกเครื่องมือ ช่วยให้สามารถให้เหตุผลผ่านเวิร์กโฟลว์ตัวแทนหลายขั้นตอนก่อนดำเนินการ5 ตัวอย่างเช่น เมื่อสอบถามฐานข้อมูล Speciale สามารถให้เหตุผลเกี่ยวกับการเพิ่มประสิทธิภาพการสืบค้นและการตีความผลลัพธ์ภายในห่วงโซ่การอนุมานเดียวแทนที่จะต้องใช้การเรียก API หลายครั้ง
กระบวนการฝึกใช้ pipeline การสร้างข้อมูลสังเคราะห์ครอบคลุมมากกว่า 1,800 สภาพแวดล้อมและมากกว่า 85,000 คำสั่งที่ซับซ้อน6 ข้อมูลสังเคราะห์ลดการพึ่งพาการใส่คำอธิบายประกอบของมนุษย์ที่มีราคาแพงในขณะที่เปิดใช้งานการฝึกในสถานการณ์ที่ยากต่อการรวบรวมตามธรรมชาติ
ประสิทธิภาพ Benchmark
DeepSeek-V3.2-Speciale บรรลุผลลัพธ์ระดับทองในหลาย benchmark การแข่งขัน:7
| Benchmark | คะแนน | บริบท |
|---|---|---|
| โจทย์ IMO 2025 | 35/42 คะแนน | เกณฑ์เหรียญทอง |
| คณิตศาสตร์โอลิมปิกจีน | ระดับทอง | หมวดผู้มีผลงานดีเยี่ยม |
| โจทย์ IOI 2025 | 492/600 คะแนน | ทอง เทียบเท่าอันดับ 10 |
| Terminal Bench 2.0 | 46.4% | เหนือกว่า GPT-5-High (35.2%) |
ผลลัพธ์ Terminal Bench 2.0 วัดเวิร์กโฟลว์การเขียนโค้ดที่ซับซ้อน รวมถึงการ refactor หลายไฟล์ การแก้ไขข้อบกพร่อง และการสร้างทดสอบ8 DeepSeek เหนือกว่า GPT-5-High 11 เปอร์เซ็นต์ในงานวิศวกรรมซอฟต์แวร์ภาคปฏิบัติ
หมายเหตุ: คะแนนเหล่านี้สะท้อนโจทย์ benchmark สไตล์การแข่งขันอย่างเป็นทางการ ไม่ใช่ประสิทธิภาพในงานแข่งขันจริงปี 2025
เศรษฐศาสตร์ต้นทุน
ราคา DeepSeek V3.2 แสดงถึงการลดลง 70% จากโมเดล V3.1-Terminus ก่อนหน้า:9
| โมเดล | โทเค็นอินพุต | โทเค็นเอาต์พุต |
|---|---|---|
| DeepSeek V3.2 | $0.14/M | $0.70/M |
| V3.1-Terminus (ก่อนหน้า) | $0.48/M | $2.40/M |
เปรียบเทียบกับราคาผู้ให้บริการตะวันตกปัจจุบัน:10
| ผู้ให้บริการ | อินพุต | เอาต์พุต |
|---|---|---|
| Claude Sonnet 4 | $3.00/M | $15.00/M |
| GPT-4.5 | $2.50/M | $10.00/M |
| Gemini 3 Pro | $1.25/M | $5.00/M |
| DeepSeek V3.2 | $0.14/M | $0.70/M |
องค์กรที่ประมวลผล 10 พันล้านโทเค็นเอาต์พุตต่อเดือนจะใช้จ่ายประมาณ 7 ล้านดอลลาร์ต่อปีกับ DeepSeek เทียบกับ 50-150 ล้านดอลลาร์กับทางเลือกตะวันตก11 ช่องว่างต้นทุนขยายสำหรับเวิร์กโหลดที่มีเอาต์พุตมาก เช่น การสร้างโค้ดและเนื้อหาแบบยาว
ผลกระทบต่อโครงสร้างพื้นฐาน
DeepSeek ฝึก V3.2 บน GPU H800 ซึ่งเป็นรุ่นเฉพาะจีนที่มีแบนด์วิดท์หน่วยความจำลดลง (2.0TB/s เทียบกับ 3.35TB/s สำหรับ H100)12 ความสำเร็จนี้แสดงให้เห็นว่าการเพิ่มประสิทธิภาพซอฟต์แวร์สามารถชดเชยข้อจำกัดของฮาร์ดแวร์ได้
เทคนิคประสิทธิภาพหลัก:13
สถาปัตยกรรม Mixture-of-Experts (MoE): มีเพียง 37 พันล้านพารามิเตอร์ที่ถูกเปิดใช้งานต่อคำขอการอนุมาน แม้จะมีพารามิเตอร์รวม 685 พันล้าน MoE ลดการคำนวณประมาณ 30% เมื่อเทียบกับโมเดลหนาแน่นที่เทียบเท่า
Multi-head Latent Attention (MLA): บีบอัดความต้องการแคชคีย์-ค่า ลดคอขวดแบนด์วิดท์หน่วยความจำบนฮาร์ดแวร์ H800 ที่มีแบนด์วิดท์จำกัด
การฝึก FP8 mixed-precision: ลดความต้องการหน่วยความจำและเร่งการฝึกบน GPU สถาปัตยกรรม Hopper
องค์กรที่ประเมินโครงสร้างพื้นฐาน AI ควรตระหนักว่าความสำเร็จของ DeepSeek ท้าทายสมมติฐานเกี่ยวกับความต้องการการคำนวณสำหรับความสามารถแนวหน้า การเพิ่มประสิทธิภาพซอฟต์แวร์อาจให้ ROI ที่ดีกว่าการสะสม GPU ดิบสำหรับเวิร์กโหลดหลายประเภท14
การปรับใช้ระดับองค์กร
AWS, Azure และ Google Cloud ทั้งหมดเสนอการปรับใช้โมเดล DeepSeek ซึ่งยืนยันความน่าเชื่อถือระดับองค์กร15 ความพร้อมใช้งานของ hyperscaler ขจัดอุปสรรคการปรับใช้ที่อาจจำกัดการนำโมเดลที่มีต้นกำเนิดจากจีนมาใช้
องค์กรที่พิจารณาการปรับใช้ DeepSeek ควรประเมิน:
- อธิปไตยข้อมูล: น้ำหนักโมเดลเปิด แต่การใช้ API กำหนดเส้นทางข้อมูลผ่านโครงสร้างพื้นฐาน DeepSeek
- ข้อกำหนดการปฏิบัติตาม: อุตสาหกรรมที่มีการควบคุมบางแห่งอาจจำกัดการใช้โมเดลจีน
- ลักษณะประสิทธิภาพ: DeepSeek โดดเด่นในการให้เหตุผลและการเขียนโค้ด แต่อาจทำงานได้น้อยกว่าในงานสร้างสรรค์หรือละเอียดอ่อน
ภูมิทัศน์การแข่งขัน
การเปิดตัว V3.2 มาถึงหนึ่งสัปดาห์ก่อนที่รัฐบาลทรัมป์จะประกาศผ่อนคลายข้อจำกัดการส่งออก H20016 เวลานี้เน้นย้ำความขัดแย้งของนโยบาย: การควบคุมการส่งออกที่มุ่งหมายจะชะลอการพัฒนา AI ของจีนอาจเร่งนวัตกรรมโดยบังคับให้มีการปรับปรุงประสิทธิภาพ
โมเดลโอเพนซอร์สของจีนเติบโตจาก 1.2% ของการใช้งานทั่วโลกในปลายปี 2024 เป็นเกือบ 30% ในปี 202517 การเปลี่ยนแปลงนี้แสดงถึงทั้งความสำเร็จทางเทคโนโลยีและการก่อกวนตลาดสำหรับบริษัทสหรัฐฯ ที่สันนิษฐานว่าอุปสรรคด้านกฎระเบียบจะปกป้องข้อได้เปรียบทางการแข่งขัน
บริษัท AI ตะวันตกเผชิญแรงกดดันที่จะต้องเทียบเคียงประสิทธิภาพของ DeepSeek หรือพิสูจน์ราคาพรีเมียมผ่านความสามารถที่เหนือกว่า กลุ่มการเปิดตัวเดือนพฤศจิกายน 2025 (GPT-5.1, Claude Opus 4.5, Gemini 3 Pro, Grok 4.1) แสดงให้เห็นความก้าวหน้าแนวหน้าอย่างต่อเนื่อง แต่ที่ราคาสูงกว่าอย่างมาก18
Claude Opus 4.5 นำ benchmark การเขียนโค้ดด้วยประสิทธิภาพ SWE-bench 72.5% ขณะที่ Gemini 3 Pro ทำคะแนน LMArena Elo สูงสุดที่เคยบันทึกไว้ที่ 150119 โมเดลตะวันตกรักษาข้อได้เปรียบในความสามารถเฉพาะแม้ในขณะที่ DeepSeek ปิดช่องว่างวัตถุประสงค์ทั่วไป
ประเด็นสำคัญ
สำหรับวิศวกร ML: - V3.2-Speciale บรรลุระดับทอง IMO (35/42 ในโจทย์ benchmark) - 685B พารามิเตอร์ บริบท 128K open weights ใบอนุญาต MIT - ต้องการ 8x H100 80GB หรือการปรับใช้ quantized บน 4x A100 80GB
สำหรับผู้วางแผนโครงสร้างพื้นฐาน: - โมเดลจีนแสดงความสามารถแนวหน้าบนฮาร์ดแวร์ที่มีข้อจำกัดการส่งออก (H800) - การเพิ่มประสิทธิภาพซอฟต์แวร์ (MoE, MLA, FP8) ชดเชยข้อจำกัดฮาร์ดแวร์ - พิจารณาการปรับใช้แบบไฮบริด: โมเดลตะวันตกสำหรับความสามารถสูงสุด DeepSeek สำหรับการเพิ่มประสิทธิภาพต้นทุน
สำหรับการวางแผนเชิงกลยุทธ์: - โมเดลโอเพนซอร์สจีนมีสัดส่วนการใช้งานทั่วโลก 30% ในปี 2025 - ความพร้อมใช้งานของ hyperscaler (AWS, Azure, GCP) ยืนยันการปรับใช้ระดับองค์กร - การควบคุมการส่งออกอาจเร่งแทนที่จะป้องกันความก้าวหน้า AI ของจีน
เอกสารอ้างอิง
สำหรับการสนับสนุนการปรับใช้โครงสร้างพื้นฐาน AI ติดต่อ Introl
-
DeepSeek API Docs. "DeepSeek-V3.2 Release Notes." 1 ธันวาคม 2025. ↩
-
UNU Campus Computing Centre. "Inside DeepSeek End-of-Year AI Breakthrough." ธันวาคม 2025. ↩
-
Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 1 ธันวาคม 2025. ↩
-
Simon Willison. "DeepSeek-V3.2 Technical Analysis." 1 ธันวาคม 2025. ↩
-
DeepSeek API Docs. "V3.2 Tool Use with Thinking Mode." ธันวาคม 2025. ↩
-
Semiconductor Engineering. "DeepSeek New AI Models: V3.2 and V3.2-Speciale." ธันวาคม 2025. ↩
-
WinBuzzer. "New DeepSeek V3.2 Speciale Model Claims Reasoning Parity with Gemini 3 Pro." 1 ธันวาคม 2025. ↩
-
VentureBeat. "DeepSeek drops two AI models that rival GPT-5 on coding benchmarks." ธันวาคม 2025. ↩
-
DeepSeek API Docs. "Pricing: V3.2 vs V3.1-Terminus." ธันวาคม 2025. ↩
-
Artificial Analysis. "LLM Pricing Comparison December 2025." ธันวาคม 2025. ↩
-
Sebastian Raschka. "A Technical Tour of the DeepSeek Models from V3 to V3.2." ธันวาคม 2025. ↩
-
DEV Community. "DeepSeek-V3.2 Complete Technical Analysis." ธันวาคม 2025. ↩
-
DeepSeek. "V3.2 Technical Report: Architecture and Training." ธันวาคม 2025. ↩
-
CSIS. "Chinese AI Efficiency and Infrastructure Economics." ธันวาคม 2025. ↩
-
AWS, Azure, Google Cloud. "DeepSeek Model Availability." ธันวาคม 2025. ↩
-
Semafor. "Trump allows H200 exports to China with 25% surcharge." 8 ธันวาคม 2025. ↩
-
Stanford HAI. "2025 AI Index Report." 2025. ↩
-
Shakudo. "Top 9 Large Language Models as of December 2025." ธันวาคม 2025. ↩
-
OverChat. "Best AI Models 2025: Claude, Gemini, GPT Compared." ธันวาคม 2025. ↩