การปรับขนาดเวลาอนุมาน: พรมแดนใหม่ของการฝึกฝน AI สำหรับการใช้เหตุผล
12 ธันวาคม 2025
อัปเดตธันวาคม 2025: การปรับขนาดเวลาอนุมานได้กลายเป็นพรมแดนการวิจัยหลักในการใช้เหตุผลของ AI ThreadWeaver บรรลุการลดเวลาแฝงลง 1.5 เท่าโดยรักษาความแม่นยำไว้ได้ P1 กลายเป็นโมเดลโอเพนซอร์สตัวแรกที่คว้าเหรียญทองโอลิมปิกฟิสิกส์ผ่าน RL และตัวแทนเวลาทดสอบ DeepSeek-R1 เทียบเท่า OpenAI o1 ในต้นทุนต่ำกว่า 70% นักวิเคราะห์คาดการณ์ว่าการอนุมานจะใช้ 75% ของการประมวลผล AI ทั้งหมดภายในปี 2030
สรุปย่อ
กระบวนทัศน์การปรับขนาด AI ได้เปลี่ยนแปลงไปแล้ว แทนที่จะฝึกโมเดลที่ใหญ่ขึ้น นักวิจัยบรรลุการใช้เหตุผลระดับสูงสุดโดยใช้การประมวลผลมากขึ้นในเวลาอนุมาน ข้อมูลเชิงลึกหลัก: การให้โมเดล "คิดนานขึ้น" ผ่านห่วงโซ่ความคิดที่ขยายออกไปสร้างความสามารถในการใช้เหตุผลที่การฝึกเพียงอย่างเดียวไม่สามารถบรรลุได้ DeepSeek-R1 พิสูจน์สิ่งนี้ในระดับใหญ่ โดยเทียบเท่า o1 ด้วยการสร้างโทเค็นมากขึ้น 10-100 เท่าต่อคำถาม ThreadWeaver ทำให้การใช้เหตุผลนี้เป็นแบบขนานเพื่อลดเวลาแฝง P1 รวม RL training กับตัวแทนเวลาทดสอบเพื่อบรรลุเหรียญทองโอลิมปิกฟิสิกส์ สำหรับโครงสร้างพื้นฐาน ความต้องการการอนุมานจะเกินความต้องการการฝึก 118 เท่าภายในปี 2026 ซึ่งจะเปลี่ยนรูปแบบการจัดหา GPU ไปสู่ฮาร์ดแวร์ที่เพิ่มประสิทธิภาพสำหรับการอนุมาน
เกิดอะไรขึ้น
ความก้าวหน้าทางการวิจัยสามประการแสดงให้เห็นถึงความสมบูรณ์ของการปรับขนาดเวลาอนุมาน:
DeepSeek-R1 (มกราคม 2025): DeepSeek ปล่อย R1 พิสูจน์ว่า reinforcement learning ล้วนๆ สามารถสร้างความสามารถในการใช้เหตุผลเทียบเท่า OpenAI o1 โมเดลปรับปรุงความแม่นยำ benchmark AIME จาก 15.6% เป็น 71% ผ่านการใช้เหตุผลห่วงโซ่ความคิดที่ขยายออกไป และถึง 86.7% ด้วยการโหวตเสียงข้างมาก1
P1 Physics Model (พฤศจิกายน 2025): นักวิจัยปล่อย P1 ซึ่งเป็นกลุ่มโมเดลโอเพนซอร์สแรกที่บรรลุประสิทธิภาพระดับเหรียญทองที่การแข่งขันฟิสิกส์โอลิมปิกระหว่างประเทศ (IPhO 2025) P1-235B-A22B ทำคะแนน 21.2/30 คะแนน อยู่อันดับที่สามรองจาก Gemini-2.5-Pro และ GPT-5 เท่านั้น2
ThreadWeaver (2025): ThreadWeaver นำเสนอการใช้เหตุผลแบบขนาน บรรลุความเร็วเพิ่มขึ้นเฉลี่ย 1.53 เท่าในเวลาแฝงของโทเค็นโดยรักษาความแม่นยำของการใช้เหตุผลแบบลำดับ แนวทางนี้ช่วยให้สำรวจเส้นทางการใช้เหตุผลพร้อมกันแทนที่จะเป็นห่วงโซ่ความคิดแบบลำดับ3
ทำไมจึงสำคัญสำหรับโครงสร้างพื้นฐาน
โมเดลทางความคิด: การปรับขนาดแบบดั้งเดิมลงทุนการประมวลผลในเวลาฝึก (โมเดลใหญ่ขึ้น ข้อมูลมากขึ้น) การปรับขนาดเวลาอนุมานลงทุนการประมวลผลในเวลาสอบถาม (ห่วงโซ่การใช้เหตุผลยาวขึ้น หลายครั้ง การตรวจสอบตนเอง) โมเดลพารามิเตอร์ 7B ที่มีการประมวลผลอนุมาน 100 เท่าสามารถเทียบเท่าโมเดล 70B ที่มีการอนุมานมาตรฐาน ผลกระทบต่อโครงสร้างพื้นฐานมีความลึกซึ้ง: คลัสเตอร์การอนุมานสำคัญกว่าคลัสเตอร์การฝึก
การอนุมานกลายเป็นคอขวด: นักวิเคราะห์คาดการณ์ว่าการอนุมานจะเกินความต้องการการประมวลผลการฝึก 118 เท่าภายในปี 2026 ภายในปี 2030 การอนุมานอาจใช้ 75% ของการประมวลผล AI ทั้งหมด ขับเคลื่อนการลงทุนโครงสร้างพื้นฐาน 7 ล้านล้านดอลลาร์4
โมเดลการใช้เหตุผลใช้โทเค็นมากขึ้น: DeepSeek-R1, o1 และ o3-mini สร้าง "โทเค็นมากขึ้นหลายเท่า" กว่าโมเดลที่ไม่ใช้เหตุผล ค่าใช้จ่ายการอนุมานของ OpenAI ในปี 2024 ถึง 2.3 พันล้านดอลลาร์: 15 เท่าของต้นทุนการฝึก GPT-45
ความต้องการโครงสร้างพื้นฐาน GPU พุ่งสูง: Jensen Huang กล่าวว่าโมเดลการใช้เหตุผลรุ่นถัดไปต้องการ "ทรัพยากรการประมวลผลมากขึ้นถึง 100 เท่า"6 ตลาดการอนุมาน AI เติบโตจาก 106 พันล้านดอลลาร์ (2025) เป็น 255 พันล้านดอลลาร์ (2030) ที่ CAGR 19.2%
เวลาแฝงกลับมาสำคัญอีกครั้ง: การใช้เหตุผลแบบขนานของ ThreadWeaver แก้ไขข้อจำกัดที่สำคัญ เวลาแฝงการใช้เหตุผลแบบลำดับเติบโตตามสัดส่วนกับความยาวของห่วงโซ่ สำหรับแอปพลิเคชันแบบเรียลไทม์ ความเร็วการอนุมานกลายเป็นความได้เปรียบในการแข่งขัน
รายละเอียดทางเทคนิค
แนวทาง DeepSeek-R1
DeepSeek-R1-Zero ฝึกการใช้เหตุผลผ่าน RL ล้วนๆ โดยใช้ Group Relative Policy Optimization (GRPO):7
| องค์ประกอบ | รายละเอียด |
|---|---|
| วิธีการฝึก | RL ล้วนๆ ไม่มี supervised fine-tuning |
| อัลกอริทึม | GRPO (การปรับใช้ PPO โดยไม่มี value function) |
| ข้อมูลเชิงลึกหลัก | CoT ที่ขยายออกในการอนุมานสร้างการใช้เหตุผล |
| ประสิทธิภาพ AIME | 15.6% → 71% (86.7% ด้วยการโหวตเสียงข้างมาก) |
| ข้อได้เปรียบด้านต้นทุน | ต้นทุนการอนุมานต่ำกว่า 70% เมื่อเทียบกับโมเดลที่เทียบเคียงได้ |
โดยเฉพาะ DeepSeek จัดประเภทวิธีการอย่าง Process Reward Models และ Monte Carlo Tree Search เป็น "ความพยายามที่ไม่สำเร็จ" อย่างชัดเจน การค้นพบนี้ชี้ให้เห็นว่า RL ล้วนๆ ที่มีการตอบสนองยาวขึ้นทำหน้าที่เป็นการปรับขนาดเวลาอนุมานโดยปริยาย8
การใช้เหตุผลแบบขนานของ ThreadWeaver
ThreadWeaver ช่วยให้เส้นทางการใช้เหตุผลทำงานพร้อมกันแทนที่จะเป็นห่วงโซ่ความคิดแบบลำดับ:9
| นวัตกรรม | คำอธิบาย |
|---|---|
| Parallel Trajectory Generator | สร้างข้อมูล CoT ที่มีคำอธิบายประกอบแบบขนาน |
| Trie-Based Co-Design | ช่วยให้การใช้เหตุผลแบบขนานโดยไม่ต้องแก้ไข position embeddings |
| อัลกอริทึม P-GRPO | เพิ่มประสิทธิภาพความแม่นยำและการลดเวลาแฝงร่วมกัน |
ประสิทธิภาพบน Qwen3-8B base:
| Benchmark | ThreadWeaver | Sequential | ความเร็วเพิ่มขึ้น |
|---|---|---|---|
| AIME24 | 79.9% | 78.3% | 1.14x |
| AMC23 | — | — | 1.16x |
| MATH500 | — | — | 1.23x |
| OlympiadBench | — | — | 1.21x |
| Minerva Math | — | — | 1.53x |
โมเดลฟิสิกส์ P1
P1 รวมการปรับขนาดเวลาฝึกและเวลาทดสอบ:10
เวลาฝึก (RL Post-Training): - กรอบ RL หลายขั้นตอนบนโมเดลภาษาพื้นฐาน - การเพิ่มประสิทธิภาพการใช้เหตุผลแบบก้าวหน้า - แก้ไขปัญหา reward sparsity และ entropy collapse
เวลาทดสอบ (PhysicsMinions Agent): - Visual Studio: การวิเคราะห์ภาพ - Logic Studio: การใช้เหตุผลเชิงตรรกะ - Review Studio: การตรวจสอบคำตอบ - การไตร่ตรองหลายรอบและการแก้ไขตนเอง
ผลลัพธ์ใน IPhO 2025:
| โมเดล | คะแนน | อันดับ |
|---|---|---|
| Gemini-2.5-Pro | 37.7 | — |
| GPT-5 | 37.4 | — |
| P1-235B + PhysicsMinions | 38.4 | อันดับ 1 |
| P1-235B-A22B (standalone) | 21.2/30 | เหรียญทอง |
การคาดการณ์การประมวลผลการอนุมาน
| ตัวชี้วัด | ค่า | แหล่งที่มา |
|---|---|---|
| ตลาดการอนุมาน 2025 | 106 พันล้านดอลลาร์ | MarketsandMarkets |
| ตลาดการอนุมาน 2030 | 255 พันล้านดอลลาร์ | MarketsandMarkets |
| ตลาดชิปการอนุมาน 2027 | 102 พันล้านดอลลาร์ | Reuters |
| สัดส่วนการอนุมานของการประมวลผล AI (2030) | 75% | การวิเคราะห์อุตสาหกรรม |
| ความต้องการการฝึก vs การอนุมาน (2026) | 1:118 | การประมาณการของนักวิเคราะห์ |
| การเติบโตของการประมวลผล AI ทั่วโลก (2025-2027) | 10x | การพยากรณ์ AI 2027 |
ผลกระทบด้านนโยบายและกฎระเบียบ
กฎระเบียบที่มีอยู่ใช้เกณฑ์การประมวลผลการฝึก (เช่น 10^25 FLOPs ของ EU AI Act) อย่างไรก็ตาม การปรับขนาดเวลาอนุมานเปลี่ยนการคำนวณ:11
- โมเดลสามารถบรรลุความสามารถสูงผ่านการประมวลผลการอนุมาน ไม่ใช่แค่การฝึก
- โมเดลที่ฝึกขนาดเล็กกว่าที่มีการใช้เหตุผลเวลาทดสอบอย่างกว้างขวางอาจเกินความสามารถของโมเดลที่อยู่ในเกณฑ์
- ผู้กำหนดนโยบายเสี่ยงที่จะ "ประเมินผลกระทบในโลกจริงของโมเดลต่ำเกินไป" โดยมุ่งเน้นเฉพาะการประมวลผลการฝึก
สิ่งที่จะเกิดขึ้นต่อไป
2026: คาดการณ์ว่าความต้องการการอนุมานจะเกินการฝึก 118 เท่า การวางแผนศูนย์ข้อมูลเปลี่ยนไปสู่สถาปัตยกรรมที่เพิ่มประสิทธิภาพสำหรับการอนุมาน
2027: คาดการณ์ว่าการประมวลผลที่เกี่ยวข้องกับ AI ทั่วโลกจะถึง 100 ล้าน H100-equivalents (เติบโต 10 เท่าจากมีนาคม 2025)12
ต่อเนื่อง: การวิจัยยังคงดำเนินต่อไปในการใช้เหตุผลแบบขนาน (ThreadWeaver) ระบบหลายตัวแทน (PhysicsMinions) และการใช้เหตุผลที่ใช้ RL (DeepSeek, P1)
การเปลี่ยนแปลงโครงสร้างพื้นฐาน: โครงสร้างพื้นฐานการอนุมานที่สร้างเฉพาะ (NVIDIA Blackwell, TPU v5e, Groq LPUs) กลายเป็นหมวดหมู่การประมวลผลหลัก
ประเด็นสำคัญ
สำหรับผู้วางแผนโครงสร้างพื้นฐาน: - คาดการณ์ว่าการอนุมานจะใช้ 75% ของการประมวลผล AI ภายในปี 2030 - โมเดลการใช้เหตุผลใช้โทเค็นมากกว่าโมเดลมาตรฐาน 10-100 เท่า - การเพิ่มประสิทธิภาพเวลาแฝง (ความเป็นคู่ขนานแบบ ThreadWeaver) สร้างความต้องการฮาร์ดแวร์ - วางแผนสำหรับ workload ที่เน้นการอนุมานในการสร้างแบบจำลองความจุ
สำหรับทีมปฏิบัติการ: - NVIDIA Blackwell เพิ่มประสิทธิภาพสำหรับการอนุมานในระดับใหญ่ (1.4 exaFLOPS ต่อ rack) - ตรวจสอบต้นทุนการอนุมาน ซึ่งอาจเกินต้นทุนการฝึก 15 เท่า (ตาม OpenAI 2024) - การปรับแต่งการประมวลผลเวลาทดสอบส่งผลต่อการแลกเปลี่ยนเวลาแฝงและต้นทุน - กรอบตัวแทน (PhysicsMinions) เพิ่มค่าใช้จ่ายการอนุมานหลายรอบ
สำหรับการวางแผนเชิงกลยุทธ์: - อัตราส่วนการประมวลผลการฝึก vs การอนุมานเปลี่ยนแปลงอย่างมาก - โมเดลขนาดเล็ก + การอนุมานหนักสามารถเทียบเท่าโมเดลที่ฝึกขนาดใหญ่กว่า - DeepSeek-R1 แสดงให้เห็นข้อได้เปรียบด้านต้นทุน 70% ผ่านประสิทธิภาพ - กรอบนโยบายอาจขยายเกินเกณฑ์การประมวลผลการฝึก
เอกสารอ้างอิง
สำหรับโครงสร้างพื้นฐาน GPU ที่รองรับ AI workload ที่เน้นการอนุมาน ติดต่อ Introl
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩