คิดโดยไม่ต้องใช้ Token: การใช้เหตุผลแบบแฝงทำให้โมเดล 3.5B ทำงานเหมือน 50B ได้อย่างไร
การใช้เหตุผลแบบ chain-of-thought ครองตลาด test-time scaling: โมเดลสร้าง token การใช้เหตุผลที่มองเห็นได้ "คิดออกเสียง"[^1] บทความใหม่ท้าทายสมมติฐานนี้อย่างสิ้นเชิง โดยการวนซ้ำ recurrent block ในพื้นที่แฝง นักวิจัยแสดงให้เห็นว่าโมเดล 3.5 พันล้านพารามิเตอร์บรรลุประสิทธิภาพเทียบเท่า 50 พันล้านพารามิเตอร์[^2]
TL;DR
บทความแนะนำสถาปัตยกรรมที่คลี่ออกไปยังความลึกที่กำหนดเองในเวลาอนุมานโดยไม่สร้าง token เพิ่มเติม[^3]
ปัญหาการสร้าง Token
การใช้หน้าต่างบริบท: token การใช้เหตุผลแต่ละตัวใช้พื้นที่บริบท[^9]
การปรับขนาดความหน่วง: การสร้าง token ยังคงเป็นลำดับโดยพื้นฐาน[^10]
การใช้เหตุผลแบบแฝงทำงานอย่างไร
Recurrent Block
อินพุต → ชั้น 1-N → Recurrent Block ↺ → ชั้น N+1-M → เอาต์พุต
↑___________|
(วนซ้ำ K ครั้ง)
ประสิทธิภาพ Benchmark
ที่การคลี่สูงสุด โมเดล 3.5B บรรลุประสิทธิภาพเทียบเท่า ~50 พันล้านพารามิเตอร์[^26]
ประเด็นสำคัญ
- ไม่ต้องการ Token: การใช้เหตุผลสามารถเกิดขึ้นทั้งหมดในพื้นที่การแสดงแบบซ่อน
- การขยายที่มีประสิทธิภาพขนาดใหญ่: 3.5B → 50B เทียบเท่าผ่านความลึกแบบเรียกซ้ำ
- ความเรียบง่ายในการฝึก: การสร้างแบบจำลองภาษามาตรฐาน ไม่ต้องการข้อมูลเฉพาะทาง