คิดโดยไม่ต้องใช้ Token: การใช้เหตุผลแบบแฝงทำให้โมเดล 3.5B ทำงานเหมือน 50B ได้อย่างไร

สถาปัตยกรรมใหม่ช่วยให้โมเดล AI ใช้เหตุผลในพื้นที่แฝงแทนการสร้าง token

คิดโดยไม่ต้องใช้ Token: การใช้เหตุผลแบบแฝงทำให้โมเดล 3.5B ทำงานเหมือน 50B ได้อย่างไร

คิดโดยไม่ต้องใช้ Token: การใช้เหตุผลแบบแฝงทำให้โมเดล 3.5B ทำงานเหมือน 50B ได้อย่างไร

การใช้เหตุผลแบบ chain-of-thought ครองตลาด test-time scaling: โมเดลสร้าง token การใช้เหตุผลที่มองเห็นได้ "คิดออกเสียง"[^1] บทความใหม่ท้าทายสมมติฐานนี้อย่างสิ้นเชิง โดยการวนซ้ำ recurrent block ในพื้นที่แฝง นักวิจัยแสดงให้เห็นว่าโมเดล 3.5 พันล้านพารามิเตอร์บรรลุประสิทธิภาพเทียบเท่า 50 พันล้านพารามิเตอร์[^2]

TL;DR

บทความแนะนำสถาปัตยกรรมที่คลี่ออกไปยังความลึกที่กำหนดเองในเวลาอนุมานโดยไม่สร้าง token เพิ่มเติม[^3]

ปัญหาการสร้าง Token

การใช้หน้าต่างบริบท: token การใช้เหตุผลแต่ละตัวใช้พื้นที่บริบท[^9]

การปรับขนาดความหน่วง: การสร้าง token ยังคงเป็นลำดับโดยพื้นฐาน[^10]

การใช้เหตุผลแบบแฝงทำงานอย่างไร

Recurrent Block

อินพุต → ชั้น 1-N → Recurrent Block ↺ → ชั้น N+1-M → เอาต์พุต
                        ↑___________|
                        (วนซ้ำ K ครั้ง)

ประสิทธิภาพ Benchmark

ที่การคลี่สูงสุด โมเดล 3.5B บรรลุประสิทธิภาพเทียบเท่า ~50 พันล้านพารามิเตอร์[^26]

ประเด็นสำคัญ

  1. ไม่ต้องการ Token: การใช้เหตุผลสามารถเกิดขึ้นทั้งหมดในพื้นที่การแสดงแบบซ่อน
  2. การขยายที่มีประสิทธิภาพขนาดใหญ่: 3.5B → 50B เทียบเท่าผ่านความลึกแบบเรียกซ้ำ
  3. ความเรียบง่ายในการฝึก: การสร้างแบบจำลองภาษามาตรฐาน ไม่ต้องการข้อมูลเฉพาะทาง

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING