التفكير بدون Tokens: كيف يجعل الاستدلال الكامن نموذج 3.5B يؤدي مثل 50B
سيطر استدلال سلسلة-التفكير على نموذج توسيع وقت الاختبار: تولد النماذج tokens استدلال مرئية، "تفكر بصوت عالٍ" قبل إنتاج الإجابات.[^1] ورقة جديدة تتحدى هذا الافتراض بالكامل. من خلال تكرار كتلة متكررة في الفضاء الكامن، يثبت الباحثون أن نموذج 3.5 مليار معامل يحقق أداءً مكافئاً لـ 50 مليار معامل.[^2]
ملخص
تقدم الورقة بنية تتكشف إلى عمق تعسفي في وقت الاستدلال دون إنتاج tokens إضافية.[^3] تعالج الكتلة المتكررة الحالات المخفية بشكل تكراري.[^4]
مشكلة توليد Token
استهلاك نافذة السياق: كل token استدلال يشغل مساحة سياق.[^9]
توسيع زمن الانتقال: توليد tokens يظل تسلسليًا بشكل أساسي.[^10]
كيف يعمل الاستدلال الكامن
الكتلة المتكررة
إدخال → طبقات 1-N → كتلة متكررة ↺ → طبقات N+1-M → إخراج
↑___________|
(تكرار K مرات)
أداء المعايير
عند التكشف الأقصى، يحقق نموذج 3.5B أداءً مكافئاً لحوالي 50 مليار معامل.[^26]
مقارنة مع الاستدلال القائم على Token
| البُعد | سلسلة-التفكير | الاستدلال الكامن |
|---|---|---|
| توسيع الحساب | توليد token | تكرارات متكررة |
| استخدام السياق | يستهلك السياق | محايد للسياق |
| قابلية التفسير | استدلال مرئي | غامض |
النقاط الرئيسية
- لا حاجة لـ Tokens: الاستدلال يمكن أن يحدث بالكامل في فضاء التمثيل المخفي
- توسع فعال هائل: 3.5B → 50B مكافئ عبر العمق المتكرر
- بساطة التدريب: نمذجة لغة قياسية، لا بيانات متخصصة
- استدلال مرن: مقايضة حساب-أداء قابلة للتحكم عند النشر