टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है
चेन-ऑफ-थॉट रीज़निंग ने टेस्ट-टाइम स्केलिंग पैराडाइम पर हावी है: मॉडल दिखाई देने वाले रीज़निंग टोकन जेनरेट करते हैं, "जोर से सोचते हैं"।[^1] एक नया पेपर इस धारणा को पूरी तरह चुनौती देता है। लेटेंट स्पेस में एक रिकरेंट ब्लॉक को इटरेट करके, शोधकर्ता दिखाते हैं कि 3.5 अरब पैरामीटर मॉडल 50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^2]
TL;DR
पेपर एक आर्किटेक्चर पेश करता है जो अतिरिक्त टोकन उत्पन्न किए बिना इनफरेंस समय पर मनमानी गहराई तक अनरोल होता है।[^3]
टोकन जेनरेशन समस्या
कॉन्टेक्स्ट विंडो खपत: प्रत्येक रीज़निंग टोकन कॉन्टेक्स्ट स्पेस लेता है।[^9]
लेटेंसी स्केलिंग: टोकन जेनरेशन मूल रूप से अनुक्रमिक रहता है।[^10]
लेटेंट रीज़निंग कैसे काम करती है
रिकरेंट ब्लॉक
इनपुट → लेयर 1-N → रिकरेंट ब्लॉक ↺ → लेयर N+1-M → आउटपुट
↑___________|
(K बार इटरेट)
बेंचमार्क प्रदर्शन
अधिकतम अनरोलिंग पर, 3.5B मॉडल ~50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^26]
मुख्य बिंदु
- टोकन आवश्यक नहीं: रीज़निंग पूरी तरह से हिडन रिप्रेजेंटेशन स्पेस में हो सकती है
- बड़े पैमाने पर प्रभावी विस्तार: रिकरेंट डेप्थ के माध्यम से 3.5B → 50B समकक्ष
- ट्रेनिंग सरलता: मानक भाषा मॉडलिंग, कोई विशेष डेटा नहीं