टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

नई आर्किटेक्चर AI मॉडल को टोकन जेनरेट करने के बजाय लेटेंट स्पेस में रीज़न करने देती है।

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

चेन-ऑफ-थॉट रीज़निंग ने टेस्ट-टाइम स्केलिंग पैराडाइम पर हावी है: मॉडल दिखाई देने वाले रीज़निंग टोकन जेनरेट करते हैं, "जोर से सोचते हैं"।[^1] एक नया पेपर इस धारणा को पूरी तरह चुनौती देता है। लेटेंट स्पेस में एक रिकरेंट ब्लॉक को इटरेट करके, शोधकर्ता दिखाते हैं कि 3.5 अरब पैरामीटर मॉडल 50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^2]

TL;DR

पेपर एक आर्किटेक्चर पेश करता है जो अतिरिक्त टोकन उत्पन्न किए बिना इनफरेंस समय पर मनमानी गहराई तक अनरोल होता है।[^3]

टोकन जेनरेशन समस्या

कॉन्टेक्स्ट विंडो खपत: प्रत्येक रीज़निंग टोकन कॉन्टेक्स्ट स्पेस लेता है।[^9]

लेटेंसी स्केलिंग: टोकन जेनरेशन मूल रूप से अनुक्रमिक रहता है।[^10]

लेटेंट रीज़निंग कैसे काम करती है

रिकरेंट ब्लॉक

इनपुट → लेयर 1-N → रिकरेंट ब्लॉक ↺ → लेयर N+1-M → आउटपुट
                       ↑___________|
                       (K बार इटरेट)

बेंचमार्क प्रदर्शन

अधिकतम अनरोलिंग पर, 3.5B मॉडल ~50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^26]

मुख्य बिंदु

टोकन आवश्यक नहीं: रीज़निंग पूरी तरह से हिडन रिप्रेजेंटेशन स्पेस में हो सकती है
बड़े पैमाने पर प्रभावी विस्तार: रिकरेंट डेप्थ के माध्यम से 3.5B → 50B समकक्ष
ट्रेनिंग सरलता: मानक भाषा मॉडलिंग, कोई विशेष डेटा नहीं

टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

TL;DR

टोकन जेनरेशन समस्या

लेटेंट रीज़निंग कैसे काम करती है

रिकरेंट ब्लॉक

बेंचमार्क प्रदर्शन

मुख्य बिंदु

You Might Also Like

सिंगापुर का $27 बिलियन AI इन्फ्रास्ट्रक्चर बूम: डेटा सेंटर ड...

मलेशिया और थाईलैंड: दक्षिण पूर्व एशिया में उभरते AI डेटा सें...

AI के लिए Backup और Recovery: Petabyte-Scale Training Data क...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_