टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

नई आर्किटेक्चर AI मॉडल को टोकन जेनरेट करने के बजाय लेटेंट स्पेस में रीज़न करने देती है।

टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

टोकन के बिना सोचना: कैसे लेटेंट रीज़निंग 3.5B मॉडल को 50B की तरह प्रदर्शन कराती है

चेन-ऑफ-थॉट रीज़निंग ने टेस्ट-टाइम स्केलिंग पैराडाइम पर हावी है: मॉडल दिखाई देने वाले रीज़निंग टोकन जेनरेट करते हैं, "जोर से सोचते हैं"।[^1] एक नया पेपर इस धारणा को पूरी तरह चुनौती देता है। लेटेंट स्पेस में एक रिकरेंट ब्लॉक को इटरेट करके, शोधकर्ता दिखाते हैं कि 3.5 अरब पैरामीटर मॉडल 50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^2]

TL;DR

पेपर एक आर्किटेक्चर पेश करता है जो अतिरिक्त टोकन उत्पन्न किए बिना इनफरेंस समय पर मनमानी गहराई तक अनरोल होता है।[^3]

टोकन जेनरेशन समस्या

कॉन्टेक्स्ट विंडो खपत: प्रत्येक रीज़निंग टोकन कॉन्टेक्स्ट स्पेस लेता है।[^9]

लेटेंसी स्केलिंग: टोकन जेनरेशन मूल रूप से अनुक्रमिक रहता है।[^10]

लेटेंट रीज़निंग कैसे काम करती है

रिकरेंट ब्लॉक

इनपुट → लेयर 1-N → रिकरेंट ब्लॉक ↺ → लेयर N+1-M → आउटपुट
                       ↑___________|
                       (K बार इटरेट)

बेंचमार्क प्रदर्शन

अधिकतम अनरोलिंग पर, 3.5B मॉडल ~50 अरब पैरामीटर के बराबर प्रदर्शन प्राप्त करता है।[^26]

मुख्य बिंदु

  1. टोकन आवश्यक नहीं: रीज़निंग पूरी तरह से हिडन रिप्रेजेंटेशन स्पेस में हो सकती है
  2. बड़े पैमाने पर प्रभावी विस्तार: रिकरेंट डेप्थ के माध्यम से 3.5B → 50B समकक्ष
  3. ट्रेनिंग सरलता: मानक भाषा मॉडलिंग, कोई विशेष डेटा नहीं

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING