DeepSeek mHC: वह आर्किटेक्चर समाधान जो ट्रिलियन-पैरामीटर AI मॉडल्स को संभव बना सकता है
3000x का सिग्नल एम्प्लीफिकेशन ने ट्रेनिंग के दौरान एक 27-बिलियन-पैरामीटर मॉडल को नष्ट कर दिया।[^1] DeepSeek के शोधकर्ताओं ने देखा कि अनियंत्रित Hyper-Connections ने विनाशकारी डाइवर्जेंस पैदा की, जिसमें ग्रेडिएंट्स रिकवरी की किसी भी संभावना से परे चले गए। उन्होंने जो समाधान विकसित किया वह इंडस्ट्री के फाउंडेशन मॉडल बनाने के तरीके को नया रूप दे सकता है।
संक्षेप में
DeepSeek ने 31 दिसंबर, 2025 को एक तकनीकी पेपर प्रकाशित किया जिसमें Manifold-Constrained Hyper-Connections (mHC) पेश किया गया, एक फ्रेमवर्क जो Sinkhorn-Knopp एल्गोरिदम का उपयोग करके न्यूरल नेटवर्क कनेक्शन मैट्रिसेस को एक गणितीय मैनिफोल्ड पर प्रोजेक्ट करता है।[^2] यह दृष्टिकोण उस ट्रेनिंग अस्थिरता को हल करता है जो पिछले Hyper-Connection आर्किटेक्चर्स को परेशान करती थी, अनियंत्रित तरीकों के 3000x की तुलना में सिग्नल एम्प्लीफिकेशन को 1.6x तक नियंत्रित करता है।[^3] 3B, 9B, और 27B पैरामीटर मॉडल्स पर परीक्षण में BIG-Bench Hard रीज़निंग बेंचमार्क पर 2.1% सुधार दिखा, केवल 6.7% अतिरिक्त ट्रेनिंग ओवरहेड के साथ।[^4] CEO Liang Wenfeng ने पेपर का सह-लेखन किया, जो संकेत देता है कि mHC संभवतः DeepSeek के अगले फ्लैगशिप मॉडल में दिखाई देगा।
Residual Connection की समस्या
आज का हर प्रमुख लैंग्वेज मॉडल residual connections पर निर्भर करता है, 2015 में ResNet के साथ पेश की गई एक तकनीक जिसने डीप लर्निंग को मौलिक रूप से बदल दिया।[^5] अवधारणा सरल लगती है: इनपुट को सीधे आउटपुट में जोड़कर जानकारी को लेयर्स को बायपास करने की अनुमति देना, "skip connections" बनाना जो ट्रेनिंग के दौरान ग्रेडिएंट्स को अधिक आसानी से प्रवाहित होने देते हैं।[^6]
Kaiming He के मूल ResNet पेपर ने प्रदर्शित किया कि residual connections ने "degradation problem" को हल किया जो डीप नेटवर्क्स को परेशान करती थी।[^7] Skip connections के बिना, नेटवर्क में अधिक लेयर्स जोड़ने से विरोधाभासी रूप से ट्रेनिंग एरर बढ़ जाती थी। 19 लेयर्स वाला VGGNet कुछ कार्यों पर 8 लेयर्स वाले AlexNet से खराब प्रदर्शन करता था, अधिक क्षमता होने के बावजूद।[^8]
Residual connections ने सैकड़ों लेयर्स वाले नेटवर्क्स की ट्रेनिंग को सक्षम बनाया। यह तकनीक इतनी मौलिक साबित हुई कि सभी transformer आर्किटेक्चर्स residual connections को शामिल करते हैं।[^9] GPT, BERT, Claude, और हर अन्य बड़ा लैंग्वेज मॉडल काम करने के लिए skip connections पर निर्भर करता है।[^10]
सीमा
मानक residual connection 1.0 के निश्चित वेट के साथ इनपुट को सीधे आउटपुट में जोड़ता है। यह बाधा स्थिर ट्रेनिंग सुनिश्चित करती है लेकिन अभिव्यक्तता को सीमित करती है। नेटवर्क यह नहीं सीख सकता कि कुछ लेयर्स को दूसरों की तुलना में अधिक योगदान देना चाहिए या गैर-आसन्न लेयर्स के बीच कनेक्शन प्रदर्शन में सुधार कर सकते हैं।[^11]
| आर्किटेक्चर | वर्ष | Residual प्रकार | Connection वेट |
|---|---|---|---|
| ResNet | 2015 | Fixed skip | 1.0 (स्थिर)[^12] |
| Highway Network | 2015 | Gated skip | सीखा हुआ गेट (0-1)[^13] |
| DenseNet | 2016 | All-to-all | समान योगदान[^14] |
| Transformer | 2017 | Fixed skip | 1.0 (स्थिर)[^15] |
| Hyper-Connections | 2024 | Variable width | सीखी हुई मैट्रिसेस[^16] |
शोधकर्ताओं ने विभिन्न संशोधनों का प्रयास किया। Highway networks ने सूचना प्रवाह को नियंत्रित करने के लिए सीखने योग्य गेट्स जोड़े।[^17] DenseNet ने हर लेयर को हर बाद की लेयर से जोड़ा।[^18] इन दृष्टिकोणों ने प्रदर्शन में सुधार किया लेकिन स्केल पर कम्प्यूटेशनल ओवरहेड या ट्रेनिंग चुनौतियां पेश कीं।[^19]
Hyper-Connections: असफल क्रांति
Hyper-Connections (HC), 2024 में पेश किया गया, residual connections को पूरी तरह से सीखने योग्य बनाने का एक महत्वाकांक्षी प्रयास था।[^20] 1.0 वेट के साथ निश्चित skip connections के बजाय, HC ने न्यूरल नेटवर्क्स को वेट मैट्रिसेस के माध्यम से लेयर्स के बीच मनमाने कनेक्शन स्ट्रेंथ सीखने की अनुमति दी।[^21]
सिद्धांत आशाजनक था। यदि नेटवर्क इष्टतम कनेक्शन पैटर्न सीख सकते हैं, तो वे ऐसे आर्किटेक्चर खोज सकते हैं जो मनुष्य कभी मैन्युअल रूप से डिज़ाइन नहीं करेंगे।[^22] प्रारंभिक प्रयोगों ने छोटे मॉडल्स पर पर्याप्त प्रदर्शन लाभ दिखाया।[^23]
समस्या स्केल पर उभरी।
विनाशकारी अस्थिरता
जब DeepSeek शोधकर्ताओं ने अनियंत्रित Hyper-Connections के साथ 27-बिलियन-पैरामीटर मॉडल को ट्रेन करने का प्रयास किया, तो सिग्नल एम्प्लीफिकेशन 3000x से अधिक हो गया।[^24] नेटवर्क के आंतरिक रिप्रेजेंटेशन्स परिमाण में विस्फोट कर गए, जिससे ग्रेडिएंट्स अनंत हो गए और ट्रेनिंग पूरी तरह से ध्वस्त हो गई।[^25]
गणितीय व्याख्या eigenvalues पर केंद्रित है। जब मनमानी मैट्रिसेस सैकड़ों लेयर्स में एक साथ गुणा होती हैं, तो 1.0 से अधिक कोई भी eigenvalue एक्सपोनेंशियल वृद्धि का कारण बनता है।[^26] अनियंत्रित कनेक्शन मैट्रिसेस वाले 27B पैरामीटर मॉडल में, सभी eigenvalues के 1.0 से नीचे रहने की संभावना शून्य के करीब पहुंचती है।[^27]
| मॉडल साइज़ | HC सिग्नल गेन | ट्रेनिंग परिणाम |
|---|---|---|
| 3B पैरामीटर्स | ~50x | घटे हुए प्रदर्शन के साथ पूर्ण[^28] |
| 9B पैरामीटर्स | ~300x | महत्वपूर्ण अस्थिरता के साथ पूर्ण[^29] |
| 27B पैरामीटर्स | ~3000x | विनाशकारी डाइवर्जेंस[^30] |
Identity mapping प्रॉपर्टी जिसने residual connections को काम कराया था, नष्ट हो गई थी।[^31] मानक residual connections इनपुट को आउटपुट में जोड़कर सिग्नल मैग्नीट्यूड को संरक्षित करते हैं। Hyper-Connections की मनमानी मैट्रिसेस ने इस गारंटी को तोड़ दिया, और बड़े मॉडल्स ने समस्या को एक्सपोनेंशियली बढ़ा दिया।[^32]
mHC समाधान
DeepSeek का Manifold-Constrained Hyper-Connections फ्रेमवर्क कनेक्शन मैट्रिसेस को एक विशिष्ट गणितीय संरचना में बाधित करके अस्थिरता को संबोधित करता है।[^33] मनमानी सीखी हुई मैट्रिसेस की अनुमति देने के बजाय, mHC कनेक्शन्स को Birkhoff Polytope, doubly stochastic matrices के स्पेस, पर प्रोजेक्ट करता है।[^34]
एक doubly stochastic matrix में पंक्तियां और कॉलम प्रत्येक 1.0 का योग होते हैं।[^35] यह बाधा गारंटी देती है कि जैसे-जैसे जानकारी नेटवर्क से गुजरती है, सिग्नल मैग्नीट्यूड बढ़ या घट नहीं सकता।[^36] Identity mapping प्रॉपर्टी वापस आती है, लेकिन इस बारे में सीखी हुई लचीलेपन के साथ कि जानकारी लेयर्स के बीच कैसे रूट होती है।[^37]
Sinkhorn-Knopp एल्गोरिदम
मनमानी मैट्रिसेस को doubly stochastic फॉर्म में परिवर्तित करने के लिए Sinkhorn-Knopp एल्गोरिदम की आवश्यकता होती है, 1967 में मैट्रिक्स नॉर्मलाइज़ेशन के लिए विकसित एक इटरेटिव प्रक्रिया।[^38] एल्गोरिदम कन्वर्जेंस तक पंक्तियों को नॉर्मलाइज़ करने और कॉलम को नॉर्मलाइज़ करने के बीच बदलता रहता है।[^39]
Input: Non-negative matrix A
Repeat:
1. Normalize each row to sum to 1
2. Normalize each column to sum to 1
Until convergence
Output: Doubly stochastic matrix
DeepSeek का इम्प्लीमेंटेशन Sinkhorn-Knopp नॉर्मलाइज़ेशन के 20 इटरेशन का उपयोग करता है, जो प्रयोगात्मक परिणामों ने दिखाया कि अत्यधिक कम्प्यूटेशन के बिना पर्याप्त सटीकता प्रदान करता है।[^40] एल्गोरिदम ट्रेनिंग लूप में इंटीग्रेट होता है, प्रत्येक स्टेप पर सीखे हुए कनेक्शन वेट्स को Birkhoff Polytope पर प्रोजेक्ट करता है।[^41]
इंफ्रास्ट्रक्चर ऑप्टिमाइज़ेशन
कच्चा Sinkhorn-Knopp नॉर्मलाइज़ेशन ट्रेनिंग में अस्वीकार्य ओवरहेड जोड़ेगा। DeepSeek इंजीनियरों ने mHC को स्केल पर व्यावहारिक बनाने के लिए कई ऑप्टिमाइज़ेशन विकसित किए।[^42]
Kernel Fusion: मल्टीपल नॉर्मलाइज़ेशन ऑपरेशन सिंगल GPU kernel कॉल्स में मर्ज होते हैं, ऑपरेशन्स के बीच मेमोरी ट्रांसफर ओवरहेड को समाप्त करते हैं।[^43]
Mixed Precision: TileLang-आधारित kernels मैट्रिक्स ऑपरेशन्स के लिए कुशल FP8 कम्प्यूटेशन सक्षम करते हैं जबकि न्यूमेरिकली सेंसिटिव नॉर्मलाइज़ेशन स्टेप्स के लिए FP32 प्रिसिज़न बनाए रखते हैं।[^44]
Selective Recomputation: सभी इंटरमीडिएट वैल्यूज़ स्टोर करने के बजाय, सिस्टम backward pass के दौरान कुछ tensors को रीकम्प्यूट करता है, मेमोरी के लिए कम्प्यूट का ट्रेड करता है।[^45]
DualPipe Communication Overlap: मल्टी-GPU ट्रेनिंग Sinkhorn-Knopp कम्प्यूटेशन को इंटर-डिवाइस कम्युनिकेशन के साथ ओवरलैप करती है, नॉर्मलाइज़ेशन लेटेंसी को छुपाती है।[^46]
| ऑप्टिमाइज़ेशन | ओवरहेड कमी |
|---|---|
| Kernel fusion | ~40% लेटेंसी कमी[^47] |
| Mixed precision | ~30% मेमोरी कमी[^48] |
| Selective recompute | ~25% मेमोरी कमी[^49] |
| Communication overlap | ~50% छुपी हुई लेटेंसी[^50] |
संयुक्त ऑप्टिमाइज़ेशन mHC के ट्रेनिंग ओवरहेड को बेसलाइन से 6.7% ऊपर कम कर देते हैं, जिससे तकनीक प्रोडक्शन-स्केल ट्रेनिंग के लिए व्यवहार्य हो जाती है।[^51]
प्रयोगात्मक परिणाम
DeepSeek ने तीन मॉडल स्केल्स: 3B, 9B, और 27B पैरामीटर्स पर बेसलाइन आर्किटेक्चर्स और अनियंत्रित Hyper-Connections के खिलाफ mHC का परीक्षण किया।[^52] सभी मॉडल्स ने DeepSeek-V3 आर्किटेक्चर को फाउंडेशन के रूप में उपयोग किया, जिसमें Multi-Head Latent Attention (MLA) और Mixture-of-Experts (MoE) कंपोनेंट्स शामिल थे।[^53]
ट्रेनिंग स्थिरता
सबसे नाटकीय सुधार ट्रेनिंग स्थिरता मेट्रिक्स में दिखाई दिया। सिग्नल गेन मापन ट्रैक करते हैं कि जैसे-जैसे जानकारी नेटवर्क से गुजरती है, आंतरिक रिप्रेजेंटेशन्स कितना बढ़ते हैं।[^54]
| मॉडल | Baseline | HC | mHC |
|---|---|---|---|
| 3B सिग्नल गेन | 1.2x | 48x | 1.5x[^55] |
| 9B सिग्नल गेन | 1.3x | 287x | 1.6x[^56] |
| 27B सिग्नल गेन | 1.4x | 3012x | 1.6x[^57] |
mHC-ट्रेंड मॉडल्स ने मॉडल साइज़ की परवाह किए बिना 1.0x के सैद्धांतिक आदर्श के पास सिग्नल गेन बनाए रखा।[^58] अनियंत्रित Hyper-Connections ने स्केल के साथ एक्सपोनेंशियली बढ़ती अस्थिरता दिखाई, जबकि mHC ने 3B से 27B पैरामीटर्स तक सुसंगत व्यवहार प्रदर्शित किया।[^59]
बेंचमार्क प्रदर्शन
रीज़निंग-फोकस्ड बेंचमार्क्स पर प्रदर्शन सुधार दिखाई दिए जहां आर्किटेक्चरल एडवांसेस आमतौर पर सबसे बड़े लाभ दिखाते हैं।[^60]
| बेंचमार्क | Baseline | mHC | सुधार |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43.8% | 51.0% | +7.2 अंक[^61] |
| DROP | 78.2% | 81.4% | +3.2 अंक[^62] |
| GSM8K | 82.1% | 84.9% | +2.8 अंक[^63] |
| MMLU | 79.4% | 80.8% | +1.4 अंक[^64] |
सबसे बड़ा सुधार BIG-Bench Hard पर दिखाई दिया, एक बेंचमार्क जो विशेष रूप से जटिल, मल्टी-स्टेप रीज़निंग का परीक्षण करने के लिए डिज़ाइन किया गया है।[^65] DROP, जिसके लिए लंबे पैसेज पर न्यूमेरिकल रीज़निंग की आवश्यकता होती है, ने दूसरा सबसे बड़ा लाभ दिखाया।[^66] GSM8K गणितीय रीज़निंग और MMLU सामान्य ज्ञान बेंचमार्क्स ने छोटे लेकिन सुसंगत सुधार प्रदर्शित किए।[^67]
ट्रेनिंग एफिशिएंसी
अतिरिक्त Sinkhorn-Knopp कम्प्यूटेशन्स के बावजूद, mHC ने कुल ट्रेनिंग समय में केवल 6.7% ओवरहेड जोड़ा।[^68] ओवरहेड मॉडल स्केल्स में स्थिर रहा, जो सुझाव देता है कि तकनीक और भी बड़े मॉडल्स के लिए कुशलता से स्केल करती है।[^69]
| मॉडल साइज़ | ट्रेनिंग समय (Baseline) | ट्रेनिंग समय (mHC) | ओवरहेड |
|---|---|---|---|
| 3B | 100 घंटे | 106.5 घंटे | 6.5%[^70] |
| 9B | 280 घंटे | 298.8 घंटे | 6.7%[^71] |
| 27B | 840 घंटे | 896.3 घंटे | 6.7%[^72] |
लॉस कर्व्स ने दिखाया कि mHC बेसलाइन और HC दोनों दृष्टिकोणों की तुलना में कम फाइनल लॉस प्राप्त कर रहा है।[^73] mHC 27B मॉडल ने बेसलाइन से 0.021 कम फाइनल लॉस प्राप्त किया, जो सीधे देखे गए बेंचमार्क सुधारों में परिवर्तित होता है।[^74]
फाउंडेशन मॉडल डेवलपमेंट के लिए निहितार्थ
DeepSeek CEO Liang Wenfeng ने mHC पेपर का सह-लेखन किया, एक संकेत कि तकनीक संभवतः कंपनी के अगले फ्लैगशिप मॉडल में दिखाई देगी।[^75] विश्लेषकों को उम्मीद है कि DeepSeek R2 या V4 में mHC आर्किटेक्चर शामिल होगा, संभावित रूप से फरवरी 2026 में चीनी नव वर्ष के दौरान लॉन्च होगा।[^76]
व्यापक निहितार्थ DeepSeek से परे फैले हुए हैं। mHC एक मौलिक बाधा को संबोधित करता है जिसने बड़े लैंग्वेज मॉडल्स में आर्किटेक्चरल इनोवेशन को सीमित किया था। पिछले एक दशक में, शोधकर्ताओं ने बड़े पैमाने पर residual connections को संशोधित करने से बचा है क्योंकि कोई भी बदलाव जिसने identity mapping को तोड़ा, स्केल पर ट्रेनिंग अस्थिरता का कारण बना।[^77]
आर्किटेक्चरल इनोवेशन को अनलॉक करना
mHC प्रदर्शित करता है कि सीखने योग्य कनेक्शन पैटर्न उचित रूप से बाधित होने पर स्केल पर काम कर सकते हैं।[^78] Birkhoff Polytope प्रोजेक्शन उन गणितीय प्रॉपर्टीज़ को बनाए रखता है जो ट्रेनिंग को स्थिर बनाती हैं जबकि नेटवर्क्स को इष्टतम इंफॉर्मेशन रूटिंग पैटर्न खोजने की अनुमति देती हैं।[^79]
mHC द्वारा खोले गए भविष्य के शोध दिशाओं में शामिल हैं:
लेयर-विशिष्ट कनेक्शन स्ट्रेंथ: मॉडल्स सीख सकते हैं कि शुरुआती लेयर्स को मजबूत skip connections से लाभ होता है जबकि गहरी लेयर्स को अलग रूटिंग पैटर्न की आवश्यकता होती है।[^80]
डायनामिक कनेक्शन्स: कनेक्शन पैटर्न इनपुट कंटेंट के आधार पर भिन्न हो सकते हैं, विभिन्न प्रकार की जानकारी को विभिन्न पथों के माध्यम से रूट करते हैं।[^81]
Cross-attention संशोधन: mHC फ्रेमवर्क attention mechanisms तक विस्तारित हो सकता है, संभावित रूप से सुधार करते हुए कि मॉडल्स sequence positions में जानकारी को कैसे संयोजित करते हैं।[^82]
ट्रेनिंग लागत निहितार्थ
DeepSeek ने ट्रेनिंग का एक ट्रैक रिकॉर्ड स्थापित किया है
[अनुवाद के लिए सामग्री काटी गई]