DeepSeek mHC: वह आर्किटेक्चर समाधान जो ट्रिलियन-पैरामीटर AI मॉडल्स को संभव बना सकता है

DeepSeek के नए Manifold-Constrained Hyper-Connections फ्रेमवर्क ने एक दशक पुरानी स्केलिंग समस्या को हल कर दिया है, जो केवल 6.7% अतिरिक्त ओवरहेड के साथ 27B+ पैरामीटर मॉडल्स की स्थिर ट्रेनिंग को सक्षम बनाता है।

Blake Crosley

Jan 03, 2026 9 min read Disclaimer

DeepSeek mHC: वह आर्किटेक्चर समाधान जो ट्रिलियन-पैरामीटर AI मॉडल्स को संभव बना सकता है

3000x का सिग्नल एम्प्लीफिकेशन ने ट्रेनिंग के दौरान एक 27-बिलियन-पैरामीटर मॉडल को नष्ट कर दिया।[^1] DeepSeek के शोधकर्ताओं ने देखा कि अनियंत्रित Hyper-Connections ने विनाशकारी डाइवर्जेंस पैदा की, जिसमें ग्रेडिएंट्स रिकवरी की किसी भी संभावना से परे चले गए। उन्होंने जो समाधान विकसित किया वह इंडस्ट्री के फाउंडेशन मॉडल बनाने के तरीके को नया रूप दे सकता है।

संक्षेप में

DeepSeek ने 31 दिसंबर, 2025 को एक तकनीकी पेपर प्रकाशित किया जिसमें Manifold-Constrained Hyper-Connections (mHC) पेश किया गया, एक फ्रेमवर्क जो Sinkhorn-Knopp एल्गोरिदम का उपयोग करके न्यूरल नेटवर्क कनेक्शन मैट्रिसेस को एक गणितीय मैनिफोल्ड पर प्रोजेक्ट करता है।[^2] यह दृष्टिकोण उस ट्रेनिंग अस्थिरता को हल करता है जो पिछले Hyper-Connection आर्किटेक्चर्स को परेशान करती थी, अनियंत्रित तरीकों के 3000x की तुलना में सिग्नल एम्प्लीफिकेशन को 1.6x तक नियंत्रित करता है।[^3] 3B, 9B, और 27B पैरामीटर मॉडल्स पर परीक्षण में BIG-Bench Hard रीज़निंग बेंचमार्क पर 2.1% सुधार दिखा, केवल 6.7% अतिरिक्त ट्रेनिंग ओवरहेड के साथ।[^4] CEO Liang Wenfeng ने पेपर का सह-लेखन किया, जो संकेत देता है कि mHC संभवतः DeepSeek के अगले फ्लैगशिप मॉडल में दिखाई देगा।

Residual Connection की समस्या

आज का हर प्रमुख लैंग्वेज मॉडल residual connections पर निर्भर करता है, 2015 में ResNet के साथ पेश की गई एक तकनीक जिसने डीप लर्निंग को मौलिक रूप से बदल दिया।[^5] अवधारणा सरल लगती है: इनपुट को सीधे आउटपुट में जोड़कर जानकारी को लेयर्स को बायपास करने की अनुमति देना, "skip connections" बनाना जो ट्रेनिंग के दौरान ग्रेडिएंट्स को अधिक आसानी से प्रवाहित होने देते हैं।[^6]

Kaiming He के मूल ResNet पेपर ने प्रदर्शित किया कि residual connections ने "degradation problem" को हल किया जो डीप नेटवर्क्स को परेशान करती थी।[^7] Skip connections के बिना, नेटवर्क में अधिक लेयर्स जोड़ने से विरोधाभासी रूप से ट्रेनिंग एरर बढ़ जाती थी। 19 लेयर्स वाला VGGNet कुछ कार्यों पर 8 लेयर्स वाले AlexNet से खराब प्रदर्शन करता था, अधिक क्षमता होने के बावजूद।[^8]

Residual connections ने सैकड़ों लेयर्स वाले नेटवर्क्स की ट्रेनिंग को सक्षम बनाया। यह तकनीक इतनी मौलिक साबित हुई कि सभी transformer आर्किटेक्चर्स residual connections को शामिल करते हैं।[^9] GPT, BERT, Claude, और हर अन्य बड़ा लैंग्वेज मॉडल काम करने के लिए skip connections पर निर्भर करता है।[^10]

सीमा

मानक residual connection 1.0 के निश्चित वेट के साथ इनपुट को सीधे आउटपुट में जोड़ता है। यह बाधा स्थिर ट्रेनिंग सुनिश्चित करती है लेकिन अभिव्यक्तता को सीमित करती है। नेटवर्क यह नहीं सीख सकता कि कुछ लेयर्स को दूसरों की तुलना में अधिक योगदान देना चाहिए या गैर-आसन्न लेयर्स के बीच कनेक्शन प्रदर्शन में सुधार कर सकते हैं।[^11]

आर्किटेक्चर	वर्ष	Residual प्रकार	Connection वेट
ResNet	2015	Fixed skip	1.0 (स्थिर)[^12]
Highway Network	2015	Gated skip	सीखा हुआ गेट (0-1)[^13]
DenseNet	2016	All-to-all	समान योगदान[^14]
Transformer	2017	Fixed skip	1.0 (स्थिर)[^15]
Hyper-Connections	2024	Variable width	सीखी हुई मैट्रिसेस[^16]

शोधकर्ताओं ने विभिन्न संशोधनों का प्रयास किया। Highway networks ने सूचना प्रवाह को नियंत्रित करने के लिए सीखने योग्य गेट्स जोड़े।[^17] DenseNet ने हर लेयर को हर बाद की लेयर से जोड़ा।[^18] इन दृष्टिकोणों ने प्रदर्शन में सुधार किया लेकिन स्केल पर कम्प्यूटेशनल ओवरहेड या ट्रेनिंग चुनौतियां पेश कीं।[^19]

Hyper-Connections: असफल क्रांति

Hyper-Connections (HC), 2024 में पेश किया गया, residual connections को पूरी तरह से सीखने योग्य बनाने का एक महत्वाकांक्षी प्रयास था।[^20] 1.0 वेट के साथ निश्चित skip connections के बजाय, HC ने न्यूरल नेटवर्क्स को वेट मैट्रिसेस के माध्यम से लेयर्स के बीच मनमाने कनेक्शन स्ट्रेंथ सीखने की अनुमति दी।[^21]

सिद्धांत आशाजनक था। यदि नेटवर्क इष्टतम कनेक्शन पैटर्न सीख सकते हैं, तो वे ऐसे आर्किटेक्चर खोज सकते हैं जो मनुष्य कभी मैन्युअल रूप से डिज़ाइन नहीं करेंगे।[^22] प्रारंभिक प्रयोगों ने छोटे मॉडल्स पर पर्याप्त प्रदर्शन लाभ दिखाया।[^23]

समस्या स्केल पर उभरी।

विनाशकारी अस्थिरता

जब DeepSeek शोधकर्ताओं ने अनियंत्रित Hyper-Connections के साथ 27-बिलियन-पैरामीटर मॉडल को ट्रेन करने का प्रयास किया, तो सिग्नल एम्प्लीफिकेशन 3000x से अधिक हो गया।[^24] नेटवर्क के आंतरिक रिप्रेजेंटेशन्स परिमाण में विस्फोट कर गए, जिससे ग्रेडिएंट्स अनंत हो गए और ट्रेनिंग पूरी तरह से ध्वस्त हो गई।[^25]

गणितीय व्याख्या eigenvalues पर केंद्रित है। जब मनमानी मैट्रिसेस सैकड़ों लेयर्स में एक साथ गुणा होती हैं, तो 1.0 से अधिक कोई भी eigenvalue एक्सपोनेंशियल वृद्धि का कारण बनता है।[^26] अनियंत्रित कनेक्शन मैट्रिसेस वाले 27B पैरामीटर मॉडल में, सभी eigenvalues के 1.0 से नीचे रहने की संभावना शून्य के करीब पहुंचती है।[^27]

मॉडल साइज़	HC सिग्नल गेन	ट्रेनिंग परिणाम
3B पैरामीटर्स	~50x	घटे हुए प्रदर्शन के साथ पूर्ण[^28]
9B पैरामीटर्स	~300x	महत्वपूर्ण अस्थिरता के साथ पूर्ण[^29]
27B पैरामीटर्स	~3000x	विनाशकारी डाइवर्जेंस[^30]

Identity mapping प्रॉपर्टी जिसने residual connections को काम कराया था, नष्ट हो गई थी।[^31] मानक residual connections इनपुट को आउटपुट में जोड़कर सिग्नल मैग्नीट्यूड को संरक्षित करते हैं। Hyper-Connections की मनमानी मैट्रिसेस ने इस गारंटी को तोड़ दिया, और बड़े मॉडल्स ने समस्या को एक्सपोनेंशियली बढ़ा दिया।[^32]

mHC समाधान

DeepSeek का Manifold-Constrained Hyper-Connections फ्रेमवर्क कनेक्शन मैट्रिसेस को एक विशिष्ट गणितीय संरचना में बाधित करके अस्थिरता को संबोधित करता है।[^33] मनमानी सीखी हुई मैट्रिसेस की अनुमति देने के बजाय, mHC कनेक्शन्स को Birkhoff Polytope, doubly stochastic matrices के स्पेस, पर प्रोजेक्ट करता है।[^34]

एक doubly stochastic matrix में पंक्तियां और कॉलम प्रत्येक 1.0 का योग होते हैं।[^35] यह बाधा गारंटी देती है कि जैसे-जैसे जानकारी नेटवर्क से गुजरती है, सिग्नल मैग्नीट्यूड बढ़ या घट नहीं सकता।[^36] Identity mapping प्रॉपर्टी वापस आती है, लेकिन इस बारे में सीखी हुई लचीलेपन के साथ कि जानकारी लेयर्स के बीच कैसे रूट होती है।[^37]

Sinkhorn-Knopp एल्गोरिदम

मनमानी मैट्रिसेस को doubly stochastic फॉर्म में परिवर्तित करने के लिए Sinkhorn-Knopp एल्गोरिदम की आवश्यकता होती है, 1967 में मैट्रिक्स नॉर्मलाइज़ेशन के लिए विकसित एक इटरेटिव प्रक्रिया।[^38] एल्गोरिदम कन्वर्जेंस तक पंक्तियों को नॉर्मलाइज़ करने और कॉलम को नॉर्मलाइज़ करने के बीच बदलता रहता है।[^39]

Input: Non-negative matrix A
Repeat:
  1. Normalize each row to sum to 1
  2. Normalize each column to sum to 1
Until convergence
Output: Doubly stochastic matrix

DeepSeek का इम्प्लीमेंटेशन Sinkhorn-Knopp नॉर्मलाइज़ेशन के 20 इटरेशन का उपयोग करता है, जो प्रयोगात्मक परिणामों ने दिखाया कि अत्यधिक कम्प्यूटेशन के बिना पर्याप्त सटीकता प्रदान करता है।[^40] एल्गोरिदम ट्रेनिंग लूप में इंटीग्रेट होता है, प्रत्येक स्टेप पर सीखे हुए कनेक्शन वेट्स को Birkhoff Polytope पर प्रोजेक्ट करता है।[^41]

इंफ्रास्ट्रक्चर ऑप्टिमाइज़ेशन

कच्चा Sinkhorn-Knopp नॉर्मलाइज़ेशन ट्रेनिंग में अस्वीकार्य ओवरहेड जोड़ेगा। DeepSeek इंजीनियरों ने mHC को स्केल पर व्यावहारिक बनाने के लिए कई ऑप्टिमाइज़ेशन विकसित किए।[^42]

Kernel Fusion: मल्टीपल नॉर्मलाइज़ेशन ऑपरेशन सिंगल GPU kernel कॉल्स में मर्ज होते हैं, ऑपरेशन्स के बीच मेमोरी ट्रांसफर ओवरहेड को समाप्त करते हैं।[^43]

Mixed Precision: TileLang-आधारित kernels मैट्रिक्स ऑपरेशन्स के लिए कुशल FP8 कम्प्यूटेशन सक्षम करते हैं जबकि न्यूमेरिकली सेंसिटिव नॉर्मलाइज़ेशन स्टेप्स के लिए FP32 प्रिसिज़न बनाए रखते हैं।[^44]

Selective Recomputation: सभी इंटरमीडिएट वैल्यूज़ स्टोर करने के बजाय, सिस्टम backward pass के दौरान कुछ tensors को रीकम्प्यूट करता है, मेमोरी के लिए कम्प्यूट का ट्रेड करता है।[^45]

DualPipe Communication Overlap: मल्टी-GPU ट्रेनिंग Sinkhorn-Knopp कम्प्यूटेशन को इंटर-डिवाइस कम्युनिकेशन के साथ ओवरलैप करती है, नॉर्मलाइज़ेशन लेटेंसी को छुपाती है।[^46]

ऑप्टिमाइज़ेशन	ओवरहेड कमी
Kernel fusion	~40% लेटेंसी कमी[^47]
Mixed precision	~30% मेमोरी कमी[^48]
Selective recompute	~25% मेमोरी कमी[^49]
Communication overlap	~50% छुपी हुई लेटेंसी[^50]

संयुक्त ऑप्टिमाइज़ेशन mHC के ट्रेनिंग ओवरहेड को बेसलाइन से 6.7% ऊपर कम कर देते हैं, जिससे तकनीक प्रोडक्शन-स्केल ट्रेनिंग के लिए व्यवहार्य हो जाती है।[^51]

प्रयोगात्मक परिणाम

DeepSeek ने तीन मॉडल स्केल्स: 3B, 9B, और 27B पैरामीटर्स पर बेसलाइन आर्किटेक्चर्स और अनियंत्रित Hyper-Connections के खिलाफ mHC का परीक्षण किया।[^52] सभी मॉडल्स ने DeepSeek-V3 आर्किटेक्चर को फाउंडेशन के रूप में उपयोग किया, जिसमें Multi-Head Latent Attention (MLA) और Mixture-of-Experts (MoE) कंपोनेंट्स शामिल थे।[^53]

ट्रेनिंग स्थिरता

सबसे नाटकीय सुधार ट्रेनिंग स्थिरता मेट्रिक्स में दिखाई दिया। सिग्नल गेन मापन ट्रैक करते हैं कि जैसे-जैसे जानकारी नेटवर्क से गुजरती है, आंतरिक रिप्रेजेंटेशन्स कितना बढ़ते हैं।[^54]

मॉडल	Baseline	HC	mHC
3B सिग्नल गेन	1.2x	48x	1.5x[^55]
9B सिग्नल गेन	1.3x	287x	1.6x[^56]
27B सिग्नल गेन	1.4x	3012x	1.6x[^57]

mHC-ट्रेंड मॉडल्स ने मॉडल साइज़ की परवाह किए बिना 1.0x के सैद्धांतिक आदर्श के पास सिग्नल गेन बनाए रखा।[^58] अनियंत्रित Hyper-Connections ने स्केल के साथ एक्सपोनेंशियली बढ़ती अस्थिरता दिखाई, जबकि mHC ने 3B से 27B पैरामीटर्स तक सुसंगत व्यवहार प्रदर्शित किया।[^59]

बेंचमार्क प्रदर्शन

रीज़निंग-फोकस्ड बेंचमार्क्स पर प्रदर्शन सुधार दिखाई दिए जहां आर्किटेक्चरल एडवांसेस आमतौर पर सबसे बड़े लाभ दिखाते हैं।[^60]

बेंचमार्क	Baseline	mHC	सुधार
BIG-Bench Hard (27B)	43.8%	51.0%	+7.2 अंक[^61]
DROP	78.2%	81.4%	+3.2 अंक[^62]
GSM8K	82.1%	84.9%	+2.8 अंक[^63]
MMLU	79.4%	80.8%	+1.4 अंक[^64]

सबसे बड़ा सुधार BIG-Bench Hard पर दिखाई दिया, एक बेंचमार्क जो विशेष रूप से जटिल, मल्टी-स्टेप रीज़निंग का परीक्षण करने के लिए डिज़ाइन किया गया है।[^65] DROP, जिसके लिए लंबे पैसेज पर न्यूमेरिकल रीज़निंग की आवश्यकता होती है, ने दूसरा सबसे बड़ा लाभ दिखाया।[^66] GSM8K गणितीय रीज़निंग और MMLU सामान्य ज्ञान बेंचमार्क्स ने छोटे लेकिन सुसंगत सुधार प्रदर्शित किए।[^67]

ट्रेनिंग एफिशिएंसी

अतिरिक्त Sinkhorn-Knopp कम्प्यूटेशन्स के बावजूद, mHC ने कुल ट्रेनिंग समय में केवल 6.7% ओवरहेड जोड़ा।[^68] ओवरहेड मॉडल स्केल्स में स्थिर रहा, जो सुझाव देता है कि तकनीक और भी बड़े मॉडल्स के लिए कुशलता से स्केल करती है।[^69]

मॉडल साइज़	ट्रेनिंग समय (Baseline)	ट्रेनिंग समय (mHC)	ओवरहेड
3B	100 घंटे	106.5 घंटे	6.5%[^70]
9B	280 घंटे	298.8 घंटे	6.7%[^71]
27B	840 घंटे	896.3 घंटे	6.7%[^72]

लॉस कर्व्स ने दिखाया कि mHC बेसलाइन और HC दोनों दृष्टिकोणों की तुलना में कम फाइनल लॉस प्राप्त कर रहा है।[^73] mHC 27B मॉडल ने बेसलाइन से 0.021 कम फाइनल लॉस प्राप्त किया, जो सीधे देखे गए बेंचमार्क सुधारों में परिवर्तित होता है।[^74]

फाउंडेशन मॉडल डेवलपमेंट के लिए निहितार्थ

DeepSeek CEO Liang Wenfeng ने mHC पेपर का सह-लेखन किया, एक संकेत कि तकनीक संभवतः कंपनी के अगले फ्लैगशिप मॉडल में दिखाई देगी।[^75] विश्लेषकों को उम्मीद है कि DeepSeek R2 या V4 में mHC आर्किटेक्चर शामिल होगा, संभावित रूप से फरवरी 2026 में चीनी नव वर्ष के दौरान लॉन्च होगा।[^76]

व्यापक निहितार्थ DeepSeek से परे फैले हुए हैं। mHC एक मौलिक बाधा को संबोधित करता है जिसने बड़े लैंग्वेज मॉडल्स में आर्किटेक्चरल इनोवेशन को सीमित किया था। पिछले एक दशक में, शोधकर्ताओं ने बड़े पैमाने पर residual connections को संशोधित करने से बचा है क्योंकि कोई भी बदलाव जिसने identity mapping को तोड़ा, स्केल पर ट्रेनिंग अस्थिरता का कारण बना।[^77]

आर्किटेक्चरल इनोवेशन को अनलॉक करना

mHC प्रदर्शित करता है कि सीखने योग्य कनेक्शन पैटर्न उचित रूप से बाधित होने पर स्केल पर काम कर सकते हैं।[^78] Birkhoff Polytope प्रोजेक्शन उन गणितीय प्रॉपर्टीज़ को बनाए रखता है जो ट्रेनिंग को स्थिर बनाती हैं जबकि नेटवर्क्स को इष्टतम इंफॉर्मेशन रूटिंग पैटर्न खोजने की अनुमति देती हैं।[^79]

mHC द्वारा खोले गए भविष्य के शोध दिशाओं में शामिल हैं:

लेयर-विशिष्ट कनेक्शन स्ट्रेंथ: मॉडल्स सीख सकते हैं कि शुरुआती लेयर्स को मजबूत skip connections से लाभ होता है जबकि गहरी लेयर्स को अलग रूटिंग पैटर्न की आवश्यकता होती है।[^80]

डायनामिक कनेक्शन्स: कनेक्शन पैटर्न इनपुट कंटेंट के आधार पर भिन्न हो सकते हैं, विभिन्न प्रकार की जानकारी को विभिन्न पथों के माध्यम से रूट करते हैं।[^81]

Cross-attention संशोधन: mHC फ्रेमवर्क attention mechanisms तक विस्तारित हो सकता है, संभावित रूप से सुधार करते हुए कि मॉडल्स sequence positions में जानकारी को कैसे संयोजित करते हैं।[^82]

ट्रेनिंग लागत निहितार्थ

DeepSeek ने ट्रेनिंग का एक ट्रैक रिकॉर्ड स्थापित किया है

[अनुवाद के लिए सामग्री काटी गई]

DeepSeek mHC: वह आर्किटेक्चर समाधान जो ट्रिलियन-पैरामीटर AI मॉडल्स को संभव बना सकता है

संक्षेप में

Residual Connection की समस्या

सीमा

Hyper-Connections: असफल क्रांति

विनाशकारी अस्थिरता

mHC समाधान

Sinkhorn-Knopp एल्गोरिदम

इंफ्रास्ट्रक्चर ऑप्टिमाइज़ेशन

प्रयोगात्मक परिणाम

ट्रेनिंग स्थिरता

बेंचमार्क प्रदर्शन

ट्रेनिंग एफिशिएंसी

फाउंडेशन मॉडल डेवलपमेंट के लिए निहितार्थ

आर्किटेक्चरल इनोवेशन को अनलॉक करना

ट्रेनिंग लागत निहितार्थ

You Might Also Like

ट्रंप ने 25% अधिभार के साथ चीन को H200 निर्यात खोला

AI मेमोरी सुपरसाइकल: कैसे HBM AI की सबसे गंभीर बाधा बन गई

ट्रंप ने Nvidia को 25% रेवेन्यू कट पर चीन को H200 चिप्स बेचन...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_