DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten
Signaalversterking van 3000x vernietigde een 27-miljard-parameter model tijdens de training.[^1] DeepSeek's onderzoekers zagen hoe onbeperkte Hyper-Connections catastrofale divergentie veroorzaakten, waarbij gradiënten buiten alle hoop op herstel spiraalden. De oplossing die zij ontwikkelden zou kunnen hervormen hoe de industrie foundation models bouwt.
TL;DR
DeepSeek publiceerde op 31 december 2025 een technisch paper waarin Manifold-Constrained Hyper-Connections (mHC) werd geïntroduceerd, een framework dat neurale netwerkverbindingsmatrices projecteert op een wiskundige manifold met behulp van het Sinkhorn-Knopp algoritme.[^2] De aanpak lost trainingsinstabiliteit op die eerdere Hyper-Connection architecturen teisterde, waarbij signaalversterking wordt beheerst tot 1,6x vergeleken met 3000x bij onbeperkte methoden.[^3] Tests op 3B, 9B en 27B parameter modellen toonden een verbetering van 2,1% op BIG-Bench Hard redeneerstandards met slechts 6,7% extra trainingsoverhead.[^4] CEO Liang Wenfeng was co-auteur van het paper, wat aangeeft dat mHC waarschijnlijk zal verschijnen in DeepSeek's volgende vlaggenschipmodel.
Het Residual Connection Probleem
Elk groot taalmodel vandaag de dag vertrouwt op residual connections, een techniek geïntroduceerd in 2015 met ResNet die deep learning fundamenteel veranderde.[^5] Het concept lijkt eenvoudig: laat informatie lagen overslaan door input direct bij output op te tellen, waardoor "skip connections" ontstaan die gradiënten gemakkelijker laten stromen tijdens training.[^6]
Kaiming He's originele ResNet paper toonde aan dat residual connections het "degradatieprobleem" oplosten dat diepe netwerken had geplaagd.[^7] Zonder skip connections verhoogde het toevoegen van meer lagen aan een netwerk paradoxaal genoeg de trainingsfout. VGGNet met 19 lagen presteerde slechter dan AlexNet met 8 lagen op bepaalde taken, ondanks meer capaciteit.[^8]
Residual connections maakten het trainen van netwerken met honderden lagen mogelijk. De techniek bleek zo fundamenteel dat alle transformer-architecturen residual connections incorporeren.[^9] GPT, BERT, Claude en elk ander groot taalmodel is afhankelijk van skip connections om te functioneren.[^10]
De Beperking
De standaard residual connection telt input direct op bij output met een vast gewicht van 1,0. Deze beperking zorgt voor stabiele training maar beperkt de expressiviteit. Het netwerk kan niet leren dat sommige lagen meer zouden moeten bijdragen dan andere of dat verbindingen tussen niet-aangrenzende lagen de prestaties zouden kunnen verbeteren.[^11]
| Architectuur | Jaar | Residual Type | Verbindingsgewicht |
|---|---|---|---|
| ResNet | 2015 | Vaste skip | 1,0 (constant)[^12] |
| Highway Network | 2015 | Gated skip | Geleerde gate (0-1)[^13] |
| DenseNet | 2016 | All-to-all | Gelijke bijdrage[^14] |
| Transformer | 2017 | Vaste skip | 1,0 (constant)[^15] |
| Hyper-Connections | 2024 | Variabele breedte | Geleerde matrices[^16] |
Onderzoekers probeerden verschillende modificaties. Highway networks voegden leerbare gates toe om informatiestromen te controleren.[^17] DenseNet verbond elke laag met elke volgende laag.[^18] Deze benaderingen verbeterden de prestaties maar introduceerden rekenoverhead of trainingsproblemen op schaal.[^19]
Hyper-Connections: De Mislukte Revolutie
Hyper-Connections (HC), geïntroduceerd in 2024, vertegenwoordigde een ambitieuze poging om residual connections volledig leerbaar te maken.[^20] In plaats van vaste skip connections met gewicht 1,0, stond HC neurale netwerken toe om willekeurige verbindingssterktes tussen lagen te leren via gewichtsmatrices.[^21]
De theorie was veelbelovend. Als netwerken optimale verbindingspatronen konden leren, zouden ze architecturen kunnen ontdekken die mensen nooit handmatig zouden ontwerpen.[^22] Vroege experimenten toonden substantiële prestatiewinsten op kleinere modellen.[^23]
Het probleem ontstond op schaal.
Catastrofale Instabiliteit
Toen DeepSeek-onderzoekers probeerden een 27-miljard-parameter model te trainen met onbeperkte Hyper-Connections, overschreed de signaalversterking 3000x.[^24] De interne representaties van het netwerk explodeerden in magnitude, waardoor gradiënten oneindig werden en de training volledig instortte.[^25]
De wiskundige verklaring concentreert zich op eigenwaarden. Wanneer willekeurige matrices met elkaar vermenigvuldigen over honderden lagen, veroorzaakt elke eigenwaarde groter dan 1,0 exponentiële groei.[^26] In een 27B parameter model met onbeperkte verbindingsmatrices nadert de kans dat alle eigenwaarden onder 1,0 blijven nul.[^27]
| Modelgrootte | HC Signaalwinst | Trainingsuitkomst |
|---|---|---|
| 3B parameters | ~50x | Voltooid met verminderde prestaties[^28] |
| 9B parameters | ~300x | Voltooid met significante instabiliteit[^29] |
| 27B parameters | ~3000x | Catastrofale divergentie[^30] |
De identity mapping eigenschap die residual connections deed werken was vernietigd.[^31] Standaard residual connections behouden signaalmagnitude door input bij output op te tellen. De willekeurige matrices van Hyper-Connections braken deze garantie, en grotere modellen versterkten het probleem exponentieel.[^32]
De mHC Oplossing
DeepSeek's Manifold-Constrained Hyper-Connections framework pakt instabiliteit aan door verbindingsmatrices te beperken tot een specifieke wiskundige structuur.[^33] In plaats van willekeurige geleerde matrices toe te staan, projecteert mHC verbindingen op de Birkhoff Polytope, de ruimte van dubbel stochastische matrices.[^34]
Een dubbel stochastische matrix heeft rijen en kolommen die elk optellen tot 1,0.[^35] Deze beperking garandeert dat signaalmagnitude niet kan groeien of krimpen terwijl informatie door het netwerk stroomt.[^36] De identity mapping eigenschap keert terug, maar met geleerde flexibiliteit over hoe informatie tussen lagen wordt gerouteerd.[^37]
Het Sinkhorn-Knopp Algoritme
Het converteren van willekeurige matrices naar dubbel stochastische vorm vereist het Sinkhorn-Knopp algoritme, een iteratieve procedure ontwikkeld in 1967 voor matrixnormalisatie.[^38] Het algoritme wisselt af tussen het normaliseren van rijen en het normaliseren van kolommen tot convergentie.[^39]
Input: Niet-negatieve matrix A
Herhaal:
1. Normaliseer elke rij zodat de som 1 is
2. Normaliseer elke kolom zodat de som 1 is
Tot convergentie
Output: Dubbel stochastische matrix
DeepSeek's implementatie gebruikt 20 iteraties van Sinkhorn-Knopp normalisatie, wat experimentele resultaten toonden voldoende nauwkeurigheid te bieden zonder excessieve berekening.[^40] Het algoritme integreert in de trainingslus, waarbij geleerde verbindingsgewichten bij elke stap op de Birkhoff Polytope worden geprojecteerd.[^41]
Infrastructuuroptimalisatie
Ruwe Sinkhorn-Knopp normalisatie zou onacceptabele overhead toevoegen aan training. DeepSeek-engineers ontwikkelden verschillende optimalisaties om mHC praktisch te maken op schaal.[^42]
Kernel Fusion: Meerdere normalisatiebewerkingen worden samengevoegd in enkele GPU kernel-aanroepen, waardoor geheugenoverdrachtoverhead tussen bewerkingen wordt geëlimineerd.[^43]
Mixed Precision: TileLang-gebaseerde kernels maken efficiënte FP8-berekening mogelijk voor matrixbewerkingen terwijl FP32-precisie wordt behouden voor numeriek gevoelige normalisatiestappen.[^44]
Selectieve Herberekening: In plaats van alle tussenwaarden op te slaan, herberekent het systeem bepaalde tensors tijdens de backward pass, waarbij berekening wordt geruild voor geheugen.[^45]
DualPipe Communicatie-overlap: Multi-GPU training overlapt Sinkhorn-Knopp berekening met inter-device communicatie, waardoor normalisatielatentie wordt verborgen.[^46]
| Optimalisatie | Overheadreductie |
|---|---|
| Kernel fusion | ~40% latentiereductie[^47] |
| Mixed precision | ~30% geheugenreductie[^48] |
| Selectieve herberekening | ~25% geheugenreductie[^49] |
| Communicatie-overlap | ~50% verborgen latentie[^50] |
De gecombineerde optimalisaties reduceren mHC's trainingsoverhead tot 6,7% boven baseline, waardoor de techniek haalbaar wordt voor productie-schaal training.[^51]
Experimentele Resultaten
DeepSeek testte mHC tegen baseline-architecturen en onbeperkte Hyper-Connections op drie modelschalen: 3B, 9B en 27B parameters.[^52] Alle modellen gebruikten de DeepSeek-V3 architectuur als basis, met Multi-Head Latent Attention (MLA) en Mixture-of-Experts (MoE) componenten.[^53]
Trainingsstabiliteit
De meest dramatische verbetering verscheen in trainingsstabiliteitsmetrieken. Signaalwinstmetingen volgen hoeveel interne representaties groeien terwijl informatie door het netwerk stroomt.[^54]
| Model | Baseline | HC | mHC |
|---|---|---|---|
| 3B signaalwinst | 1,2x | 48x | 1,5x[^55] |
| 9B signaalwinst | 1,3x | 287x | 1,6x[^56] |
| 27B signaalwinst | 1,4x | 3012x | 1,6x[^57] |
mHC-getrainde modellen hielden signaalwinsten nabij het theoretische ideaal van 1,0x ongeacht modelgrootte.[^58] Onbeperkte Hyper-Connections toonden exponentieel toenemende instabiliteit met schaal, terwijl mHC consistent gedrag demonstreerde van 3B tot 27B parameters.[^59]
Benchmarkprestaties
Prestatieverbeteringen verschenen over redeneergerichte benchmarks waar architecturale vooruitgang typisch de grootste winsten toont.[^60]
| Benchmark | Baseline | mHC | Verbetering |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43,8% | 51,0% | +7,2 punten[^61] |
| DROP | 78,2% | 81,4% | +3,2 punten[^62] |
| GSM8K | 82,1% | 84,9% | +2,8 punten[^63] |
| MMLU | 79,4% | 80,8% | +1,4 punten[^64] |
De grootste verbeteringen verschenen op BIG-Bench Hard, een benchmark specifiek ontworpen om complex, meerstaps redeneren te testen.[^65] DROP, wat numeriek redeneren over lange passages vereist, toonde de op één na grootste winst.[^66] GSM8K wiskundig redeneren en MMLU algemene kennisbenchmarks demonstreerden kleinere maar consistente verbeteringen.[^67]
Trainingsefficiëntie
Ondanks de extra Sinkhorn-Knopp berekeningen, voegde mHC slechts 6,7% overhead toe aan de totale trainingstijd.[^68] De overhead bleef constant over modelschalen, wat suggereert dat de techniek efficiënt schaalt naar nog grotere modellen.[^69]
| Modelgrootte | Trainingstijd (Baseline) | Trainingstijd (mHC) | Overhead |
|---|---|---|---|
| 3B | 100 uur | 106,5 uur | 6,5%[^70] |
| 9B | 280 uur | 298,8 uur | 6,7%[^71] |
| 27B | 840 uur | 896,3 uur | 6,7%[^72] |
Loss curves toonden dat mHC lagere eindloss bereikte dan zowel baseline als HC benaderingen.[^73] Het mHC 27B model bereikte een eindloss 0,021 lager dan baseline, wat direct vertaalde naar de waargenomen benchmarkverbeteringen.[^74]
Implicaties voor Foundation Model Ontwikkeling
DeepSeek CEO Liang Wenfeng was co-auteur van het mHC paper, een signaal dat de techniek waarschijnlijk zal verschijnen in het volgende vlaggenschipmodel van het bedrijf.[^75] Analisten verwachten dat ofwel DeepSeek R2 of V4 mHC-architectuur zal incorporeren, mogelijk gelanceerd tijdens Chinees Nieuwjaar in februari 2026.[^76]
De bredere implicaties reiken verder dan DeepSeek. mHC pakt een fundamentele beperking aan die architecturale innovatie in grote taalmodellen heeft beperkt. De afgelopen tien jaar hebben onderzoekers grotendeels vermeden om residual connections te wijzigen omdat elke verandering die identity mapping brak trainingsinstabiliteit op schaal veroorzaakte.[^77]
Architecturale Innovatie Ontsluiten
mHC demonstreert dat leerbare verbindingspatronen op schaal kunnen werken wanneer ze correct worden beperkt.[^78] De Birkhoff Polytope projectie behoudt de wiskundige eigenschappen die training stabiel maken terwijl netwerken optimale informatie-routeringspatronen kunnen ontdekken.[^79]
Toekomstige onderzoeksrichtingen geopend door mHC omvatten:
Laag-specifieke verbindingssterktes: Modellen zouden kunnen leren dat vroege lagen baat hebben bij sterkere skip connections terwijl diepere lagen verschillende routeringspatronen nodig hebben.[^80]
Dynamische verbindingen: Verbindingspatronen zouden kunnen variëren op basis van inputinhoud, waarbij verschillende soorten informatie via verschillende paden worden gerouteerd.[^81]
Cross-attention modificaties: Het mHC framework zou kunnen worden uitgebreid naar aandachtsmechanismen, wat mogelijk verbetert hoe modellen informatie over sequentieposities combineren.[^82]
Trainingskostenimplicaties
DeepSeek heeft een track record opgebouwd van het trainen van
[Inhoud ingekort voor vertaling]