DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

DeepSeek's nieuwe Manifold-Constrained Hyper-Connections framework lost een tien jaar oud schalingsprobleem op, waardoor stabiele training van 27B+ parameter modellen mogelijk wordt met slechts 6,7% overhead.

Blake Crosley

Jan 03, 2026 7 min read Disclaimer

DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

Signaalversterking van 3000x vernietigde een 27-miljard-parameter model tijdens de training.[^1] DeepSeek's onderzoekers zagen hoe onbeperkte Hyper-Connections catastrofale divergentie veroorzaakten, waarbij gradiënten buiten alle hoop op herstel spiraalden. De oplossing die zij ontwikkelden zou kunnen hervormen hoe de industrie foundation models bouwt.

TL;DR

DeepSeek publiceerde op 31 december 2025 een technisch paper waarin Manifold-Constrained Hyper-Connections (mHC) werd geïntroduceerd, een framework dat neurale netwerkverbindingsmatrices projecteert op een wiskundige manifold met behulp van het Sinkhorn-Knopp algoritme.[^2] De aanpak lost trainingsinstabiliteit op die eerdere Hyper-Connection architecturen teisterde, waarbij signaalversterking wordt beheerst tot 1,6x vergeleken met 3000x bij onbeperkte methoden.[^3] Tests op 3B, 9B en 27B parameter modellen toonden een verbetering van 2,1% op BIG-Bench Hard redeneerstandards met slechts 6,7% extra trainingsoverhead.[^4] CEO Liang Wenfeng was co-auteur van het paper, wat aangeeft dat mHC waarschijnlijk zal verschijnen in DeepSeek's volgende vlaggenschipmodel.

Het Residual Connection Probleem

Elk groot taalmodel vandaag de dag vertrouwt op residual connections, een techniek geïntroduceerd in 2015 met ResNet die deep learning fundamenteel veranderde.[^5] Het concept lijkt eenvoudig: laat informatie lagen overslaan door input direct bij output op te tellen, waardoor "skip connections" ontstaan die gradiënten gemakkelijker laten stromen tijdens training.[^6]

Kaiming He's originele ResNet paper toonde aan dat residual connections het "degradatieprobleem" oplosten dat diepe netwerken had geplaagd.[^7] Zonder skip connections verhoogde het toevoegen van meer lagen aan een netwerk paradoxaal genoeg de trainingsfout. VGGNet met 19 lagen presteerde slechter dan AlexNet met 8 lagen op bepaalde taken, ondanks meer capaciteit.[^8]

Residual connections maakten het trainen van netwerken met honderden lagen mogelijk. De techniek bleek zo fundamenteel dat alle transformer-architecturen residual connections incorporeren.[^9] GPT, BERT, Claude en elk ander groot taalmodel is afhankelijk van skip connections om te functioneren.[^10]

De Beperking

De standaard residual connection telt input direct op bij output met een vast gewicht van 1,0. Deze beperking zorgt voor stabiele training maar beperkt de expressiviteit. Het netwerk kan niet leren dat sommige lagen meer zouden moeten bijdragen dan andere of dat verbindingen tussen niet-aangrenzende lagen de prestaties zouden kunnen verbeteren.[^11]

Architectuur	Jaar	Residual Type	Verbindingsgewicht
ResNet	2015	Vaste skip	1,0 (constant)[^12]
Highway Network	2015	Gated skip	Geleerde gate (0-1)[^13]
DenseNet	2016	All-to-all	Gelijke bijdrage[^14]
Transformer	2017	Vaste skip	1,0 (constant)[^15]
Hyper-Connections	2024	Variabele breedte	Geleerde matrices[^16]

Onderzoekers probeerden verschillende modificaties. Highway networks voegden leerbare gates toe om informatiestromen te controleren.[^17] DenseNet verbond elke laag met elke volgende laag.[^18] Deze benaderingen verbeterden de prestaties maar introduceerden rekenoverhead of trainingsproblemen op schaal.[^19]

Hyper-Connections: De Mislukte Revolutie

Hyper-Connections (HC), geïntroduceerd in 2024, vertegenwoordigde een ambitieuze poging om residual connections volledig leerbaar te maken.[^20] In plaats van vaste skip connections met gewicht 1,0, stond HC neurale netwerken toe om willekeurige verbindingssterktes tussen lagen te leren via gewichtsmatrices.[^21]

De theorie was veelbelovend. Als netwerken optimale verbindingspatronen konden leren, zouden ze architecturen kunnen ontdekken die mensen nooit handmatig zouden ontwerpen.[^22] Vroege experimenten toonden substantiële prestatiewinsten op kleinere modellen.[^23]

Het probleem ontstond op schaal.

Catastrofale Instabiliteit

Toen DeepSeek-onderzoekers probeerden een 27-miljard-parameter model te trainen met onbeperkte Hyper-Connections, overschreed de signaalversterking 3000x.[^24] De interne representaties van het netwerk explodeerden in magnitude, waardoor gradiënten oneindig werden en de training volledig instortte.[^25]

De wiskundige verklaring concentreert zich op eigenwaarden. Wanneer willekeurige matrices met elkaar vermenigvuldigen over honderden lagen, veroorzaakt elke eigenwaarde groter dan 1,0 exponentiële groei.[^26] In een 27B parameter model met onbeperkte verbindingsmatrices nadert de kans dat alle eigenwaarden onder 1,0 blijven nul.[^27]

Modelgrootte	HC Signaalwinst	Trainingsuitkomst
3B parameters	~50x	Voltooid met verminderde prestaties[^28]
9B parameters	~300x	Voltooid met significante instabiliteit[^29]
27B parameters	~3000x	Catastrofale divergentie[^30]

De identity mapping eigenschap die residual connections deed werken was vernietigd.[^31] Standaard residual connections behouden signaalmagnitude door input bij output op te tellen. De willekeurige matrices van Hyper-Connections braken deze garantie, en grotere modellen versterkten het probleem exponentieel.[^32]

De mHC Oplossing

DeepSeek's Manifold-Constrained Hyper-Connections framework pakt instabiliteit aan door verbindingsmatrices te beperken tot een specifieke wiskundige structuur.[^33] In plaats van willekeurige geleerde matrices toe te staan, projecteert mHC verbindingen op de Birkhoff Polytope, de ruimte van dubbel stochastische matrices.[^34]

Een dubbel stochastische matrix heeft rijen en kolommen die elk optellen tot 1,0.[^35] Deze beperking garandeert dat signaalmagnitude niet kan groeien of krimpen terwijl informatie door het netwerk stroomt.[^36] De identity mapping eigenschap keert terug, maar met geleerde flexibiliteit over hoe informatie tussen lagen wordt gerouteerd.[^37]

Het Sinkhorn-Knopp Algoritme

Het converteren van willekeurige matrices naar dubbel stochastische vorm vereist het Sinkhorn-Knopp algoritme, een iteratieve procedure ontwikkeld in 1967 voor matrixnormalisatie.[^38] Het algoritme wisselt af tussen het normaliseren van rijen en het normaliseren van kolommen tot convergentie.[^39]

Input: Niet-negatieve matrix A
Herhaal:
  1. Normaliseer elke rij zodat de som 1 is
  2. Normaliseer elke kolom zodat de som 1 is
Tot convergentie
Output: Dubbel stochastische matrix

DeepSeek's implementatie gebruikt 20 iteraties van Sinkhorn-Knopp normalisatie, wat experimentele resultaten toonden voldoende nauwkeurigheid te bieden zonder excessieve berekening.[^40] Het algoritme integreert in de trainingslus, waarbij geleerde verbindingsgewichten bij elke stap op de Birkhoff Polytope worden geprojecteerd.[^41]

Infrastructuuroptimalisatie

Ruwe Sinkhorn-Knopp normalisatie zou onacceptabele overhead toevoegen aan training. DeepSeek-engineers ontwikkelden verschillende optimalisaties om mHC praktisch te maken op schaal.[^42]

Kernel Fusion: Meerdere normalisatiebewerkingen worden samengevoegd in enkele GPU kernel-aanroepen, waardoor geheugenoverdrachtoverhead tussen bewerkingen wordt geëlimineerd.[^43]

Mixed Precision: TileLang-gebaseerde kernels maken efficiënte FP8-berekening mogelijk voor matrixbewerkingen terwijl FP32-precisie wordt behouden voor numeriek gevoelige normalisatiestappen.[^44]

Selectieve Herberekening: In plaats van alle tussenwaarden op te slaan, herberekent het systeem bepaalde tensors tijdens de backward pass, waarbij berekening wordt geruild voor geheugen.[^45]

DualPipe Communicatie-overlap: Multi-GPU training overlapt Sinkhorn-Knopp berekening met inter-device communicatie, waardoor normalisatielatentie wordt verborgen.[^46]

Optimalisatie	Overheadreductie
Kernel fusion	~40% latentiereductie[^47]
Mixed precision	~30% geheugenreductie[^48]
Selectieve herberekening	~25% geheugenreductie[^49]
Communicatie-overlap	~50% verborgen latentie[^50]

De gecombineerde optimalisaties reduceren mHC's trainingsoverhead tot 6,7% boven baseline, waardoor de techniek haalbaar wordt voor productie-schaal training.[^51]

Experimentele Resultaten

DeepSeek testte mHC tegen baseline-architecturen en onbeperkte Hyper-Connections op drie modelschalen: 3B, 9B en 27B parameters.[^52] Alle modellen gebruikten de DeepSeek-V3 architectuur als basis, met Multi-Head Latent Attention (MLA) en Mixture-of-Experts (MoE) componenten.[^53]

Trainingsstabiliteit

De meest dramatische verbetering verscheen in trainingsstabiliteitsmetrieken. Signaalwinstmetingen volgen hoeveel interne representaties groeien terwijl informatie door het netwerk stroomt.[^54]

Model	Baseline	HC	mHC
3B signaalwinst	1,2x	48x	1,5x[^55]
9B signaalwinst	1,3x	287x	1,6x[^56]
27B signaalwinst	1,4x	3012x	1,6x[^57]

mHC-getrainde modellen hielden signaalwinsten nabij het theoretische ideaal van 1,0x ongeacht modelgrootte.[^58] Onbeperkte Hyper-Connections toonden exponentieel toenemende instabiliteit met schaal, terwijl mHC consistent gedrag demonstreerde van 3B tot 27B parameters.[^59]

Benchmarkprestaties

Prestatieverbeteringen verschenen over redeneergerichte benchmarks waar architecturale vooruitgang typisch de grootste winsten toont.[^60]

Benchmark	Baseline	mHC	Verbetering
BIG-Bench Hard (27B)	43,8%	51,0%	+7,2 punten[^61]
DROP	78,2%	81,4%	+3,2 punten[^62]
GSM8K	82,1%	84,9%	+2,8 punten[^63]
MMLU	79,4%	80,8%	+1,4 punten[^64]

De grootste verbeteringen verschenen op BIG-Bench Hard, een benchmark specifiek ontworpen om complex, meerstaps redeneren te testen.[^65] DROP, wat numeriek redeneren over lange passages vereist, toonde de op één na grootste winst.[^66] GSM8K wiskundig redeneren en MMLU algemene kennisbenchmarks demonstreerden kleinere maar consistente verbeteringen.[^67]

Trainingsefficiëntie

Ondanks de extra Sinkhorn-Knopp berekeningen, voegde mHC slechts 6,7% overhead toe aan de totale trainingstijd.[^68] De overhead bleef constant over modelschalen, wat suggereert dat de techniek efficiënt schaalt naar nog grotere modellen.[^69]

Modelgrootte	Trainingstijd (Baseline)	Trainingstijd (mHC)	Overhead
3B	100 uur	106,5 uur	6,5%[^70]
9B	280 uur	298,8 uur	6,7%[^71]
27B	840 uur	896,3 uur	6,7%[^72]

Loss curves toonden dat mHC lagere eindloss bereikte dan zowel baseline als HC benaderingen.[^73] Het mHC 27B model bereikte een eindloss 0,021 lager dan baseline, wat direct vertaalde naar de waargenomen benchmarkverbeteringen.[^74]

Implicaties voor Foundation Model Ontwikkeling

DeepSeek CEO Liang Wenfeng was co-auteur van het mHC paper, een signaal dat de techniek waarschijnlijk zal verschijnen in het volgende vlaggenschipmodel van het bedrijf.[^75] Analisten verwachten dat ofwel DeepSeek R2 of V4 mHC-architectuur zal incorporeren, mogelijk gelanceerd tijdens Chinees Nieuwjaar in februari 2026.[^76]

De bredere implicaties reiken verder dan DeepSeek. mHC pakt een fundamentele beperking aan die architecturale innovatie in grote taalmodellen heeft beperkt. De afgelopen tien jaar hebben onderzoekers grotendeels vermeden om residual connections te wijzigen omdat elke verandering die identity mapping brak trainingsinstabiliteit op schaal veroorzaakte.[^77]

Architecturale Innovatie Ontsluiten

mHC demonstreert dat leerbare verbindingspatronen op schaal kunnen werken wanneer ze correct worden beperkt.[^78] De Birkhoff Polytope projectie behoudt de wiskundige eigenschappen die training stabiel maken terwijl netwerken optimale informatie-routeringspatronen kunnen ontdekken.[^79]

Toekomstige onderzoeksrichtingen geopend door mHC omvatten:

Laag-specifieke verbindingssterktes: Modellen zouden kunnen leren dat vroege lagen baat hebben bij sterkere skip connections terwijl diepere lagen verschillende routeringspatronen nodig hebben.[^80]

Dynamische verbindingen: Verbindingspatronen zouden kunnen variëren op basis van inputinhoud, waarbij verschillende soorten informatie via verschillende paden worden gerouteerd.[^81]

Cross-attention modificaties: Het mHC framework zou kunnen worden uitgebreid naar aandachtsmechanismen, wat mogelijk verbetert hoe modellen informatie over sequentieposities combineren.[^82]

Trainingskostenimplicaties

DeepSeek heeft een track record opgebouwd van het trainen van

[Inhoud ingekort voor vertaling]

DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

TL;DR

Het Residual Connection Probleem

De Beperking

Hyper-Connections: De Mislukte Revolutie

Catastrofale Instabiliteit

De mHC Oplossing

Het Sinkhorn-Knopp Algoritme

Infrastructuuroptimalisatie

Experimentele Resultaten

Trainingsstabiliteit

Benchmarkprestaties

Trainingsefficiëntie

Implicaties voor Foundation Model Ontwikkeling

Architecturale Innovatie Ontsluiten

Trainingskostenimplicaties

You Might Also Like

Trump opent H200-export naar China met 25% toeslag

De AI-geheugensupercyclus: Hoe HBM de Kritiekste Bottleneck ...

Trump staat Nvidia toe H200-chips aan China te verkopen voor...

Offerte aanvragen_

Aanvraag Ontvangen_