DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

DeepSeek's nieuwe Manifold-Constrained Hyper-Connections framework lost een tien jaar oud schalingsprobleem op, waardoor stabiele training van 27B+ parameter modellen mogelijk wordt met slechts 6,7% overhead.

DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

DeepSeek mHC: De Architectuuroplossing Die Trillion-Parameter AI-Modellen Zou Kunnen Ontsluiten

Signaalversterking van 3000x vernietigde een 27-miljard-parameter model tijdens de training.[^1] DeepSeek's onderzoekers zagen hoe onbeperkte Hyper-Connections catastrofale divergentie veroorzaakten, waarbij gradiënten buiten alle hoop op herstel spiraalden. De oplossing die zij ontwikkelden zou kunnen hervormen hoe de industrie foundation models bouwt.

TL;DR

DeepSeek publiceerde op 31 december 2025 een technisch paper waarin Manifold-Constrained Hyper-Connections (mHC) werd geïntroduceerd, een framework dat neurale netwerkverbindingsmatrices projecteert op een wiskundige manifold met behulp van het Sinkhorn-Knopp algoritme.[^2] De aanpak lost trainingsinstabiliteit op die eerdere Hyper-Connection architecturen teisterde, waarbij signaalversterking wordt beheerst tot 1,6x vergeleken met 3000x bij onbeperkte methoden.[^3] Tests op 3B, 9B en 27B parameter modellen toonden een verbetering van 2,1% op BIG-Bench Hard redeneerstandards met slechts 6,7% extra trainingsoverhead.[^4] CEO Liang Wenfeng was co-auteur van het paper, wat aangeeft dat mHC waarschijnlijk zal verschijnen in DeepSeek's volgende vlaggenschipmodel.

Het Residual Connection Probleem

Elk groot taalmodel vandaag de dag vertrouwt op residual connections, een techniek geïntroduceerd in 2015 met ResNet die deep learning fundamenteel veranderde.[^5] Het concept lijkt eenvoudig: laat informatie lagen overslaan door input direct bij output op te tellen, waardoor "skip connections" ontstaan die gradiënten gemakkelijker laten stromen tijdens training.[^6]

Kaiming He's originele ResNet paper toonde aan dat residual connections het "degradatieprobleem" oplosten dat diepe netwerken had geplaagd.[^7] Zonder skip connections verhoogde het toevoegen van meer lagen aan een netwerk paradoxaal genoeg de trainingsfout. VGGNet met 19 lagen presteerde slechter dan AlexNet met 8 lagen op bepaalde taken, ondanks meer capaciteit.[^8]

Residual connections maakten het trainen van netwerken met honderden lagen mogelijk. De techniek bleek zo fundamenteel dat alle transformer-architecturen residual connections incorporeren.[^9] GPT, BERT, Claude en elk ander groot taalmodel is afhankelijk van skip connections om te functioneren.[^10]

De Beperking

De standaard residual connection telt input direct op bij output met een vast gewicht van 1,0. Deze beperking zorgt voor stabiele training maar beperkt de expressiviteit. Het netwerk kan niet leren dat sommige lagen meer zouden moeten bijdragen dan andere of dat verbindingen tussen niet-aangrenzende lagen de prestaties zouden kunnen verbeteren.[^11]

Architectuur Jaar Residual Type Verbindingsgewicht
ResNet 2015 Vaste skip 1,0 (constant)[^12]
Highway Network 2015 Gated skip Geleerde gate (0-1)[^13]
DenseNet 2016 All-to-all Gelijke bijdrage[^14]
Transformer 2017 Vaste skip 1,0 (constant)[^15]
Hyper-Connections 2024 Variabele breedte Geleerde matrices[^16]

Onderzoekers probeerden verschillende modificaties. Highway networks voegden leerbare gates toe om informatiestromen te controleren.[^17] DenseNet verbond elke laag met elke volgende laag.[^18] Deze benaderingen verbeterden de prestaties maar introduceerden rekenoverhead of trainingsproblemen op schaal.[^19]

Hyper-Connections: De Mislukte Revolutie

Hyper-Connections (HC), geïntroduceerd in 2024, vertegenwoordigde een ambitieuze poging om residual connections volledig leerbaar te maken.[^20] In plaats van vaste skip connections met gewicht 1,0, stond HC neurale netwerken toe om willekeurige verbindingssterktes tussen lagen te leren via gewichtsmatrices.[^21]

De theorie was veelbelovend. Als netwerken optimale verbindingspatronen konden leren, zouden ze architecturen kunnen ontdekken die mensen nooit handmatig zouden ontwerpen.[^22] Vroege experimenten toonden substantiële prestatiewinsten op kleinere modellen.[^23]

Het probleem ontstond op schaal.

Catastrofale Instabiliteit

Toen DeepSeek-onderzoekers probeerden een 27-miljard-parameter model te trainen met onbeperkte Hyper-Connections, overschreed de signaalversterking 3000x.[^24] De interne representaties van het netwerk explodeerden in magnitude, waardoor gradiënten oneindig werden en de training volledig instortte.[^25]

De wiskundige verklaring concentreert zich op eigenwaarden. Wanneer willekeurige matrices met elkaar vermenigvuldigen over honderden lagen, veroorzaakt elke eigenwaarde groter dan 1,0 exponentiële groei.[^26] In een 27B parameter model met onbeperkte verbindingsmatrices nadert de kans dat alle eigenwaarden onder 1,0 blijven nul.[^27]

Modelgrootte HC Signaalwinst Trainingsuitkomst
3B parameters ~50x Voltooid met verminderde prestaties[^28]
9B parameters ~300x Voltooid met significante instabiliteit[^29]
27B parameters ~3000x Catastrofale divergentie[^30]

De identity mapping eigenschap die residual connections deed werken was vernietigd.[^31] Standaard residual connections behouden signaalmagnitude door input bij output op te tellen. De willekeurige matrices van Hyper-Connections braken deze garantie, en grotere modellen versterkten het probleem exponentieel.[^32]

De mHC Oplossing

DeepSeek's Manifold-Constrained Hyper-Connections framework pakt instabiliteit aan door verbindingsmatrices te beperken tot een specifieke wiskundige structuur.[^33] In plaats van willekeurige geleerde matrices toe te staan, projecteert mHC verbindingen op de Birkhoff Polytope, de ruimte van dubbel stochastische matrices.[^34]

Een dubbel stochastische matrix heeft rijen en kolommen die elk optellen tot 1,0.[^35] Deze beperking garandeert dat signaalmagnitude niet kan groeien of krimpen terwijl informatie door het netwerk stroomt.[^36] De identity mapping eigenschap keert terug, maar met geleerde flexibiliteit over hoe informatie tussen lagen wordt gerouteerd.[^37]

Het Sinkhorn-Knopp Algoritme

Het converteren van willekeurige matrices naar dubbel stochastische vorm vereist het Sinkhorn-Knopp algoritme, een iteratieve procedure ontwikkeld in 1967 voor matrixnormalisatie.[^38] Het algoritme wisselt af tussen het normaliseren van rijen en het normaliseren van kolommen tot convergentie.[^39]

Input: Niet-negatieve matrix A
Herhaal:
  1. Normaliseer elke rij zodat de som 1 is
  2. Normaliseer elke kolom zodat de som 1 is
Tot convergentie
Output: Dubbel stochastische matrix

DeepSeek's implementatie gebruikt 20 iteraties van Sinkhorn-Knopp normalisatie, wat experimentele resultaten toonden voldoende nauwkeurigheid te bieden zonder excessieve berekening.[^40] Het algoritme integreert in de trainingslus, waarbij geleerde verbindingsgewichten bij elke stap op de Birkhoff Polytope worden geprojecteerd.[^41]

Infrastructuuroptimalisatie

Ruwe Sinkhorn-Knopp normalisatie zou onacceptabele overhead toevoegen aan training. DeepSeek-engineers ontwikkelden verschillende optimalisaties om mHC praktisch te maken op schaal.[^42]

Kernel Fusion: Meerdere normalisatiebewerkingen worden samengevoegd in enkele GPU kernel-aanroepen, waardoor geheugenoverdrachtoverhead tussen bewerkingen wordt geëlimineerd.[^43]

Mixed Precision: TileLang-gebaseerde kernels maken efficiënte FP8-berekening mogelijk voor matrixbewerkingen terwijl FP32-precisie wordt behouden voor numeriek gevoelige normalisatiestappen.[^44]

Selectieve Herberekening: In plaats van alle tussenwaarden op te slaan, herberekent het systeem bepaalde tensors tijdens de backward pass, waarbij berekening wordt geruild voor geheugen.[^45]

DualPipe Communicatie-overlap: Multi-GPU training overlapt Sinkhorn-Knopp berekening met inter-device communicatie, waardoor normalisatielatentie wordt verborgen.[^46]

Optimalisatie Overheadreductie
Kernel fusion ~40% latentiereductie[^47]
Mixed precision ~30% geheugenreductie[^48]
Selectieve herberekening ~25% geheugenreductie[^49]
Communicatie-overlap ~50% verborgen latentie[^50]

De gecombineerde optimalisaties reduceren mHC's trainingsoverhead tot 6,7% boven baseline, waardoor de techniek haalbaar wordt voor productie-schaal training.[^51]

Experimentele Resultaten

DeepSeek testte mHC tegen baseline-architecturen en onbeperkte Hyper-Connections op drie modelschalen: 3B, 9B en 27B parameters.[^52] Alle modellen gebruikten de DeepSeek-V3 architectuur als basis, met Multi-Head Latent Attention (MLA) en Mixture-of-Experts (MoE) componenten.[^53]

Trainingsstabiliteit

De meest dramatische verbetering verscheen in trainingsstabiliteitsmetrieken. Signaalwinstmetingen volgen hoeveel interne representaties groeien terwijl informatie door het netwerk stroomt.[^54]

Model Baseline HC mHC
3B signaalwinst 1,2x 48x 1,5x[^55]
9B signaalwinst 1,3x 287x 1,6x[^56]
27B signaalwinst 1,4x 3012x 1,6x[^57]

mHC-getrainde modellen hielden signaalwinsten nabij het theoretische ideaal van 1,0x ongeacht modelgrootte.[^58] Onbeperkte Hyper-Connections toonden exponentieel toenemende instabiliteit met schaal, terwijl mHC consistent gedrag demonstreerde van 3B tot 27B parameters.[^59]

Benchmarkprestaties

Prestatieverbeteringen verschenen over redeneergerichte benchmarks waar architecturale vooruitgang typisch de grootste winsten toont.[^60]

Benchmark Baseline mHC Verbetering
BIG-Bench Hard (27B) 43,8% 51,0% +7,2 punten[^61]
DROP 78,2% 81,4% +3,2 punten[^62]
GSM8K 82,1% 84,9% +2,8 punten[^63]
MMLU 79,4% 80,8% +1,4 punten[^64]

De grootste verbeteringen verschenen op BIG-Bench Hard, een benchmark specifiek ontworpen om complex, meerstaps redeneren te testen.[^65] DROP, wat numeriek redeneren over lange passages vereist, toonde de op één na grootste winst.[^66] GSM8K wiskundig redeneren en MMLU algemene kennisbenchmarks demonstreerden kleinere maar consistente verbeteringen.[^67]

Trainingsefficiëntie

Ondanks de extra Sinkhorn-Knopp berekeningen, voegde mHC slechts 6,7% overhead toe aan de totale trainingstijd.[^68] De overhead bleef constant over modelschalen, wat suggereert dat de techniek efficiënt schaalt naar nog grotere modellen.[^69]

Modelgrootte Trainingstijd (Baseline) Trainingstijd (mHC) Overhead
3B 100 uur 106,5 uur 6,5%[^70]
9B 280 uur 298,8 uur 6,7%[^71]
27B 840 uur 896,3 uur 6,7%[^72]

Loss curves toonden dat mHC lagere eindloss bereikte dan zowel baseline als HC benaderingen.[^73] Het mHC 27B model bereikte een eindloss 0,021 lager dan baseline, wat direct vertaalde naar de waargenomen benchmarkverbeteringen.[^74]

Implicaties voor Foundation Model Ontwikkeling

DeepSeek CEO Liang Wenfeng was co-auteur van het mHC paper, een signaal dat de techniek waarschijnlijk zal verschijnen in het volgende vlaggenschipmodel van het bedrijf.[^75] Analisten verwachten dat ofwel DeepSeek R2 of V4 mHC-architectuur zal incorporeren, mogelijk gelanceerd tijdens Chinees Nieuwjaar in februari 2026.[^76]

De bredere implicaties reiken verder dan DeepSeek. mHC pakt een fundamentele beperking aan die architecturale innovatie in grote taalmodellen heeft beperkt. De afgelopen tien jaar hebben onderzoekers grotendeels vermeden om residual connections te wijzigen omdat elke verandering die identity mapping brak trainingsinstabiliteit op schaal veroorzaakte.[^77]

Architecturale Innovatie Ontsluiten

mHC demonstreert dat leerbare verbindingspatronen op schaal kunnen werken wanneer ze correct worden beperkt.[^78] De Birkhoff Polytope projectie behoudt de wiskundige eigenschappen die training stabiel maken terwijl netwerken optimale informatie-routeringspatronen kunnen ontdekken.[^79]

Toekomstige onderzoeksrichtingen geopend door mHC omvatten:

Laag-specifieke verbindingssterktes: Modellen zouden kunnen leren dat vroege lagen baat hebben bij sterkere skip connections terwijl diepere lagen verschillende routeringspatronen nodig hebben.[^80]

Dynamische verbindingen: Verbindingspatronen zouden kunnen variëren op basis van inputinhoud, waarbij verschillende soorten informatie via verschillende paden worden gerouteerd.[^81]

Cross-attention modificaties: Het mHC framework zou kunnen worden uitgebreid naar aandachtsmechanismen, wat mogelijk verbetert hoe modellen informatie over sequentieposities combineren.[^82]

Trainingskostenimplicaties

DeepSeek heeft een track record opgebouwd van het trainen van

[Inhoud ingekort voor vertaling]

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING