DeepSeek mHC: Die Architektur-Lösung, die KI-Modelle mit Billionen Parametern ermöglichen könnte

DeepSeeks neues Manifold-Constrained Hyper-Connections Framework löst ein jahrzehntealtes Skalierungsproblem und ermöglicht stabiles Training von Modellen mit über 27 Milliarden Parametern bei nur 6,7% Mehraufwand.

Blake Crosley

Jan 03, 2026 7 min read Disclaimer

DeepSeek mHC: Die Architektur-Lösung, die KI-Modelle mit Billionen Parametern ermöglichen könnte

Eine Signalverstärkung von 3000x zerstörte ein 27-Milliarden-Parameter-Modell während des Trainings.[^1] DeepSeeks Forscher beobachteten, wie unkontrollierte Hyper-Connections eine katastrophale Divergenz verursachten, wobei die Gradienten jenseits jeder Hoffnung auf Wiederherstellung eskalierten. Die von ihnen entwickelte Lösung könnte die Art und Weise verändern, wie die Industrie Foundation Models baut.

Zusammenfassung

DeepSeek veröffentlichte am 31. Dezember 2025 ein technisches Paper, das Manifold-Constrained Hyper-Connections (mHC) vorstellt – ein Framework, das Verbindungsmatrizen neuronaler Netze mithilfe des Sinkhorn-Knopp-Algorithmus auf eine mathematische Mannigfaltigkeit projiziert.[^2] Der Ansatz löst die Trainingsinstabilität, die frühere Hyper-Connection-Architekturen plagte, und kontrolliert die Signalverstärkung auf 1,6x im Vergleich zu 3000x bei unkontrollierten Methoden.[^3] Tests mit Modellen von 3B, 9B und 27B Parametern zeigten eine Verbesserung von 2,1% bei BIG-Bench Hard Reasoning-Benchmarks bei nur 6,7% zusätzlichem Trainingsaufwand.[^4] CEO Liang Wenfeng ist Co-Autor des Papers, was signalisiert, dass mHC wahrscheinlich in DeepSeeks nächstem Flaggschiff-Modell erscheinen wird.

Das Residual-Connection-Problem

Jedes große Sprachmodell von heute basiert auf Residual Connections – eine 2015 mit ResNet eingeführte Technik, die Deep Learning grundlegend verändert hat.[^5] Das Konzept erscheint einfach: Informationen können Layer umgehen, indem der Input direkt zum Output addiert wird, wodurch „Skip Connections" entstehen, die den Gradientenfluss während des Trainings erleichtern.[^6]

Kaiming Hes ursprüngliches ResNet-Paper demonstrierte, dass Residual Connections das „Degradationsproblem" lösten, das tiefe Netzwerke geplagt hatte.[^7] Ohne Skip Connections erhöhte das Hinzufügen weiterer Layer paradoxerweise den Trainingsfehler. VGGNet mit 19 Layern schnitt bei bestimmten Aufgaben schlechter ab als AlexNet mit 8 Layern, obwohl es mehr Kapazität hatte.[^8]

Residual Connections ermöglichten das Training von Netzwerken mit Hunderten von Layern. Die Technik erwies sich als so fundamental, dass alle Transformer-Architekturen Residual Connections integrieren.[^9] GPT, BERT, Claude und jedes andere große Sprachmodell ist auf Skip Connections angewiesen, um zu funktionieren.[^10]

Die Einschränkung

Die Standard-Residual-Connection addiert den Input direkt zum Output mit einem festen Gewicht von 1,0. Diese Einschränkung gewährleistet stabiles Training, begrenzt aber die Ausdrucksfähigkeit. Das Netzwerk kann nicht lernen, dass manche Layer mehr beitragen sollten als andere oder dass Verbindungen zwischen nicht benachbarten Layern die Leistung verbessern könnten.[^11]

Architektur	Jahr	Residual-Typ	Verbindungsgewicht
ResNet	2015	Fester Skip	1,0 (konstant)[^12]
Highway Network	2015	Gated Skip	Gelerntes Gate (0-1)[^13]
DenseNet	2016	All-to-all	Gleicher Beitrag[^14]
Transformer	2017	Fester Skip	1,0 (konstant)[^15]
Hyper-Connections	2024	Variable Breite	Gelernte Matrizen[^16]

Forscher versuchten verschiedene Modifikationen. Highway Networks fügten lernbare Gates hinzu, um den Informationsfluss zu kontrollieren.[^17] DenseNet verband jeden Layer mit jedem nachfolgenden Layer.[^18] Diese Ansätze verbesserten die Leistung, führten aber zu Rechenaufwand oder Trainingsherausforderungen bei Skalierung.[^19]

Hyper-Connections: Die gescheiterte Revolution

Hyper-Connections (HC), 2024 eingeführt, stellten einen ambitionierten Versuch dar, Residual Connections vollständig lernbar zu machen.[^20] Anstelle von festen Skip Connections mit Gewicht 1,0 erlaubten HC neuronalen Netzen, beliebige Verbindungsstärken zwischen Layern durch Gewichtsmatrizen zu lernen.[^21]

Die Theorie war vielversprechend. Wenn Netzwerke optimale Verbindungsmuster lernen könnten, würden sie möglicherweise Architekturen entdecken, die Menschen nie manuell entwerfen würden.[^22] Frühe Experimente zeigten erhebliche Leistungssteigerungen bei kleineren Modellen.[^23]

Das Problem zeigte sich bei der Skalierung.

Katastrophale Instabilität

Als DeepSeek-Forscher versuchten, ein 27-Milliarden-Parameter-Modell mit unkontrollierten Hyper-Connections zu trainieren, überstieg die Signalverstärkung 3000x.[^24] Die internen Repräsentationen des Netzwerks explodierten in ihrer Größenordnung, was dazu führte, dass Gradienten unendlich wurden und das Training vollständig zusammenbrach.[^25]

Die mathematische Erklärung konzentriert sich auf Eigenwerte. Wenn beliebige Matrizen über Hunderte von Layern miteinander multipliziert werden, verursacht jeder Eigenwert größer als 1,0 exponentielles Wachstum.[^26] In einem 27B-Parameter-Modell mit unkontrollierten Verbindungsmatrizen nähert sich die Wahrscheinlichkeit, dass alle Eigenwerte unter 1,0 bleiben, Null.[^27]

Modellgröße	HC-Signalverstärkung	Trainingsergebnis
3B Parameter	~50x	Abgeschlossen mit verschlechterter Leistung[^28]
9B Parameter	~300x	Abgeschlossen mit erheblicher Instabilität[^29]
27B Parameter	~3000x	Katastrophale Divergenz[^30]

Die Identity-Mapping-Eigenschaft, die Residual Connections funktionieren ließ, war zerstört worden.[^31] Standard-Residual-Connections erhalten die Signalgröße, indem sie den Input zum Output addieren. Die beliebigen Matrizen von Hyper-Connections brachen diese Garantie, und größere Modelle verstärkten das Problem exponentiell.[^32]

Die mHC-Lösung

DeepSeeks Manifold-Constrained Hyper-Connections Framework adressiert die Instabilität, indem es Verbindungsmatrizen auf eine spezifische mathematische Struktur beschränkt.[^33] Anstatt beliebige gelernte Matrizen zuzulassen, projiziert mHC Verbindungen auf das Birkhoff-Polytop, den Raum der doppelt stochastischen Matrizen.[^34]

Eine doppelt stochastische Matrix hat Zeilen und Spalten, die jeweils zu 1,0 summieren.[^35] Diese Einschränkung garantiert, dass die Signalgröße weder wachsen noch schrumpfen kann, während Informationen durch das Netzwerk fließen.[^36] Die Identity-Mapping-Eigenschaft kehrt zurück, aber mit gelernter Flexibilität darüber, wie Informationen zwischen Layern geleitet werden.[^37]

Der Sinkhorn-Knopp-Algorithmus

Die Umwandlung beliebiger Matrizen in doppelt stochastische Form erfordert den Sinkhorn-Knopp-Algorithmus, ein iteratives Verfahren, das 1967 für Matrixnormalisierung entwickelt wurde.[^38] Der Algorithmus wechselt zwischen der Normalisierung von Zeilen und der Normalisierung von Spalten bis zur Konvergenz.[^39]

Input: Nicht-negative Matrix A
Wiederhole:
  1. Normalisiere jede Zeile auf Summe 1
  2. Normalisiere jede Spalte auf Summe 1
Bis Konvergenz
Output: Doppelt stochastische Matrix

DeepSeeks Implementierung verwendet 20 Iterationen der Sinkhorn-Knopp-Normalisierung, was experimentelle Ergebnisse als ausreichend genau zeigten, ohne übermäßigen Rechenaufwand.[^40] Der Algorithmus integriert sich in die Trainingsschleife und projiziert gelernte Verbindungsgewichte bei jedem Schritt auf das Birkhoff-Polytop.[^41]

Infrastruktur-Optimierung

Eine rohe Sinkhorn-Knopp-Normalisierung würde inakzeptablen Overhead zum Training hinzufügen. DeepSeek-Ingenieure entwickelten mehrere Optimierungen, um mHC im Produktionsmaßstab praktikabel zu machen.[^42]

Kernel Fusion: Mehrere Normalisierungsoperationen werden in einzelne GPU-Kernel-Aufrufe zusammengeführt, wodurch der Speichertransfer-Overhead zwischen Operationen eliminiert wird.[^43]

Mixed Precision: TileLang-basierte Kernel ermöglichen effiziente FP8-Berechnung für Matrixoperationen bei gleichzeitiger Beibehaltung der FP32-Präzision für numerisch sensible Normalisierungsschritte.[^44]

Selektive Neuberechnung: Anstatt alle Zwischenwerte zu speichern, berechnet das System bestimmte Tensoren während des Backward-Pass neu und tauscht Rechenleistung gegen Speicher.[^45]

DualPipe Communication Overlap: Multi-GPU-Training überlappt Sinkhorn-Knopp-Berechnungen mit Kommunikation zwischen Geräten und verbirgt die Normalisierungslatenz.[^46]

Optimierung	Overhead-Reduktion
Kernel Fusion	~40% Latenzreduktion[^47]
Mixed Precision	~30% Speicherreduktion[^48]
Selektive Neuberechnung	~25% Speicherreduktion[^49]
Communication Overlap	~50% verborgene Latenz[^50]

Die kombinierten Optimierungen reduzieren den Trainingsaufwand von mHC auf 6,7% über dem Baseline-Wert, was die Technik für Training im Produktionsmaßstab praktikabel macht.[^51]

Experimentelle Ergebnisse

DeepSeek testete mHC gegen Baseline-Architekturen und unkontrollierte Hyper-Connections über drei Modellgrößen: 3B, 9B und 27B Parameter.[^52] Alle Modelle verwendeten die DeepSeek-V3-Architektur als Grundlage und integrierten Multi-Head Latent Attention (MLA) und Mixture-of-Experts (MoE) Komponenten.[^53]

Trainingsstabilität

Die dramatischste Verbesserung zeigte sich bei den Trainingsstabilitätsmetriken. Signalverstärkungsmessungen verfolgen, wie stark interne Repräsentationen wachsen, während Informationen durch das Netzwerk fließen.[^54]

Modell	Baseline	HC	mHC
3B Signalverstärkung	1,2x	48x	1,5x[^55]
9B Signalverstärkung	1,3x	287x	1,6x[^56]
27B Signalverstärkung	1,4x	3012x	1,6x[^57]

Mit mHC trainierte Modelle behielten Signalverstärkungen nahe dem theoretischen Ideal von 1,0x bei, unabhängig von der Modellgröße.[^58] Unkontrollierte Hyper-Connections zeigten exponentiell zunehmende Instabilität mit der Skalierung, während mHC konsistentes Verhalten von 3B bis 27B Parametern demonstrierte.[^59]

Benchmark-Leistung

Leistungsverbesserungen zeigten sich bei Reasoning-fokussierten Benchmarks, bei denen architektonische Fortschritte typischerweise die größten Gewinne zeigen.[^60]

Benchmark	Baseline	mHC	Verbesserung
BIG-Bench Hard (27B)	43,8%	51,0%	+7,2 Punkte[^61]
DROP	78,2%	81,4%	+3,2 Punkte[^62]
GSM8K	82,1%	84,9%	+2,8 Punkte[^63]
MMLU	79,4%	80,8%	+1,4 Punkte[^64]

Die größten Verbesserungen zeigten sich bei BIG-Bench Hard, einem Benchmark, der speziell entwickelt wurde, um komplexes, mehrstufiges Reasoning zu testen.[^65] DROP, das numerisches Reasoning über lange Textpassagen erfordert, zeigte den zweitgrößten Gewinn.[^66] GSM8K mathematisches Reasoning und MMLU Allgemeinwissen-Benchmarks zeigten kleinere, aber konsistente Verbesserungen.[^67]

Trainingseffizienz

Trotz der zusätzlichen Sinkhorn-Knopp-Berechnungen fügte mHC nur 6,7% Overhead zur gesamten Trainingszeit hinzu.[^68] Der Overhead blieb über Modellgrößen hinweg konstant, was darauf hindeutet, dass die Technik effizient auf noch größere Modelle skaliert.[^69]

Modellgröße	Trainingszeit (Baseline)	Trainingszeit (mHC)	Overhead
3B	100 Stunden	106,5 Stunden	6,5%[^70]
9B	280 Stunden	298,8 Stunden	6,7%[^71]
27B	840 Stunden	896,3 Stunden	6,7%[^72]

Loss-Kurven zeigten, dass mHC einen niedrigeren finalen Loss erreichte als sowohl Baseline- als auch HC-Ansätze.[^73] Das mHC 27B-Modell erreichte einen finalen Loss, der 0,021 niedriger war als die Baseline, was sich direkt in den beobachteten Benchmark-Verbesserungen niederschlug.[^74]

Implikationen für die Entwicklung von Foundation Models

DeepSeek-CEO Liang Wenfeng ist Co-Autor des mHC-Papers – ein Signal, dass die Technik wahrscheinlich im nächsten Flaggschiff-Modell des Unternehmens erscheinen wird.[^75] Analysten erwarten, dass entweder DeepSeek R2 oder V4 die mHC-Architektur integrieren wird, möglicherweise mit einem Launch während des chinesischen Neujahrs im Februar 2026.[^76]

Die breiteren Implikationen reichen über DeepSeek hinaus. mHC adressiert eine fundamentale Einschränkung, die architektonische Innovation bei großen Sprachmodellen begrenzt hat. Während des letzten Jahrzehnts haben Forscher es weitgehend vermieden, Residual Connections zu modifizieren, weil jede Änderung, die das Identity Mapping brach, bei Skalierung Trainingsinstabilität verursachte.[^77]

Freischaltung architektonischer Innovation

mHC demonstriert, dass lernbare Verbindungsmuster im großen Maßstab funktionieren können, wenn sie richtig eingeschränkt werden.[^78] Die Birkhoff-Polytop-Projektion erhält die mathematischen Eigenschaften, die Training stabil machen, und erlaubt gleichzeitig Netzwerken, optimale Informationsrouting-Muster zu entdecken.[^79]

Zukünftige Forschungsrichtungen, die durch mHC eröffnet werden, umfassen:

Layer-spezifische Verbindungsstärken: Modelle könnten lernen, dass frühe Layer von stärkeren Skip Connections profitieren, während tiefere Layer andere Routing-Muster benötigen.[^80]

Dynamische Verbindungen: Verbindungsmuster könnten basierend auf dem Eingabeinhalt variieren und verschiedene Arten von Informationen durch verschiedene Pfade leiten.[^81]

Cross-Attention-Modifikationen: Das mHC-Framework könnte auf Attention-Mechanismen erweitert werden und möglicherweise verbessern, wie Modelle Informationen über Sequenzpositionen hinweg kombinieren.[^82]

Implikationen für Trainingskosten

DeepSeek hat eine Erfolgsbilanz beim Training

[Inhalt für Übersetzung gekürzt]

DeepSeek mHC: Die Architektur-Lösung, die KI-Modelle mit Billionen Parametern ermöglichen könnte

Zusammenfassung

Das Residual-Connection-Problem

Die Einschränkung

Hyper-Connections: Die gescheiterte Revolution

Katastrophale Instabilität

Die mHC-Lösung

Der Sinkhorn-Knopp-Algorithmus

Infrastruktur-Optimierung

Experimentelle Ergebnisse

Trainingsstabilität

Benchmark-Leistung

Trainingseffizienz

Implikationen für die Entwicklung von Foundation Models

Freischaltung architektonischer Innovation

Implikationen für Trainingskosten

You Might Also Like

Trump öffnet H200-Exporte nach China mit 25% Zuschlag

Der KI-Speicher-Superzyklus: Wie HBM zum kritischsten Engpas...

Trump erlaubt Nvidia den Verkauf von H200-Chips nach China g...

Angebot anfordern_

Anfrage erhalten_