DeepSeek mHC: Die Architektur-Lösung, die KI-Modelle mit Billionen Parametern ermöglichen könnte
Eine Signalverstärkung von 3000x zerstörte ein 27-Milliarden-Parameter-Modell während des Trainings.[^1] DeepSeeks Forscher beobachteten, wie unkontrollierte Hyper-Connections eine katastrophale Divergenz verursachten, wobei die Gradienten jenseits jeder Hoffnung auf Wiederherstellung eskalierten. Die von ihnen entwickelte Lösung könnte die Art und Weise verändern, wie die Industrie Foundation Models baut.
Zusammenfassung
DeepSeek veröffentlichte am 31. Dezember 2025 ein technisches Paper, das Manifold-Constrained Hyper-Connections (mHC) vorstellt – ein Framework, das Verbindungsmatrizen neuronaler Netze mithilfe des Sinkhorn-Knopp-Algorithmus auf eine mathematische Mannigfaltigkeit projiziert.[^2] Der Ansatz löst die Trainingsinstabilität, die frühere Hyper-Connection-Architekturen plagte, und kontrolliert die Signalverstärkung auf 1,6x im Vergleich zu 3000x bei unkontrollierten Methoden.[^3] Tests mit Modellen von 3B, 9B und 27B Parametern zeigten eine Verbesserung von 2,1% bei BIG-Bench Hard Reasoning-Benchmarks bei nur 6,7% zusätzlichem Trainingsaufwand.[^4] CEO Liang Wenfeng ist Co-Autor des Papers, was signalisiert, dass mHC wahrscheinlich in DeepSeeks nächstem Flaggschiff-Modell erscheinen wird.
Das Residual-Connection-Problem
Jedes große Sprachmodell von heute basiert auf Residual Connections – eine 2015 mit ResNet eingeführte Technik, die Deep Learning grundlegend verändert hat.[^5] Das Konzept erscheint einfach: Informationen können Layer umgehen, indem der Input direkt zum Output addiert wird, wodurch „Skip Connections" entstehen, die den Gradientenfluss während des Trainings erleichtern.[^6]
Kaiming Hes ursprüngliches ResNet-Paper demonstrierte, dass Residual Connections das „Degradationsproblem" lösten, das tiefe Netzwerke geplagt hatte.[^7] Ohne Skip Connections erhöhte das Hinzufügen weiterer Layer paradoxerweise den Trainingsfehler. VGGNet mit 19 Layern schnitt bei bestimmten Aufgaben schlechter ab als AlexNet mit 8 Layern, obwohl es mehr Kapazität hatte.[^8]
Residual Connections ermöglichten das Training von Netzwerken mit Hunderten von Layern. Die Technik erwies sich als so fundamental, dass alle Transformer-Architekturen Residual Connections integrieren.[^9] GPT, BERT, Claude und jedes andere große Sprachmodell ist auf Skip Connections angewiesen, um zu funktionieren.[^10]
Die Einschränkung
Die Standard-Residual-Connection addiert den Input direkt zum Output mit einem festen Gewicht von 1,0. Diese Einschränkung gewährleistet stabiles Training, begrenzt aber die Ausdrucksfähigkeit. Das Netzwerk kann nicht lernen, dass manche Layer mehr beitragen sollten als andere oder dass Verbindungen zwischen nicht benachbarten Layern die Leistung verbessern könnten.[^11]
| Architektur | Jahr | Residual-Typ | Verbindungsgewicht |
|---|---|---|---|
| ResNet | 2015 | Fester Skip | 1,0 (konstant)[^12] |
| Highway Network | 2015 | Gated Skip | Gelerntes Gate (0-1)[^13] |
| DenseNet | 2016 | All-to-all | Gleicher Beitrag[^14] |
| Transformer | 2017 | Fester Skip | 1,0 (konstant)[^15] |
| Hyper-Connections | 2024 | Variable Breite | Gelernte Matrizen[^16] |
Forscher versuchten verschiedene Modifikationen. Highway Networks fügten lernbare Gates hinzu, um den Informationsfluss zu kontrollieren.[^17] DenseNet verband jeden Layer mit jedem nachfolgenden Layer.[^18] Diese Ansätze verbesserten die Leistung, führten aber zu Rechenaufwand oder Trainingsherausforderungen bei Skalierung.[^19]
Hyper-Connections: Die gescheiterte Revolution
Hyper-Connections (HC), 2024 eingeführt, stellten einen ambitionierten Versuch dar, Residual Connections vollständig lernbar zu machen.[^20] Anstelle von festen Skip Connections mit Gewicht 1,0 erlaubten HC neuronalen Netzen, beliebige Verbindungsstärken zwischen Layern durch Gewichtsmatrizen zu lernen.[^21]
Die Theorie war vielversprechend. Wenn Netzwerke optimale Verbindungsmuster lernen könnten, würden sie möglicherweise Architekturen entdecken, die Menschen nie manuell entwerfen würden.[^22] Frühe Experimente zeigten erhebliche Leistungssteigerungen bei kleineren Modellen.[^23]
Das Problem zeigte sich bei der Skalierung.
Katastrophale Instabilität
Als DeepSeek-Forscher versuchten, ein 27-Milliarden-Parameter-Modell mit unkontrollierten Hyper-Connections zu trainieren, überstieg die Signalverstärkung 3000x.[^24] Die internen Repräsentationen des Netzwerks explodierten in ihrer Größenordnung, was dazu führte, dass Gradienten unendlich wurden und das Training vollständig zusammenbrach.[^25]
Die mathematische Erklärung konzentriert sich auf Eigenwerte. Wenn beliebige Matrizen über Hunderte von Layern miteinander multipliziert werden, verursacht jeder Eigenwert größer als 1,0 exponentielles Wachstum.[^26] In einem 27B-Parameter-Modell mit unkontrollierten Verbindungsmatrizen nähert sich die Wahrscheinlichkeit, dass alle Eigenwerte unter 1,0 bleiben, Null.[^27]
| Modellgröße | HC-Signalverstärkung | Trainingsergebnis |
|---|---|---|
| 3B Parameter | ~50x | Abgeschlossen mit verschlechterter Leistung[^28] |
| 9B Parameter | ~300x | Abgeschlossen mit erheblicher Instabilität[^29] |
| 27B Parameter | ~3000x | Katastrophale Divergenz[^30] |
Die Identity-Mapping-Eigenschaft, die Residual Connections funktionieren ließ, war zerstört worden.[^31] Standard-Residual-Connections erhalten die Signalgröße, indem sie den Input zum Output addieren. Die beliebigen Matrizen von Hyper-Connections brachen diese Garantie, und größere Modelle verstärkten das Problem exponentiell.[^32]
Die mHC-Lösung
DeepSeeks Manifold-Constrained Hyper-Connections Framework adressiert die Instabilität, indem es Verbindungsmatrizen auf eine spezifische mathematische Struktur beschränkt.[^33] Anstatt beliebige gelernte Matrizen zuzulassen, projiziert mHC Verbindungen auf das Birkhoff-Polytop, den Raum der doppelt stochastischen Matrizen.[^34]
Eine doppelt stochastische Matrix hat Zeilen und Spalten, die jeweils zu 1,0 summieren.[^35] Diese Einschränkung garantiert, dass die Signalgröße weder wachsen noch schrumpfen kann, während Informationen durch das Netzwerk fließen.[^36] Die Identity-Mapping-Eigenschaft kehrt zurück, aber mit gelernter Flexibilität darüber, wie Informationen zwischen Layern geleitet werden.[^37]
Der Sinkhorn-Knopp-Algorithmus
Die Umwandlung beliebiger Matrizen in doppelt stochastische Form erfordert den Sinkhorn-Knopp-Algorithmus, ein iteratives Verfahren, das 1967 für Matrixnormalisierung entwickelt wurde.[^38] Der Algorithmus wechselt zwischen der Normalisierung von Zeilen und der Normalisierung von Spalten bis zur Konvergenz.[^39]
Input: Nicht-negative Matrix A
Wiederhole:
1. Normalisiere jede Zeile auf Summe 1
2. Normalisiere jede Spalte auf Summe 1
Bis Konvergenz
Output: Doppelt stochastische Matrix
DeepSeeks Implementierung verwendet 20 Iterationen der Sinkhorn-Knopp-Normalisierung, was experimentelle Ergebnisse als ausreichend genau zeigten, ohne übermäßigen Rechenaufwand.[^40] Der Algorithmus integriert sich in die Trainingsschleife und projiziert gelernte Verbindungsgewichte bei jedem Schritt auf das Birkhoff-Polytop.[^41]
Infrastruktur-Optimierung
Eine rohe Sinkhorn-Knopp-Normalisierung würde inakzeptablen Overhead zum Training hinzufügen. DeepSeek-Ingenieure entwickelten mehrere Optimierungen, um mHC im Produktionsmaßstab praktikabel zu machen.[^42]
Kernel Fusion: Mehrere Normalisierungsoperationen werden in einzelne GPU-Kernel-Aufrufe zusammengeführt, wodurch der Speichertransfer-Overhead zwischen Operationen eliminiert wird.[^43]
Mixed Precision: TileLang-basierte Kernel ermöglichen effiziente FP8-Berechnung für Matrixoperationen bei gleichzeitiger Beibehaltung der FP32-Präzision für numerisch sensible Normalisierungsschritte.[^44]
Selektive Neuberechnung: Anstatt alle Zwischenwerte zu speichern, berechnet das System bestimmte Tensoren während des Backward-Pass neu und tauscht Rechenleistung gegen Speicher.[^45]
DualPipe Communication Overlap: Multi-GPU-Training überlappt Sinkhorn-Knopp-Berechnungen mit Kommunikation zwischen Geräten und verbirgt die Normalisierungslatenz.[^46]
| Optimierung | Overhead-Reduktion |
|---|---|
| Kernel Fusion | ~40% Latenzreduktion[^47] |
| Mixed Precision | ~30% Speicherreduktion[^48] |
| Selektive Neuberechnung | ~25% Speicherreduktion[^49] |
| Communication Overlap | ~50% verborgene Latenz[^50] |
Die kombinierten Optimierungen reduzieren den Trainingsaufwand von mHC auf 6,7% über dem Baseline-Wert, was die Technik für Training im Produktionsmaßstab praktikabel macht.[^51]
Experimentelle Ergebnisse
DeepSeek testete mHC gegen Baseline-Architekturen und unkontrollierte Hyper-Connections über drei Modellgrößen: 3B, 9B und 27B Parameter.[^52] Alle Modelle verwendeten die DeepSeek-V3-Architektur als Grundlage und integrierten Multi-Head Latent Attention (MLA) und Mixture-of-Experts (MoE) Komponenten.[^53]
Trainingsstabilität
Die dramatischste Verbesserung zeigte sich bei den Trainingsstabilitätsmetriken. Signalverstärkungsmessungen verfolgen, wie stark interne Repräsentationen wachsen, während Informationen durch das Netzwerk fließen.[^54]
| Modell | Baseline | HC | mHC |
|---|---|---|---|
| 3B Signalverstärkung | 1,2x | 48x | 1,5x[^55] |
| 9B Signalverstärkung | 1,3x | 287x | 1,6x[^56] |
| 27B Signalverstärkung | 1,4x | 3012x | 1,6x[^57] |
Mit mHC trainierte Modelle behielten Signalverstärkungen nahe dem theoretischen Ideal von 1,0x bei, unabhängig von der Modellgröße.[^58] Unkontrollierte Hyper-Connections zeigten exponentiell zunehmende Instabilität mit der Skalierung, während mHC konsistentes Verhalten von 3B bis 27B Parametern demonstrierte.[^59]
Benchmark-Leistung
Leistungsverbesserungen zeigten sich bei Reasoning-fokussierten Benchmarks, bei denen architektonische Fortschritte typischerweise die größten Gewinne zeigen.[^60]
| Benchmark | Baseline | mHC | Verbesserung |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43,8% | 51,0% | +7,2 Punkte[^61] |
| DROP | 78,2% | 81,4% | +3,2 Punkte[^62] |
| GSM8K | 82,1% | 84,9% | +2,8 Punkte[^63] |
| MMLU | 79,4% | 80,8% | +1,4 Punkte[^64] |
Die größten Verbesserungen zeigten sich bei BIG-Bench Hard, einem Benchmark, der speziell entwickelt wurde, um komplexes, mehrstufiges Reasoning zu testen.[^65] DROP, das numerisches Reasoning über lange Textpassagen erfordert, zeigte den zweitgrößten Gewinn.[^66] GSM8K mathematisches Reasoning und MMLU Allgemeinwissen-Benchmarks zeigten kleinere, aber konsistente Verbesserungen.[^67]
Trainingseffizienz
Trotz der zusätzlichen Sinkhorn-Knopp-Berechnungen fügte mHC nur 6,7% Overhead zur gesamten Trainingszeit hinzu.[^68] Der Overhead blieb über Modellgrößen hinweg konstant, was darauf hindeutet, dass die Technik effizient auf noch größere Modelle skaliert.[^69]
| Modellgröße | Trainingszeit (Baseline) | Trainingszeit (mHC) | Overhead |
|---|---|---|---|
| 3B | 100 Stunden | 106,5 Stunden | 6,5%[^70] |
| 9B | 280 Stunden | 298,8 Stunden | 6,7%[^71] |
| 27B | 840 Stunden | 896,3 Stunden | 6,7%[^72] |
Loss-Kurven zeigten, dass mHC einen niedrigeren finalen Loss erreichte als sowohl Baseline- als auch HC-Ansätze.[^73] Das mHC 27B-Modell erreichte einen finalen Loss, der 0,021 niedriger war als die Baseline, was sich direkt in den beobachteten Benchmark-Verbesserungen niederschlug.[^74]
Implikationen für die Entwicklung von Foundation Models
DeepSeek-CEO Liang Wenfeng ist Co-Autor des mHC-Papers – ein Signal, dass die Technik wahrscheinlich im nächsten Flaggschiff-Modell des Unternehmens erscheinen wird.[^75] Analysten erwarten, dass entweder DeepSeek R2 oder V4 die mHC-Architektur integrieren wird, möglicherweise mit einem Launch während des chinesischen Neujahrs im Februar 2026.[^76]
Die breiteren Implikationen reichen über DeepSeek hinaus. mHC adressiert eine fundamentale Einschränkung, die architektonische Innovation bei großen Sprachmodellen begrenzt hat. Während des letzten Jahrzehnts haben Forscher es weitgehend vermieden, Residual Connections zu modifizieren, weil jede Änderung, die das Identity Mapping brach, bei Skalierung Trainingsinstabilität verursachte.[^77]
Freischaltung architektonischer Innovation
mHC demonstriert, dass lernbare Verbindungsmuster im großen Maßstab funktionieren können, wenn sie richtig eingeschränkt werden.[^78] Die Birkhoff-Polytop-Projektion erhält die mathematischen Eigenschaften, die Training stabil machen, und erlaubt gleichzeitig Netzwerken, optimale Informationsrouting-Muster zu entdecken.[^79]
Zukünftige Forschungsrichtungen, die durch mHC eröffnet werden, umfassen:
Layer-spezifische Verbindungsstärken: Modelle könnten lernen, dass frühe Layer von stärkeren Skip Connections profitieren, während tiefere Layer andere Routing-Muster benötigen.[^80]
Dynamische Verbindungen: Verbindungsmuster könnten basierend auf dem Eingabeinhalt variieren und verschiedene Arten von Informationen durch verschiedene Pfade leiten.[^81]
Cross-Attention-Modifikationen: Das mHC-Framework könnte auf Attention-Mechanismen erweitert werden und möglicherweise verbessern, wie Modelle Informationen über Sequenzpositionen hinweg kombinieren.[^82]
Implikationen für Trainingskosten
DeepSeek hat eine Erfolgsbilanz beim Training
[Inhalt für Übersetzung gekürzt]