DeepSeek mHC : La correction architecturale qui pourrait débloquer les modèles d'IA à mille milliards de paramètres

Le nouveau framework Manifold-Constrained Hyper-Connections de DeepSeek résout un problème de mise à l'échelle vieux de dix ans, permettant un entraînement stable de modèles de plus de 27 milliards de paramètres avec seulement 6,7 % de surcharge.

DeepSeek mHC : La correction architecturale qui pourrait débloquer les modèles d'IA à mille milliards de paramètres

DeepSeek mHC : La correction architecturale qui pourrait débloquer les modèles d'IA à mille milliards de paramètres

Une amplification du signal de 3000x a détruit un modèle de 27 milliards de paramètres pendant l'entraînement.[^1] Les chercheurs de DeepSeek ont observé les Hyper-Connections non contraintes provoquer une divergence catastrophique, avec des gradients spiralant au-delà de tout espoir de récupération. La solution qu'ils ont développée pourrait remodeler la façon dont l'industrie construit les modèles de fondation.

Résumé

DeepSeek a publié un article technique le 31 décembre 2025, introduisant les Manifold-Constrained Hyper-Connections (mHC), un framework qui projette les matrices de connexion des réseaux neuronaux sur une variété mathématique en utilisant l'algorithme de Sinkhorn-Knopp.[^2] L'approche résout l'instabilité d'entraînement qui affligeait les architectures Hyper-Connection précédentes, contrôlant l'amplification du signal à 1,6x contre 3000x avec les méthodes non contraintes.[^3] Les tests sur des modèles de 3B, 9B et 27B paramètres ont démontré une amélioration de 2,1 % sur les benchmarks de raisonnement BIG-Bench Hard avec seulement 6,7 % de surcharge d'entraînement supplémentaire.[^4] Le PDG Liang Wenfeng a co-signé l'article, signalant que mHC apparaîtra probablement dans le prochain modèle phare de DeepSeek.

Le problème des connexions résiduelles

Chaque grand modèle de langage aujourd'hui repose sur les connexions résiduelles, une technique introduite en 2015 avec ResNet qui a fondamentalement changé l'apprentissage profond.[^5] Le concept semble simple : permettre à l'information de contourner les couches en ajoutant l'entrée directement à la sortie, créant des « connexions de saut » qui laissent les gradients circuler plus facilement pendant l'entraînement.[^6]

L'article original de Kaiming He sur ResNet a démontré que les connexions résiduelles résolvaient le « problème de dégradation » qui avait affligé les réseaux profonds.[^7] Sans connexions de saut, ajouter plus de couches à un réseau augmentait paradoxalement l'erreur d'entraînement. VGGNet avec 19 couches performait moins bien qu'AlexNet avec 8 couches sur certaines tâches, malgré une capacité supérieure.[^8]

Les connexions résiduelles ont permis l'entraînement de réseaux avec des centaines de couches. La technique s'est avérée si fondamentale que toutes les architectures transformer incorporent des connexions résiduelles.[^9] GPT, BERT, Claude et tous les autres grands modèles de langage dépendent des connexions de saut pour fonctionner.[^10]

La limitation

La connexion résiduelle standard ajoute l'entrée directement à la sortie avec un poids fixe de 1,0. Cette contrainte assure un entraînement stable mais limite l'expressivité. Le réseau ne peut pas apprendre que certaines couches devraient contribuer plus que d'autres ou que des connexions entre couches non adjacentes pourraient améliorer les performances.[^11]

Architecture Année Type de résiduel Poids de connexion
ResNet 2015 Saut fixe 1,0 (constant)[^12]
Highway Network 2015 Saut avec porte Porte apprise (0-1)[^13]
DenseNet 2016 Tout-à-tout Contribution égale[^14]
Transformer 2017 Saut fixe 1,0 (constant)[^15]
Hyper-Connections 2024 Largeur variable Matrices apprises[^16]

Les chercheurs ont tenté diverses modifications. Les Highway networks ont ajouté des portes apprenables pour contrôler le flux d'information.[^17] DenseNet connectait chaque couche à toutes les couches suivantes.[^18] Ces approches amélioraient les performances mais introduisaient une surcharge computationnelle ou des défis d'entraînement à grande échelle.[^19]

Hyper-Connections : La révolution ratée

Les Hyper-Connections (HC), introduites en 2024, représentaient une tentative ambitieuse de rendre les connexions résiduelles entièrement apprenables.[^20] Au lieu de connexions de saut fixes avec un poids de 1,0, HC permettait aux réseaux neuronaux d'apprendre des forces de connexion arbitraires entre les couches via des matrices de poids.[^21]

La théorie était prometteuse. Si les réseaux pouvaient apprendre des patterns de connexion optimaux, ils pourraient découvrir des architectures que les humains ne concevraient jamais manuellement.[^22] Les premières expériences montraient des gains de performance substantiels sur les modèles plus petits.[^23]

Le problème est apparu à grande échelle.

Instabilité catastrophique

Quand les chercheurs de DeepSeek ont tenté d'entraîner un modèle de 27 milliards de paramètres avec des Hyper-Connections non contraintes, l'amplification du signal a dépassé 3000x.[^24] Les représentations internes du réseau ont explosé en magnitude, causant des gradients infinis et un effondrement total de l'entraînement.[^25]

L'explication mathématique se centre sur les valeurs propres. Quand des matrices arbitraires se multiplient ensemble à travers des centaines de couches, toute valeur propre supérieure à 1,0 cause une croissance exponentielle.[^26] Dans un modèle de 27B paramètres avec des matrices de connexion non contraintes, la probabilité que toutes les valeurs propres restent en dessous de 1,0 approche zéro.[^27]

Taille du modèle Gain de signal HC Résultat d'entraînement
3B paramètres ~50x Terminé avec performances dégradées[^28]
9B paramètres ~300x Terminé avec instabilité significative[^29]
27B paramètres ~3000x Divergence catastrophique[^30]

La propriété de mapping d'identité qui faisait fonctionner les connexions résiduelles avait été détruite.[^31] Les connexions résiduelles standard préservent la magnitude du signal en ajoutant l'entrée à la sortie. Les matrices arbitraires des Hyper-Connections ont brisé cette garantie, et les modèles plus grands amplifiaient le problème exponentiellement.[^32]

La solution mHC

Le framework Manifold-Constrained Hyper-Connections de DeepSeek aborde l'instabilité en contraignant les matrices de connexion à une structure mathématique spécifique.[^33] Au lieu de permettre des matrices apprises arbitraires, mHC projette les connexions sur le polytope de Birkhoff, l'espace des matrices doublement stochastiques.[^34]

Une matrice doublement stochastique a des lignes et des colonnes dont chacune somme à 1,0.[^35] Cette contrainte garantit que la magnitude du signal ne peut ni croître ni diminuer lorsque l'information traverse le réseau.[^36] La propriété de mapping d'identité revient, mais avec une flexibilité apprise sur la façon dont l'information est routée entre les couches.[^37]

L'algorithme de Sinkhorn-Knopp

Convertir des matrices arbitraires en forme doublement stochastique nécessite l'algorithme de Sinkhorn-Knopp, une procédure itérative développée en 1967 pour la normalisation de matrices.[^38] L'algorithme alterne entre la normalisation des lignes et la normalisation des colonnes jusqu'à convergence.[^39]

Entrée : Matrice non négative A
Répéter :
  1. Normaliser chaque ligne pour sommer à 1
  2. Normaliser chaque colonne pour sommer à 1
Jusqu convergence
Sortie : Matrice doublement stochastique

L'implémentation de DeepSeek utilise 20 itérations de normalisation Sinkhorn-Knopp, ce que les résultats expérimentaux ont montré fournir une précision suffisante sans calcul excessif.[^40] L'algorithme s'intègre dans la boucle d'entraînement, projetant les poids de connexion appris sur le polytope de Birkhoff à chaque étape.[^41]

Optimisation de l'infrastructure

La normalisation Sinkhorn-Knopp brute ajouterait une surcharge inacceptable à l'entraînement. Les ingénieurs de DeepSeek ont développé plusieurs optimisations pour rendre mHC pratique à grande échelle.[^42]

Fusion de noyaux : Les opérations de normalisation multiples fusionnent en appels de noyaux GPU uniques, éliminant la surcharge de transfert mémoire entre les opérations.[^43]

Précision mixte : Les noyaux basés sur TileLang permettent un calcul FP8 efficace pour les opérations matricielles tout en maintenant une précision FP32 pour les étapes de normalisation numériquement sensibles.[^44]

Recalcul sélectif : Plutôt que de stocker toutes les valeurs intermédiaires, le système recalcule certains tenseurs pendant la passe arrière, échangeant du calcul contre de la mémoire.[^45]

Chevauchement de communication DualPipe : L'entraînement multi-GPU chevauche le calcul Sinkhorn-Knopp avec la communication inter-appareils, masquant la latence de normalisation.[^46]

Optimisation Réduction de surcharge
Fusion de noyaux ~40 % réduction de latence[^47]
Précision mixte ~30 % réduction mémoire[^48]
Recalcul sélectif ~25 % réduction mémoire[^49]
Chevauchement de communication ~50 % latence masquée[^50]

Les optimisations combinées réduisent la surcharge d'entraînement de mHC à 6,7 % au-dessus de la référence, rendant la technique viable pour l'entraînement à l'échelle de production.[^51]

Résultats expérimentaux

DeepSeek a testé mHC contre les architectures de référence et les Hyper-Connections non contraintes sur trois échelles de modèles : 3B, 9B et 27B paramètres.[^52] Tous les modèles utilisaient l'architecture DeepSeek-V3 comme fondation, incorporant les composants Multi-Head Latent Attention (MLA) et Mixture-of-Experts (MoE).[^53]

Stabilité d'entraînement

L'amélioration la plus dramatique est apparue dans les métriques de stabilité d'entraînement. Les mesures de gain de signal suivent combien les représentations internes croissent lorsque l'information traverse le réseau.[^54]

Modèle Référence HC mHC
Gain de signal 3B 1,2x 48x 1,5x[^55]
Gain de signal 9B 1,3x 287x 1,6x[^56]
Gain de signal 27B 1,4x 3012x 1,6x[^57]

Les modèles entraînés avec mHC maintenaient des gains de signal proches de l'idéal théorique de 1,0x quelle que soit la taille du modèle.[^58] Les Hyper-Connections non contraintes montraient une instabilité croissant exponentiellement avec l'échelle, tandis que mHC démontrait un comportement cohérent de 3B à 27B paramètres.[^59]

Performance sur les benchmarks

Les améliorations de performance sont apparues sur les benchmarks axés sur le raisonnement où les avancées architecturales montrent typiquement les plus grands gains.[^60]

Benchmark Référence mHC Amélioration
BIG-Bench Hard (27B) 43,8 % 51,0 % +7,2 points[^61]
DROP 78,2 % 81,4 % +3,2 points[^62]
GSM8K 82,1 % 84,9 % +2,8 points[^63]
MMLU 79,4 % 80,8 % +1,4 points[^64]

Les plus grandes améliorations sont apparues sur BIG-Bench Hard, un benchmark spécifiquement conçu pour tester le raisonnement complexe en plusieurs étapes.[^65] DROP, qui nécessite un raisonnement numérique sur de longs passages, a montré le deuxième plus grand gain.[^66] Les benchmarks de raisonnement mathématique GSM8K et de connaissances générales MMLU ont démontré des améliorations plus petites mais cohérentes.[^67]

Efficacité d'entraînement

Malgré les calculs Sinkhorn-Knopp supplémentaires, mHC n'a ajouté que 6,7 % de surcharge au temps d'entraînement total.[^68] La surcharge est restée constante à travers les échelles de modèles, suggérant que la technique s'adapte efficacement à des modèles encore plus grands.[^69]

Taille du modèle Temps d'entraînement (Référence) Temps d'entraînement (mHC) Surcharge
3B 100 heures 106,5 heures 6,5 %[^70]
9B 280 heures 298,8 heures 6,7 %[^71]
27B 840 heures 896,3 heures 6,7 %[^72]

Les courbes de perte ont montré que mHC atteignait une perte finale plus basse que les approches de référence et HC.[^73] Le modèle mHC 27B a atteint une perte finale inférieure de 0,021 à la référence, se traduisant directement par les améliorations de benchmark observées.[^74]

Implications pour le développement des modèles de fondation

Le PDG de DeepSeek, Liang Wenfeng, a co-signé l'article sur mHC, un signal que la technique apparaîtra probablement dans le prochain modèle phare de l'entreprise.[^75] Les analystes s'attendent à ce que DeepSeek R2 ou V4 incorpore l'architecture mHC, avec un lancement potentiel pendant le Nouvel An chinois en février 2026.[^76]

Les implications plus larges s'étendent au-delà de DeepSeek. mHC aborde une contrainte fondamentale qui a limité l'innovation architecturale dans les grands modèles de langage. Pendant la dernière décennie, les chercheurs ont largement évité de modifier les connexions résiduelles parce que tout changement qui brisait le mapping d'identité causait une instabilité d'entraînement à grande échelle.[^77]

Débloquer l'innovation architecturale

mHC démontre que les patterns de connexion apprenables peuvent fonctionner à grande échelle lorsqu'ils sont correctement contraints.[^78] La projection sur le polytope de Birkhoff maintient les propriétés mathématiques qui rendent l'entraînement stable tout en permettant aux réseaux de découvrir des patterns de routage d'information optimaux.[^79]

Les directions de recherche futures ouvertes par mHC incluent :

Forces de connexion spécifiques aux couches : Les modèles pourraient apprendre que les premières couches bénéficient de connexions de saut plus fortes tandis que les couches plus profondes nécessitent des patterns de routage différents.[^80]

Connexions dynamiques : Les patterns de connexion pourraient varier en fonction du contenu d'entrée, routant différents types d'information à travers différents chemins.[^81]

Modifications de l'attention croisée : Le framework mHC pourrait s'étendre aux mécanismes d'attention, améliorant potentiellement la façon dont les modèles combinent l'information à travers les positions de séquence.[^82]

Implications sur les coûts d'entraînement

DeepSeek a établi un historique d'entraînement

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT