DeepSeek mHC: La Corrección de Arquitectura Que Podría Desbloquear Modelos de IA de un Billón de Parámetros

El nuevo framework de Hiper-Conexiones con Restricción de Variedad de DeepSeek resuelve un problema de escalado de una década, permitiendo el entrenamiento estable de modelos de más de 27B parámetros con solo un 6.7% de sobrecarga.

DeepSeek mHC: La Corrección de Arquitectura Que Podría Desbloquear Modelos de IA de un Billón de Parámetros

DeepSeek mHC: La Corrección de Arquitectura Que Podría Desbloquear Modelos de IA de un Billón de Parámetros

Una amplificación de señal de 3000x destruyó un modelo de 27 mil millones de parámetros durante el entrenamiento.[^1] Los investigadores de DeepSeek observaron cómo las Hiper-Conexiones sin restricciones causaban una divergencia catastrófica, con gradientes en espiral más allá de cualquier esperanza de recuperación. La solución que desarrollaron podría remodelar la forma en que la industria construye modelos fundacionales.

Resumen Ejecutivo

DeepSeek publicó un artículo técnico el 31 de diciembre de 2025, introduciendo las Hiper-Conexiones con Restricción de Variedad (mHC, por sus siglas en inglés), un framework que proyecta matrices de conexión de redes neuronales sobre una variedad matemática utilizando el algoritmo de Sinkhorn-Knopp.[^2] El enfoque resuelve la inestabilidad de entrenamiento que plagaba las arquitecturas de Hiper-Conexiones anteriores, controlando la amplificación de señal a 1.6x en comparación con 3000x con métodos sin restricciones.[^3] Las pruebas en modelos de 3B, 9B y 27B parámetros demostraron una mejora del 2.1% en los benchmarks de razonamiento BIG-Bench Hard con solo un 6.7% de sobrecarga adicional de entrenamiento.[^4] El CEO Liang Wenfeng coescribió el artículo, señalando que mHC probablemente aparecerá en el próximo modelo insignia de DeepSeek.

El Problema de las Conexiones Residuales

Todos los modelos de lenguaje importantes de hoy dependen de conexiones residuales, una técnica introducida en 2015 con ResNet que cambió fundamentalmente el aprendizaje profundo.[^5] El concepto parece simple: permitir que la información omita capas agregando la entrada directamente a la salida, creando "conexiones de salto" que permiten que los gradientes fluyan más fácilmente durante el entrenamiento.[^6]

El artículo original de ResNet de Kaiming He demostró que las conexiones residuales resolvían el "problema de degradación" que había plagado las redes profundas.[^7] Sin conexiones de salto, agregar más capas a una red paradójicamente aumentaba el error de entrenamiento. VGGNet con 19 capas funcionaba peor que AlexNet con 8 capas en ciertas tareas, a pesar de tener más capacidad.[^8]

Las conexiones residuales permitieron el entrenamiento de redes con cientos de capas. La técnica resultó tan fundamental que todas las arquitecturas transformer incorporan conexiones residuales.[^9] GPT, BERT, Claude y todos los demás modelos de lenguaje grandes dependen de las conexiones de salto para funcionar.[^10]

La Limitación

La conexión residual estándar agrega la entrada directamente a la salida con un peso fijo de 1.0. Esta restricción asegura un entrenamiento estable pero limita la expresividad. La red no puede aprender que algunas capas deberían contribuir más que otras o que las conexiones entre capas no adyacentes podrían mejorar el rendimiento.[^11]

Arquitectura Año Tipo Residual Peso de Conexión
ResNet 2015 Salto fijo 1.0 (constante)[^12]
Highway Network 2015 Salto con compuerta Compuerta aprendida (0-1)[^13]
DenseNet 2016 Todos a todos Contribución igual[^14]
Transformer 2017 Salto fijo 1.0 (constante)[^15]
Hiper-Conexiones 2024 Ancho variable Matrices aprendidas[^16]

Los investigadores intentaron varias modificaciones. Las redes Highway agregaron compuertas aprendibles para controlar el flujo de información.[^17] DenseNet conectó cada capa con todas las capas subsecuentes.[^18] Estos enfoques mejoraron el rendimiento pero introdujeron sobrecarga computacional o desafíos de entrenamiento a escala.[^19]

Hiper-Conexiones: La Revolución Fallida

Las Hiper-Conexiones (HC), introducidas en 2024, representaron un intento ambicioso de hacer las conexiones residuales completamente aprendibles.[^20] En lugar de conexiones de salto fijas con peso 1.0, HC permitió a las redes neuronales aprender fortalezas de conexión arbitrarias entre capas a través de matrices de pesos.[^21]

La teoría era prometedora. Si las redes pudieran aprender patrones de conexión óptimos, podrían descubrir arquitecturas que los humanos nunca diseñarían manualmente.[^22] Los experimentos iniciales mostraron ganancias de rendimiento sustanciales en modelos más pequeños.[^23]

El problema emergió a escala.

Inestabilidad Catastrófica

Cuando los investigadores de DeepSeek intentaron entrenar un modelo de 27 mil millones de parámetros con Hiper-Conexiones sin restricciones, la amplificación de señal excedió 3000x.[^24] Las representaciones internas de la red explotaron en magnitud, causando que los gradientes se volvieran infinitos y el entrenamiento colapsara por completo.[^25]

La explicación matemática se centra en los valores propios. Cuando matrices arbitrarias se multiplican entre sí a través de cientos de capas, cualquier valor propio mayor que 1.0 causa crecimiento exponencial.[^26] En un modelo de 27B parámetros con matrices de conexión sin restricciones, la probabilidad de que todos los valores propios permanezcan por debajo de 1.0 se aproxima a cero.[^27]

Tamaño del Modelo Ganancia de Señal HC Resultado del Entrenamiento
3B parámetros ~50x Completado con rendimiento degradado[^28]
9B parámetros ~300x Completado con inestabilidad significativa[^29]
27B parámetros ~3000x Divergencia catastrófica[^30]

La propiedad de mapeo de identidad que hacía funcionar las conexiones residuales había sido destruida.[^31] Las conexiones residuales estándar preservan la magnitud de la señal al agregar la entrada a la salida. Las matrices arbitrarias de las Hiper-Conexiones rompieron esta garantía, y los modelos más grandes amplificaron el problema exponencialmente.[^32]

La Solución mHC

El framework de Hiper-Conexiones con Restricción de Variedad de DeepSeek aborda la inestabilidad restringiendo las matrices de conexión a una estructura matemática específica.[^33] En lugar de permitir matrices aprendidas arbitrarias, mHC proyecta las conexiones sobre el Politopo de Birkhoff, el espacio de matrices doblemente estocásticas.[^34]

Una matriz doblemente estocástica tiene filas y columnas que suman 1.0 cada una.[^35] Esta restricción garantiza que la magnitud de la señal no pueda crecer ni disminuir a medida que la información pasa a través de la red.[^36] La propiedad de mapeo de identidad regresa, pero con flexibilidad aprendida sobre cómo la información se enruta entre capas.[^37]

El Algoritmo de Sinkhorn-Knopp

Convertir matrices arbitrarias a forma doblemente estocástica requiere el algoritmo de Sinkhorn-Knopp, un procedimiento iterativo desarrollado en 1967 para la normalización de matrices.[^38] El algoritmo alterna entre normalizar filas y normalizar columnas hasta la convergencia.[^39]

Entrada: Matriz no negativa A
Repetir:
  1. Normalizar cada fila para que sume 1
  2. Normalizar cada columna para que sume 1
Hasta convergencia
Salida: Matriz doblemente estocástica

La implementación de DeepSeek usa 20 iteraciones de normalización Sinkhorn-Knopp, lo cual los resultados experimentales mostraron que proporciona suficiente precisión sin cómputo excesivo.[^40] El algoritmo se integra en el bucle de entrenamiento, proyectando los pesos de conexión aprendidos sobre el Politopo de Birkhoff en cada paso.[^41]

Optimización de Infraestructura

La normalización Sinkhorn-Knopp sin optimizar agregaría una sobrecarga inaceptable al entrenamiento. Los ingenieros de DeepSeek desarrollaron varias optimizaciones para hacer mHC práctico a escala.[^42]

Fusión de Kernels: Múltiples operaciones de normalización se fusionan en llamadas únicas de kernel GPU, eliminando la sobrecarga de transferencia de memoria entre operaciones.[^43]

Precisión Mixta: Los kernels basados en TileLang permiten cómputo eficiente FP8 para operaciones de matrices mientras mantienen precisión FP32 para pasos de normalización numéricamente sensibles.[^44]

Recálculo Selectivo: En lugar de almacenar todos los valores intermedios, el sistema recalcula ciertos tensores durante el paso hacia atrás, intercambiando cómputo por memoria.[^45]

Superposición de Comunicación DualPipe: El entrenamiento multi-GPU superpone el cómputo de Sinkhorn-Knopp con la comunicación entre dispositivos, ocultando la latencia de normalización.[^46]

Optimización Reducción de Sobrecarga
Fusión de kernels ~40% reducción de latencia[^47]
Precisión mixta ~30% reducción de memoria[^48]
Recálculo selectivo ~25% reducción de memoria[^49]
Superposición de comunicación ~50% latencia oculta[^50]

Las optimizaciones combinadas reducen la sobrecarga de entrenamiento de mHC al 6.7% sobre la línea base, haciendo la técnica viable para entrenamiento a escala de producción.[^51]

Resultados Experimentales

DeepSeek probó mHC contra arquitecturas de línea base y Hiper-Conexiones sin restricciones en tres escalas de modelo: 3B, 9B y 27B parámetros.[^52] Todos los modelos usaron la arquitectura DeepSeek-V3 como base, incorporando componentes de Atención Latente Multi-Cabeza (MLA) y Mezcla de Expertos (MoE).[^53]

Estabilidad de Entrenamiento

La mejora más dramática apareció en las métricas de estabilidad de entrenamiento. Las mediciones de ganancia de señal rastrean cuánto crecen las representaciones internas a medida que la información pasa a través de la red.[^54]

Modelo Línea Base HC mHC
Ganancia de señal 3B 1.2x 48x 1.5x[^55]
Ganancia de señal 9B 1.3x 287x 1.6x[^56]
Ganancia de señal 27B 1.4x 3012x 1.6x[^57]

Los modelos entrenados con mHC mantuvieron ganancias de señal cerca del ideal teórico de 1.0x independientemente del tamaño del modelo.[^58] Las Hiper-Conexiones sin restricciones mostraron inestabilidad creciente exponencialmente con la escala, mientras que mHC demostró comportamiento consistente desde 3B hasta 27B parámetros.[^59]

Rendimiento en Benchmarks

Las mejoras de rendimiento aparecieron en benchmarks enfocados en razonamiento donde los avances arquitectónicos típicamente muestran las mayores ganancias.[^60]

Benchmark Línea Base mHC Mejora
BIG-Bench Hard (27B) 43.8% 51.0% +7.2 puntos[^61]
DROP 78.2% 81.4% +3.2 puntos[^62]
GSM8K 82.1% 84.9% +2.8 puntos[^63]
MMLU 79.4% 80.8% +1.4 puntos[^64]

Las mayores mejoras aparecieron en BIG-Bench Hard, un benchmark específicamente diseñado para probar razonamiento complejo de múltiples pasos.[^65] DROP, que requiere razonamiento numérico sobre pasajes largos, mostró la segunda mayor ganancia.[^66] Los benchmarks de razonamiento matemático GSM8K y conocimiento general MMLU demostraron mejoras más pequeñas pero consistentes.[^67]

Eficiencia de Entrenamiento

A pesar de los cómputos adicionales de Sinkhorn-Knopp, mHC agregó solo un 6.7% de sobrecarga al tiempo total de entrenamiento.[^68] La sobrecarga permaneció constante a través de las escalas de modelo, sugiriendo que la técnica escala eficientemente a modelos aún más grandes.[^69]

Tamaño del Modelo Tiempo de Entrenamiento (Línea Base) Tiempo de Entrenamiento (mHC) Sobrecarga
3B 100 horas 106.5 horas 6.5%[^70]
9B 280 horas 298.8 horas 6.7%[^71]
27B 840 horas 896.3 horas 6.7%[^72]

Las curvas de pérdida mostraron que mHC logra una pérdida final más baja que tanto los enfoques de línea base como HC.[^73] El modelo mHC de 27B logró una pérdida final 0.021 menor que la línea base, traduciéndose directamente en las mejoras de benchmark observadas.[^74]

Implicaciones para el Desarrollo de Modelos Fundacionales

El CEO de DeepSeek, Liang Wenfeng, coescribió el artículo de mHC, una señal de que la técnica probablemente aparecerá en el próximo modelo insignia de la compañía.[^75] Los analistas esperan que ya sea DeepSeek R2 o V4 incorpore la arquitectura mHC, potencialmente lanzándose durante el Año Nuevo Chino en febrero de 2026.[^76]

Las implicaciones más amplias se extienden más allá de DeepSeek. mHC aborda una restricción fundamental que ha limitado la innovación arquitectónica en modelos de lenguaje grandes. Durante la última década, los investigadores han evitado en gran medida modificar las conexiones residuales porque cualquier cambio que rompiera el mapeo de identidad causaba inestabilidad de entrenamiento a escala.[^77]

Desbloqueando la Innovación Arquitectónica

mHC demuestra que los patrones de conexión aprendibles pueden funcionar a escala cuando están apropiadamente restringidos.[^78] La proyección del Politopo de Birkhoff mantiene las propiedades matemáticas que hacen el entrenamiento estable mientras permite que las redes descubran patrones óptimos de enrutamiento de información.[^79]

Las direcciones de investigación futura abiertas por mHC incluyen:

Fortalezas de conexión específicas por capa: Los modelos podrían aprender que las capas tempranas se benefician de conexiones de salto más fuertes mientras las capas más profundas necesitan diferentes patrones de enrutamiento.[^80]

Conexiones dinámicas: Los patrones de conexión podrían variar según el contenido de entrada, enrutando diferentes tipos de información a través de diferentes caminos.[^81]

Modificaciones de atención cruzada: El framework mHC podría extenderse a mecanismos de atención, potencialmente mejorando cómo los modelos combinan información a través de posiciones de secuencia.[^82]

Implicaciones de Costo de Entrenamiento

DeepSeek ha establecido un historial de entrenamiento

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO