DeepSeek mHC: A Correção Arquitetural Que Pode Destravar Modelos de IA com Trilhões de Parâmetros
Uma amplificação de sinal de 3000x destruiu um modelo de 27 bilhões de parâmetros durante o treinamento.[^1] Os pesquisadores da DeepSeek observaram Hyper-Connections sem restrições causarem divergência catastrófica, com gradientes espiralando além de qualquer esperança de recuperação. A solução que desenvolveram pode reformular como a indústria constrói modelos fundacionais.
Resumo
A DeepSeek publicou um artigo técnico em 31 de dezembro de 2025, introduzindo as Hyper-Connections com Restrição de Manifold (mHC), um framework que projeta matrizes de conexão de redes neurais em um manifold matemático usando o algoritmo Sinkhorn-Knopp.[^2] A abordagem resolve a instabilidade de treinamento que assolava arquiteturas anteriores de Hyper-Connection, controlando a amplificação de sinal para 1,6x comparado a 3000x com métodos sem restrições.[^3] Testes em modelos de 3B, 9B e 27B de parâmetros demonstraram uma melhoria de 2,1% nos benchmarks de raciocínio BIG-Bench Hard com apenas 6,7% de overhead adicional de treinamento.[^4] O CEO Liang Wenfeng co-autorou o artigo, sinalizando que o mHC provavelmente aparecerá no próximo modelo principal da DeepSeek.
O Problema das Conexões Residuais
Todo modelo de linguagem de grande porte hoje depende de conexões residuais, uma técnica introduzida em 2015 com a ResNet que mudou fundamentalmente o deep learning.[^5] O conceito parece simples: permitir que informações contornem camadas adicionando a entrada diretamente à saída, criando "conexões de salto" que permitem que gradientes fluam mais facilmente durante o treinamento.[^6]
O artigo original da ResNet de Kaiming He demonstrou que conexões residuais resolveram o "problema de degradação" que assolava redes profundas.[^7] Sem conexões de salto, adicionar mais camadas a uma rede paradoxalmente aumentava o erro de treinamento. A VGGNet com 19 camadas teve desempenho pior que a AlexNet com 8 camadas em certas tarefas, apesar de ter mais capacidade.[^8]
Conexões residuais permitiram o treinamento de redes com centenas de camadas. A técnica provou ser tão fundamental que todas as arquiteturas transformer incorporam conexões residuais.[^9] GPT, BERT, Claude e todos os outros grandes modelos de linguagem dependem de conexões de salto para funcionar.[^10]
A Limitação
A conexão residual padrão adiciona a entrada diretamente à saída com um peso fixo de 1,0. Essa restrição garante treinamento estável, mas limita a expressividade. A rede não pode aprender que algumas camadas deveriam contribuir mais que outras ou que conexões entre camadas não adjacentes poderiam melhorar o desempenho.[^11]
| Arquitetura | Ano | Tipo Residual | Peso da Conexão |
|---|---|---|---|
| ResNet | 2015 | Salto fixo | 1,0 (constante)[^12] |
| Highway Network | 2015 | Salto com gate | Gate aprendido (0-1)[^13] |
| DenseNet | 2016 | Todos-para-todos | Contribuição igual[^14] |
| Transformer | 2017 | Salto fixo | 1,0 (constante)[^15] |
| Hyper-Connections | 2024 | Largura variável | Matrizes aprendidas[^16] |
Pesquisadores tentaram várias modificações. Highway networks adicionaram gates aprendíveis para controlar o fluxo de informação.[^17] DenseNet conectou cada camada a todas as camadas subsequentes.[^18] Essas abordagens melhoraram o desempenho, mas introduziram overhead computacional ou desafios de treinamento em escala.[^19]
Hyper-Connections: A Revolução Fracassada
Hyper-Connections (HC), introduzidas em 2024, representaram uma tentativa ambiciosa de tornar as conexões residuais totalmente aprendíveis.[^20] Em vez de conexões de salto fixas com peso 1,0, HC permitiu que redes neurais aprendessem forças de conexão arbitrárias entre camadas através de matrizes de pesos.[^21]
A teoria era promissora. Se as redes pudessem aprender padrões de conexão ótimos, poderiam descobrir arquiteturas que humanos nunca projetariam manualmente.[^22] Experimentos iniciais mostraram ganhos substanciais de desempenho em modelos menores.[^23]
O problema surgiu em escala.
Instabilidade Catastrófica
Quando os pesquisadores da DeepSeek tentaram treinar um modelo de 27 bilhões de parâmetros com Hyper-Connections sem restrições, a amplificação de sinal excedeu 3000x.[^24] As representações internas da rede explodiram em magnitude, causando gradientes infinitos e colapso total do treinamento.[^25]
A explicação matemática centra-se em autovalores. Quando matrizes arbitrárias se multiplicam através de centenas de camadas, qualquer autovalor maior que 1,0 causa crescimento exponencial.[^26] Em um modelo de 27B de parâmetros com matrizes de conexão sem restrições, a probabilidade de todos os autovalores permanecerem abaixo de 1,0 aproxima-se de zero.[^27]
| Tamanho do Modelo | Ganho de Sinal HC | Resultado do Treinamento |
|---|---|---|
| 3B parâmetros | ~50x | Completado com desempenho degradado[^28] |
| 9B parâmetros | ~300x | Completado com instabilidade significativa[^29] |
| 27B parâmetros | ~3000x | Divergência catastrófica[^30] |
A propriedade de mapeamento de identidade que fazia as conexões residuais funcionarem foi destruída.[^31] Conexões residuais padrão preservam a magnitude do sinal adicionando entrada à saída. As matrizes arbitrárias das Hyper-Connections quebraram essa garantia, e modelos maiores amplificaram o problema exponencialmente.[^32]
A Solução mHC
O framework de Hyper-Connections com Restrição de Manifold da DeepSeek aborda a instabilidade restringindo as matrizes de conexão a uma estrutura matemática específica.[^33] Em vez de permitir matrizes aprendidas arbitrárias, mHC projeta as conexões no Politopo de Birkhoff, o espaço de matrizes duplamente estocásticas.[^34]
Uma matriz duplamente estocástica tem linhas e colunas que somam 1,0 cada.[^35] Essa restrição garante que a magnitude do sinal não pode crescer ou diminuir conforme a informação passa pela rede.[^36] A propriedade de mapeamento de identidade retorna, mas com flexibilidade aprendida sobre como a informação é roteada entre camadas.[^37]
O Algoritmo Sinkhorn-Knopp
Converter matrizes arbitrárias para forma duplamente estocástica requer o algoritmo Sinkhorn-Knopp, um procedimento iterativo desenvolvido em 1967 para normalização de matrizes.[^38] O algoritmo alterna entre normalizar linhas e normalizar colunas até convergir.[^39]
Entrada: Matriz não-negativa A
Repetir:
1. Normalizar cada linha para somar 1
2. Normalizar cada coluna para somar 1
Até convergência
Saída: Matriz duplamente estocástica
A implementação da DeepSeek usa 20 iterações de normalização Sinkhorn-Knopp, que resultados experimentais mostraram fornecer precisão suficiente sem computação excessiva.[^40] O algoritmo integra-se ao loop de treinamento, projetando os pesos de conexão aprendidos no Politopo de Birkhoff a cada passo.[^41]
Otimização de Infraestrutura
A normalização Sinkhorn-Knopp bruta adicionaria overhead inaceitável ao treinamento. Engenheiros da DeepSeek desenvolveram várias otimizações para tornar o mHC prático em escala.[^42]
Fusão de Kernels: Múltiplas operações de normalização são fundidas em chamadas únicas de kernel de GPU, eliminando o overhead de transferência de memória entre operações.[^43]
Precisão Mista: Kernels baseados em TileLang permitem computação FP8 eficiente para operações de matriz enquanto mantêm precisão FP32 para passos de normalização numericamente sensíveis.[^44]
Recomputação Seletiva: Em vez de armazenar todos os valores intermediários, o sistema recomputa certos tensores durante o passo backward, trocando computação por memória.[^45]
Sobreposição de Comunicação DualPipe: Treinamento multi-GPU sobrepõe a computação Sinkhorn-Knopp com comunicação entre dispositivos, escondendo a latência de normalização.[^46]
| Otimização | Redução de Overhead |
|---|---|
| Fusão de kernels | ~40% redução de latência[^47] |
| Precisão mista | ~30% redução de memória[^48] |
| Recomputação seletiva | ~25% redução de memória[^49] |
| Sobreposição de comunicação | ~50% latência escondida[^50] |
As otimizações combinadas reduzem o overhead de treinamento do mHC para 6,7% acima da linha de base, tornando a técnica viável para treinamento em escala de produção.[^51]
Resultados Experimentais
A DeepSeek testou o mHC contra arquiteturas de linha de base e Hyper-Connections sem restrições em três escalas de modelo: 3B, 9B e 27B de parâmetros.[^52] Todos os modelos usaram a arquitetura DeepSeek-V3 como fundação, incorporando componentes de Multi-Head Latent Attention (MLA) e Mixture-of-Experts (MoE).[^53]
Estabilidade de Treinamento
A melhoria mais dramática apareceu nas métricas de estabilidade de treinamento. Medições de ganho de sinal rastreiam quanto as representações internas crescem conforme a informação passa pela rede.[^54]
| Modelo | Linha de Base | HC | mHC |
|---|---|---|---|
| Ganho de sinal 3B | 1,2x | 48x | 1,5x[^55] |
| Ganho de sinal 9B | 1,3x | 287x | 1,6x[^56] |
| Ganho de sinal 27B | 1,4x | 3012x | 1,6x[^57] |
Modelos treinados com mHC mantiveram ganhos de sinal próximos ao ideal teórico de 1,0x independentemente do tamanho do modelo.[^58] Hyper-Connections sem restrições mostraram instabilidade exponencialmente crescente com a escala, enquanto mHC demonstrou comportamento consistente de 3B a 27B de parâmetros.[^59]
Desempenho em Benchmarks
Melhorias de desempenho apareceram em benchmarks focados em raciocínio, onde avanços arquiteturais tipicamente mostram os maiores ganhos.[^60]
| Benchmark | Linha de Base | mHC | Melhoria |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43,8% | 51,0% | +7,2 pontos[^61] |
| DROP | 78,2% | 81,4% | +3,2 pontos[^62] |
| GSM8K | 82,1% | 84,9% | +2,8 pontos[^63] |
| MMLU | 79,4% | 80,8% | +1,4 pontos[^64] |
As maiores melhorias apareceram no BIG-Bench Hard, um benchmark especificamente projetado para testar raciocínio complexo de múltiplos passos.[^65] DROP, que requer raciocínio numérico sobre passagens longas, mostrou o segundo maior ganho.[^66] Os benchmarks de raciocínio matemático GSM8K e conhecimento geral MMLU demonstraram melhorias menores, mas consistentes.[^67]
Eficiência de Treinamento
Apesar das computações adicionais de Sinkhorn-Knopp, o mHC adicionou apenas 6,7% de overhead ao tempo total de treinamento.[^68] O overhead permaneceu constante através das escalas de modelo, sugerindo que a técnica escala eficientemente para modelos ainda maiores.[^69]
| Tamanho do Modelo | Tempo de Treinamento (Linha de Base) | Tempo de Treinamento (mHC) | Overhead |
|---|---|---|---|
| 3B | 100 horas | 106,5 horas | 6,5%[^70] |
| 9B | 280 horas | 298,8 horas | 6,7%[^71] |
| 27B | 840 horas | 896,3 horas | 6,7%[^72] |
Curvas de loss mostraram o mHC alcançando loss final mais baixo que tanto as abordagens de linha de base quanto HC.[^73] O modelo mHC 27B alcançou um loss final 0,021 menor que a linha de base, traduzindo-se diretamente nas melhorias de benchmark observadas.[^74]
Implicações para o Desenvolvimento de Modelos Fundacionais
O CEO da DeepSeek, Liang Wenfeng, co-autorou o artigo do mHC, um sinal de que a técnica provavelmente aparecerá no próximo modelo principal da empresa.[^75] Analistas esperam que DeepSeek R2 ou V4 incorporem a arquitetura mHC, potencialmente lançando durante o Ano Novo Chinês em fevereiro de 2026.[^76]
As implicações mais amplas estendem-se além da DeepSeek. O mHC aborda uma restrição fundamental que limitou a inovação arquitetural em grandes modelos de linguagem. Na última década, pesquisadores amplamente evitaram modificar conexões residuais porque qualquer mudança que quebrasse o mapeamento de identidade causava instabilidade de treinamento em escala.[^77]
Desbloqueando Inovação Arquitetural
O mHC demonstra que padrões de conexão aprendíveis podem funcionar em escala quando devidamente restringidos.[^78] A projeção no Politopo de Birkhoff mantém as propriedades matemáticas que tornam o treinamento estável enquanto permite que as redes descubram padrões ótimos de roteamento de informação.[^79]
Direções de pesquisa futura abertas pelo mHC incluem:
Forças de conexão específicas por camada: Modelos poderiam aprender que camadas iniciais se beneficiam de conexões de salto mais fortes enquanto camadas mais profundas precisam de padrões de roteamento diferentes.[^80]
Conexões dinâmicas: Padrões de conexão poderiam variar com base no conteúdo da entrada, roteando diferentes tipos de informação através de diferentes caminhos.[^81]
Modificações de cross-attention: O framework mHC poderia estender-se a mecanismos de attention, potencialmente melhorando como modelos combinam informação através de posições de sequência.[^82]
Implicações de Custo de Treinamento
A DeepSeek estabeleceu um histórico de treinar
[Conteúdo truncado para tradução]