DeepSeek mHC: A Correção Arquitetural Que Pode Destravar Modelos de IA com Trilhões de Parâmetros

O novo framework de Hyper-Connections com Restrição de Manifold da DeepSeek resolve um problema de escalabilidade de uma década, permitindo treinamento estável de modelos com mais de 27B de parâmetros com apenas 6,7% de overhead.

Blake Crosley

Jan 03, 2026 8 min read Disclaimer

DeepSeek mHC: A Correção Arquitetural Que Pode Destravar Modelos de IA com Trilhões de Parâmetros

Uma amplificação de sinal de 3000x destruiu um modelo de 27 bilhões de parâmetros durante o treinamento.[^1] Os pesquisadores da DeepSeek observaram Hyper-Connections sem restrições causarem divergência catastrófica, com gradientes espiralando além de qualquer esperança de recuperação. A solução que desenvolveram pode reformular como a indústria constrói modelos fundacionais.

Resumo

A DeepSeek publicou um artigo técnico em 31 de dezembro de 2025, introduzindo as Hyper-Connections com Restrição de Manifold (mHC), um framework que projeta matrizes de conexão de redes neurais em um manifold matemático usando o algoritmo Sinkhorn-Knopp.[^2] A abordagem resolve a instabilidade de treinamento que assolava arquiteturas anteriores de Hyper-Connection, controlando a amplificação de sinal para 1,6x comparado a 3000x com métodos sem restrições.[^3] Testes em modelos de 3B, 9B e 27B de parâmetros demonstraram uma melhoria de 2,1% nos benchmarks de raciocínio BIG-Bench Hard com apenas 6,7% de overhead adicional de treinamento.[^4] O CEO Liang Wenfeng co-autorou o artigo, sinalizando que o mHC provavelmente aparecerá no próximo modelo principal da DeepSeek.

O Problema das Conexões Residuais

Todo modelo de linguagem de grande porte hoje depende de conexões residuais, uma técnica introduzida em 2015 com a ResNet que mudou fundamentalmente o deep learning.[^5] O conceito parece simples: permitir que informações contornem camadas adicionando a entrada diretamente à saída, criando "conexões de salto" que permitem que gradientes fluam mais facilmente durante o treinamento.[^6]

O artigo original da ResNet de Kaiming He demonstrou que conexões residuais resolveram o "problema de degradação" que assolava redes profundas.[^7] Sem conexões de salto, adicionar mais camadas a uma rede paradoxalmente aumentava o erro de treinamento. A VGGNet com 19 camadas teve desempenho pior que a AlexNet com 8 camadas em certas tarefas, apesar de ter mais capacidade.[^8]

Conexões residuais permitiram o treinamento de redes com centenas de camadas. A técnica provou ser tão fundamental que todas as arquiteturas transformer incorporam conexões residuais.[^9] GPT, BERT, Claude e todos os outros grandes modelos de linguagem dependem de conexões de salto para funcionar.[^10]

A Limitação

A conexão residual padrão adiciona a entrada diretamente à saída com um peso fixo de 1,0. Essa restrição garante treinamento estável, mas limita a expressividade. A rede não pode aprender que algumas camadas deveriam contribuir mais que outras ou que conexões entre camadas não adjacentes poderiam melhorar o desempenho.[^11]

Arquitetura	Ano	Tipo Residual	Peso da Conexão
ResNet	2015	Salto fixo	1,0 (constante)[^12]
Highway Network	2015	Salto com gate	Gate aprendido (0-1)[^13]
DenseNet	2016	Todos-para-todos	Contribuição igual[^14]
Transformer	2017	Salto fixo	1,0 (constante)[^15]
Hyper-Connections	2024	Largura variável	Matrizes aprendidas[^16]

Pesquisadores tentaram várias modificações. Highway networks adicionaram gates aprendíveis para controlar o fluxo de informação.[^17] DenseNet conectou cada camada a todas as camadas subsequentes.[^18] Essas abordagens melhoraram o desempenho, mas introduziram overhead computacional ou desafios de treinamento em escala.[^19]

Hyper-Connections: A Revolução Fracassada

Hyper-Connections (HC), introduzidas em 2024, representaram uma tentativa ambiciosa de tornar as conexões residuais totalmente aprendíveis.[^20] Em vez de conexões de salto fixas com peso 1,0, HC permitiu que redes neurais aprendessem forças de conexão arbitrárias entre camadas através de matrizes de pesos.[^21]

A teoria era promissora. Se as redes pudessem aprender padrões de conexão ótimos, poderiam descobrir arquiteturas que humanos nunca projetariam manualmente.[^22] Experimentos iniciais mostraram ganhos substanciais de desempenho em modelos menores.[^23]

O problema surgiu em escala.

Instabilidade Catastrófica

Quando os pesquisadores da DeepSeek tentaram treinar um modelo de 27 bilhões de parâmetros com Hyper-Connections sem restrições, a amplificação de sinal excedeu 3000x.[^24] As representações internas da rede explodiram em magnitude, causando gradientes infinitos e colapso total do treinamento.[^25]

A explicação matemática centra-se em autovalores. Quando matrizes arbitrárias se multiplicam através de centenas de camadas, qualquer autovalor maior que 1,0 causa crescimento exponencial.[^26] Em um modelo de 27B de parâmetros com matrizes de conexão sem restrições, a probabilidade de todos os autovalores permanecerem abaixo de 1,0 aproxima-se de zero.[^27]

Tamanho do Modelo	Ganho de Sinal HC	Resultado do Treinamento
3B parâmetros	~50x	Completado com desempenho degradado[^28]
9B parâmetros	~300x	Completado com instabilidade significativa[^29]
27B parâmetros	~3000x	Divergência catastrófica[^30]

A propriedade de mapeamento de identidade que fazia as conexões residuais funcionarem foi destruída.[^31] Conexões residuais padrão preservam a magnitude do sinal adicionando entrada à saída. As matrizes arbitrárias das Hyper-Connections quebraram essa garantia, e modelos maiores amplificaram o problema exponencialmente.[^32]

A Solução mHC

O framework de Hyper-Connections com Restrição de Manifold da DeepSeek aborda a instabilidade restringindo as matrizes de conexão a uma estrutura matemática específica.[^33] Em vez de permitir matrizes aprendidas arbitrárias, mHC projeta as conexões no Politopo de Birkhoff, o espaço de matrizes duplamente estocásticas.[^34]

Uma matriz duplamente estocástica tem linhas e colunas que somam 1,0 cada.[^35] Essa restrição garante que a magnitude do sinal não pode crescer ou diminuir conforme a informação passa pela rede.[^36] A propriedade de mapeamento de identidade retorna, mas com flexibilidade aprendida sobre como a informação é roteada entre camadas.[^37]

O Algoritmo Sinkhorn-Knopp

Converter matrizes arbitrárias para forma duplamente estocástica requer o algoritmo Sinkhorn-Knopp, um procedimento iterativo desenvolvido em 1967 para normalização de matrizes.[^38] O algoritmo alterna entre normalizar linhas e normalizar colunas até convergir.[^39]

Entrada: Matriz não-negativa A
Repetir:
  1. Normalizar cada linha para somar 1
  2. Normalizar cada coluna para somar 1
Até convergência
Saída: Matriz duplamente estocástica

A implementação da DeepSeek usa 20 iterações de normalização Sinkhorn-Knopp, que resultados experimentais mostraram fornecer precisão suficiente sem computação excessiva.[^40] O algoritmo integra-se ao loop de treinamento, projetando os pesos de conexão aprendidos no Politopo de Birkhoff a cada passo.[^41]

Otimização de Infraestrutura

A normalização Sinkhorn-Knopp bruta adicionaria overhead inaceitável ao treinamento. Engenheiros da DeepSeek desenvolveram várias otimizações para tornar o mHC prático em escala.[^42]

Fusão de Kernels: Múltiplas operações de normalização são fundidas em chamadas únicas de kernel de GPU, eliminando o overhead de transferência de memória entre operações.[^43]

Precisão Mista: Kernels baseados em TileLang permitem computação FP8 eficiente para operações de matriz enquanto mantêm precisão FP32 para passos de normalização numericamente sensíveis.[^44]

Recomputação Seletiva: Em vez de armazenar todos os valores intermediários, o sistema recomputa certos tensores durante o passo backward, trocando computação por memória.[^45]

Sobreposição de Comunicação DualPipe: Treinamento multi-GPU sobrepõe a computação Sinkhorn-Knopp com comunicação entre dispositivos, escondendo a latência de normalização.[^46]

Otimização	Redução de Overhead
Fusão de kernels	~40% redução de latência[^47]
Precisão mista	~30% redução de memória[^48]
Recomputação seletiva	~25% redução de memória[^49]
Sobreposição de comunicação	~50% latência escondida[^50]

As otimizações combinadas reduzem o overhead de treinamento do mHC para 6,7% acima da linha de base, tornando a técnica viável para treinamento em escala de produção.[^51]

Resultados Experimentais

A DeepSeek testou o mHC contra arquiteturas de linha de base e Hyper-Connections sem restrições em três escalas de modelo: 3B, 9B e 27B de parâmetros.[^52] Todos os modelos usaram a arquitetura DeepSeek-V3 como fundação, incorporando componentes de Multi-Head Latent Attention (MLA) e Mixture-of-Experts (MoE).[^53]

Estabilidade de Treinamento

A melhoria mais dramática apareceu nas métricas de estabilidade de treinamento. Medições de ganho de sinal rastreiam quanto as representações internas crescem conforme a informação passa pela rede.[^54]

Modelo	Linha de Base	HC	mHC
Ganho de sinal 3B	1,2x	48x	1,5x[^55]
Ganho de sinal 9B	1,3x	287x	1,6x[^56]
Ganho de sinal 27B	1,4x	3012x	1,6x[^57]

Modelos treinados com mHC mantiveram ganhos de sinal próximos ao ideal teórico de 1,0x independentemente do tamanho do modelo.[^58] Hyper-Connections sem restrições mostraram instabilidade exponencialmente crescente com a escala, enquanto mHC demonstrou comportamento consistente de 3B a 27B de parâmetros.[^59]

Desempenho em Benchmarks

Melhorias de desempenho apareceram em benchmarks focados em raciocínio, onde avanços arquiteturais tipicamente mostram os maiores ganhos.[^60]

Benchmark	Linha de Base	mHC	Melhoria
BIG-Bench Hard (27B)	43,8%	51,0%	+7,2 pontos[^61]
DROP	78,2%	81,4%	+3,2 pontos[^62]
GSM8K	82,1%	84,9%	+2,8 pontos[^63]
MMLU	79,4%	80,8%	+1,4 pontos[^64]

As maiores melhorias apareceram no BIG-Bench Hard, um benchmark especificamente projetado para testar raciocínio complexo de múltiplos passos.[^65] DROP, que requer raciocínio numérico sobre passagens longas, mostrou o segundo maior ganho.[^66] Os benchmarks de raciocínio matemático GSM8K e conhecimento geral MMLU demonstraram melhorias menores, mas consistentes.[^67]

Eficiência de Treinamento

Apesar das computações adicionais de Sinkhorn-Knopp, o mHC adicionou apenas 6,7% de overhead ao tempo total de treinamento.[^68] O overhead permaneceu constante através das escalas de modelo, sugerindo que a técnica escala eficientemente para modelos ainda maiores.[^69]

Tamanho do Modelo	Tempo de Treinamento (Linha de Base)	Tempo de Treinamento (mHC)	Overhead
3B	100 horas	106,5 horas	6,5%[^70]
9B	280 horas	298,8 horas	6,7%[^71]
27B	840 horas	896,3 horas	6,7%[^72]

Curvas de loss mostraram o mHC alcançando loss final mais baixo que tanto as abordagens de linha de base quanto HC.[^73] O modelo mHC 27B alcançou um loss final 0,021 menor que a linha de base, traduzindo-se diretamente nas melhorias de benchmark observadas.[^74]

Implicações para o Desenvolvimento de Modelos Fundacionais

O CEO da DeepSeek, Liang Wenfeng, co-autorou o artigo do mHC, um sinal de que a técnica provavelmente aparecerá no próximo modelo principal da empresa.[^75] Analistas esperam que DeepSeek R2 ou V4 incorporem a arquitetura mHC, potencialmente lançando durante o Ano Novo Chinês em fevereiro de 2026.[^76]

As implicações mais amplas estendem-se além da DeepSeek. O mHC aborda uma restrição fundamental que limitou a inovação arquitetural em grandes modelos de linguagem. Na última década, pesquisadores amplamente evitaram modificar conexões residuais porque qualquer mudança que quebrasse o mapeamento de identidade causava instabilidade de treinamento em escala.[^77]

Desbloqueando Inovação Arquitetural

O mHC demonstra que padrões de conexão aprendíveis podem funcionar em escala quando devidamente restringidos.[^78] A projeção no Politopo de Birkhoff mantém as propriedades matemáticas que tornam o treinamento estável enquanto permite que as redes descubram padrões ótimos de roteamento de informação.[^79]

Direções de pesquisa futura abertas pelo mHC incluem:

Forças de conexão específicas por camada: Modelos poderiam aprender que camadas iniciais se beneficiam de conexões de salto mais fortes enquanto camadas mais profundas precisam de padrões de roteamento diferentes.[^80]

Conexões dinâmicas: Padrões de conexão poderiam variar com base no conteúdo da entrada, roteando diferentes tipos de informação através de diferentes caminhos.[^81]

Modificações de cross-attention: O framework mHC poderia estender-se a mecanismos de attention, potencialmente melhorando como modelos combinam informação através de posições de sequência.[^82]

Implicações de Custo de Treinamento

A DeepSeek estabeleceu um histórico de treinar

[Conteúdo truncado para tradução]

DeepSeek mHC: A Correção Arquitetural Que Pode Destravar Modelos de IA com Trilhões de Parâmetros

Resumo

O Problema das Conexões Residuais

A Limitação

Hyper-Connections: A Revolução Fracassada

Instabilidade Catastrófica

A Solução mHC

O Algoritmo Sinkhorn-Knopp

Otimização de Infraestrutura

Resultados Experimentais

Estabilidade de Treinamento

Desempenho em Benchmarks

Eficiência de Treinamento

Implicações para o Desenvolvimento de Modelos Fundacionais

Desbloqueando Inovação Arquitetural

Implicações de Custo de Treinamento

You Might Also Like

Trump abre exportações de H200 para a China com sobretaxa de...

O Superciclo da Memória de IA: Como a HBM Se Tornou o Gargal...

Trump Permite que a Nvidia Venda Chips H200 para a China em ...

Solicitar Orçamento_

Solicitação Recebida_