DeepSeek mHC:1兆パラメータAIモデルを実現する可能性を秘めたアーキテクチャの革新
3000倍の信号増幅が、学習中に270億パラメータのモデルを破壊しました。[^1] DeepSeekの研究者たちは、制約のないHyper-Connectionsが壊滅的な発散を引き起こし、勾配が回復不能なほど発散していく様子を目撃しました。彼らが開発した解決策は、業界が基盤モデルを構築する方法を根本から変える可能性があります。
要約
DeepSeekは2025年12月31日に技術論文を発表し、Manifold-Constrained Hyper-Connections(mHC、多様体制約付きハイパーコネクション)を紹介しました。これは、Sinkhorn-Knoppアルゴリズムを使用してニューラルネットワークの接続行列を数学的多様体に射影するフレームワークです。[^2] このアプローチは、従来のHyper-Connectionsアーキテクチャを悩ませていた学習の不安定性を解決し、制約のない手法では3000倍だった信号増幅を1.6倍に制御します。[^3] 30億、90億、270億パラメータのモデルでのテストでは、BIG-Bench Hard推論ベンチマークで2.1%の改善を達成し、追加の学習オーバーヘッドはわずか6.7%でした。[^4] CEO梁文鋒(Liang Wenfeng)が論文の共著者であることは、mHCがDeepSeekの次期フラッグシップモデルに採用される可能性が高いことを示唆しています。
残差接続の問題
今日のすべての主要な言語モデルは残差接続に依存しています。これは2015年にResNetで導入された技術であり、深層学習を根本的に変革しました。[^5] コンセプトはシンプルに見えます:入力を出力に直接加算することで情報がレイヤーをバイパスできるようにし、学習中に勾配がより容易に流れる「スキップ接続」を作成します。[^6]
Kaiming Heのオリジナルの ResNet論文は、残差接続が深層ネットワークを悩ませていた「劣化問題」を解決したことを実証しました。[^7] スキップ接続がなければ、ネットワークにレイヤーを追加すると、より多くの容量を持っているにもかかわらず、逆説的に学習誤差が増加しました。19層のVGGNetは、特定のタスクで8層のAlexNetよりも性能が悪くなりました。[^8]
残差接続により、数百層のネットワークの学習が可能になりました。この技術は非常に基本的なものであることが証明され、すべてのTransformerアーキテクチャに残差接続が組み込まれています。[^9] GPT、BERT、Claude、その他すべての大規模言語モデルは、機能するためにスキップ接続に依存しています。[^10]
限界
標準的な残差接続は、固定重み1.0で入力を出力に直接加算します。この制約は安定した学習を保証しますが、表現力を制限します。ネットワークは、一部のレイヤーが他のレイヤーよりも多く貢献すべきであることや、隣接していないレイヤー間の接続がパフォーマンスを向上させる可能性があることを学習できません。[^11]
| アーキテクチャ | 年 | 残差タイプ | 接続重み |
|---|---|---|---|
| ResNet | 2015 | 固定スキップ | 1.0(定数)[^12] |
| Highway Network | 2015 | ゲート付きスキップ | 学習されたゲート(0-1)[^13] |
| DenseNet | 2016 | 全対全 | 均等な貢献[^14] |
| Transformer | 2017 | 固定スキップ | 1.0(定数)[^15] |
| Hyper-Connections | 2024 | 可変幅 | 学習された行列[^16] |
研究者たちは様々な修正を試みました。Highway Networksは情報の流れを制御する学習可能なゲートを追加しました。[^17] DenseNetはすべてのレイヤーを後続のすべてのレイヤーに接続しました。[^18] これらのアプローチはパフォーマンスを向上させましたが、計算オーバーヘッドやスケールでの学習課題を引き起こしました。[^19]
Hyper-Connections:失敗した革命
2024年に導入されたHyper-Connections(HC)は、残差接続を完全に学習可能にする野心的な試みでした。[^20] 重み1.0の固定スキップ接続の代わりに、HCはニューラルネットワークが重み行列を通じてレイヤー間の任意の接続強度を学習できるようにしました。[^21]
理論は有望でした。ネットワークが最適な接続パターンを学習できれば、人間が手動で設計することのないアーキテクチャを発見できるかもしれません。[^22] 初期の実験では、小規模なモデルで大幅なパフォーマンス向上が示されました。[^23]
問題はスケールで発生しました。
壊滅的な不安定性
DeepSeekの研究者が制約のないHyper-Connectionsで270億パラメータのモデルを学習しようとしたとき、信号増幅は3000倍を超えました。[^24] ネットワークの内部表現の大きさが爆発的に増大し、勾配が無限大になり、学習が完全に崩壊しました。[^25]
数学的な説明は固有値に集中しています。任意の行列が数百のレイヤーにわたって乗算されると、1.0より大きい固有値は指数関数的な成長を引き起こします。[^26] 制約のない接続行列を持つ270億パラメータのモデルでは、すべての固有値が1.0未満に留まる確率はゼロに近づきます。[^27]
| モデルサイズ | HC信号ゲイン | 学習結果 |
|---|---|---|
| 30億パラメータ | 約50倍 | 性能低下とともに完了[^28] |
| 90億パラメータ | 約300倍 | 大幅な不安定性とともに完了[^29] |
| 270億パラメータ | 約3000倍 | 壊滅的な発散[^30] |
残差接続を機能させていた恒等写像特性が破壊されました。[^31] 標準的な残差接続は、入力を出力に加算することで信号の大きさを保持します。Hyper-Connectionsの任意の行列はこの保証を破り、より大きなモデルは問題を指数関数的に増幅しました。[^32]
mHCの解決策
DeepSeekのManifold-Constrained Hyper-Connectionsフレームワークは、接続行列を特定の数学的構造に制約することで不安定性に対処します。[^33] 任意の学習された行列を許可する代わりに、mHCは接続をBirkhoff Polytope(二重確率行列の空間)に射影します。[^34]
二重確率行列は、行と列がそれぞれ1.0に合計される行列です。[^35] この制約は、情報がネットワークを通過する際に信号の大きさが増減しないことを保証します。[^36] 恒等写像特性が戻りますが、情報がレイヤー間でどのようにルーティングされるかについての学習された柔軟性を持ちます。[^37]
Sinkhorn-Knoppアルゴリズム
任意の行列を二重確率形式に変換するには、1967年に行列正規化のために開発された反復手順であるSinkhorn-Knoppアルゴリズムが必要です。[^38] このアルゴリズムは、収束するまで行の正規化と列の正規化を交互に行います。[^39]
入力:非負行列A
繰り返し:
1. 各行を合計が1になるように正規化
2. 各列を合計が1になるように正規化
収束するまで
出力:二重確率行列
DeepSeekの実装では、Sinkhorn-Knopp正規化を20回反復します。実験結果によると、これは過度な計算なしに十分な精度を提供します。[^40] アルゴリズムは学習ループに統合され、各ステップで学習された接続重みをBirkhoff Polytopeに射影します。[^41]
インフラストラクチャの最適化
生のSinkhorn-Knopp正規化は、学習に許容できないオーバーヘッドを追加します。DeepSeekのエンジニアは、mHCを大規模で実用的にするためのいくつかの最適化を開発しました。[^42]
カーネルフュージョン:複数の正規化操作が単一のGPUカーネル呼び出しに統合され、操作間のメモリ転送オーバーヘッドが排除されます。[^43]
混合精度:TileLangベースのカーネルにより、行列演算に効率的なFP8計算を可能にしながら、数値的に敏感な正規化ステップにはFP32精度を維持します。[^44]
選択的再計算:すべての中間値を保存する代わりに、システムはバックワードパス中に特定のテンソルを再計算し、メモリと引き換えに計算を行います。[^45]
DualPipe通信オーバーラップ:マルチGPU学習では、Sinkhorn-Knopp計算とデバイス間通信をオーバーラップさせ、正規化のレイテンシを隠蔽します。[^46]
| 最適化 | オーバーヘッド削減 |
|---|---|
| カーネルフュージョン | 約40%のレイテンシ削減[^47] |
| 混合精度 | 約30%のメモリ削減[^48] |
| 選択的再計算 | 約25%のメモリ削減[^49] |
| 通信オーバーラップ | 約50%のレイテンシ隠蔽[^50] |
これらの最適化を組み合わせることで、mHCの学習オーバーヘッドはベースラインの6.7%増に抑えられ、本番規模の学習で実用的な技術となります。[^51]
実験結果
DeepSeekは、30億、90億、270億パラメータの3つのモデルスケールで、mHCをベースラインアーキテクチャおよび制約のないHyper-Connectionsと比較テストしました。[^52] すべてのモデルは、Multi-Head Latent Attention(MLA)とMixture-of-Experts(MoE)コンポーネントを組み込んだDeepSeek-V3アーキテクチャを基盤として使用しました。[^53]
学習の安定性
最も劇的な改善は学習の安定性指標に現れました。信号ゲイン測定は、情報がネットワークを通過する際に内部表現がどれだけ増大するかを追跡します。[^54]
| モデル | ベースライン | HC | mHC |
|---|---|---|---|
| 30億 信号ゲイン | 1.2倍 | 48倍 | 1.5倍[^55] |
| 90億 信号ゲイン | 1.3倍 | 287倍 | 1.6倍[^56] |
| 270億 信号ゲイン | 1.4倍 | 3012倍 | 1.6倍[^57] |
mHCで学習されたモデルは、モデルサイズに関係なく、理論的な理想値である1.0倍に近い信号ゲインを維持しました。[^58] 制約のないHyper-Connectionsはスケールとともに指数関数的に増加する不安定性を示しましたが、mHCは30億から270億パラメータまで一貫した動作を示しました。[^59]
ベンチマークパフォーマンス
パフォーマンスの向上は、アーキテクチャの進歩が通常最大の利益を示す推論重視のベンチマーク全体で現れました。[^60]
| ベンチマーク | ベースライン | mHC | 改善 |
|---|---|---|---|
| BIG-Bench Hard(270億) | 43.8% | 51.0% | +7.2ポイント[^61] |
| DROP | 78.2% | 81.4% | +3.2ポイント[^62] |
| GSM8K | 82.1% | 84.9% | +2.8ポイント[^63] |
| MMLU | 79.4% | 80.8% | +1.4ポイント[^64] |
最大の改善はBIG-Bench Hardで現れました。これは複雑な多段階推論をテストするために特別に設計されたベンチマークです。[^65] 長い文章に対する数値推論を必要とするDROPは、2番目に大きな改善を示しました。[^66] GSM8K数学的推論とMMLU一般知識ベンチマークは、より小さいながらも一貫した改善を示しました。[^67]
学習効率
追加のSinkhorn-Knopp計算にもかかわらず、mHCは総学習時間にわずか6.7%のオーバーヘッドしか追加しませんでした。[^68] オーバーヘッドはモデルスケール全体で一定であり、この技術がさらに大きなモデルにも効率的にスケールすることを示唆しています。[^69]
| モデルサイズ | 学習時間(ベースライン) | 学習時間(mHC) | オーバーヘッド |
|---|---|---|---|
| 30億 | 100時間 | 106.5時間 | 6.5%[^70] |
| 90億 | 280時間 | 298.8時間 | 6.7%[^71] |
| 270億 | 840時間 | 896.3時間 | 6.7%[^72] |
損失曲線は、mHCがベースラインとHCアプローチの両方よりも低い最終損失を達成することを示しました。[^73] mHC 270億モデルは、ベースラインより0.021低い最終損失を達成し、これは観察されたベンチマーク改善に直接反映されています。[^74]
基盤モデル開発への影響
DeepSeekのCEO梁文鋒がmHC論文の共著者であることは、この技術が同社の次期フラッグシップモデルに採用される可能性が高いことを示唆しています。[^75] アナリストは、DeepSeek R2またはV4のいずれかにmHCアーキテクチャが組み込まれ、2026年2月の旧正月頃にローンチされる可能性があると予想しています。[^76]
より広い影響はDeepSeekを超えて広がります。mHCは、大規模言語モデルにおけるアーキテクチャ革新を制限してきた根本的な制約に対処します。過去10年間、研究者たちは恒等写像を破る変更がスケールで学習の不安定性を引き起こすため、残差接続の修正をほぼ避けてきました。[^77]
アーキテクチャ革新の解放
mHCは、適切に制約された場合、学習可能な接続パターンがスケールで機能することを実証しています。[^78] Birkhoff Polytope射影は、学習を安定させる数学的特性を維持しながら、ネットワークが最適な情報ルーティングパターンを発見できるようにします。[^79]
mHCによって開かれた将来の研究方向には以下が含まれます:
レイヤー固有の接続強度:モデルは、初期レイヤーがより強いスキップ接続から恩恵を受け、より深いレイヤーには異なるルーティングパターンが必要であることを学習できます。[^80]
動的接続:接続パターンは入力内容に基づいて変化し、異なるタイプの情報を異なるパスを通じてルーティングできます。[^81]
クロスアテンションの修正:mHCフレームワークはアテンションメカニズムに拡張でき、モデルがシーケンス位置間で情報を組み合わせる方法を改善する可能性があります。[^82]
学習コストへの影響
DeepSeekは、
[翻訳のため内容は省略されています]