DeepSeek mHC:可能解锁万亿参数AI模型的架构修复方案
3000倍的信号放大在训练过程中摧毁了一个270亿参数的模型。[^1] DeepSeek的研究人员目睹了无约束超连接导致灾难性发散,梯度失控到无法挽回的地步。他们开发的解决方案可能重塑整个行业构建基础模型的方式。
要点概述
DeepSeek于2025年12月31日发表了一篇技术论文,介绍了流形约束超连接(mHC),这是一个使用Sinkhorn-Knopp算法将神经网络连接矩阵投影到数学流形上的框架。[^2] 该方法解决了困扰此前超连接架构的训练不稳定性问题,将信号放大控制在1.6倍,而无约束方法的放大倍数高达3000倍。[^3] 在30亿、90亿和270亿参数模型上的测试表明,在BIG-Bench Hard推理基准测试中提升了2.1%,而额外训练开销仅为6.7%。[^4] CEO梁文锋作为论文的共同作者,表明mHC很可能会出现在DeepSeek的下一代旗舰模型中。
残差连接问题
当今每个主流语言模型都依赖残差连接,这是2015年随ResNet引入的一项从根本上改变了深度学习的技术。[^5] 这个概念看起来很简单:允许信息通过将输入直接加到输出来绕过层,创建"跳跃连接",使梯度在训练过程中更容易流动。[^6]
何恺明的原始ResNet论文证明,残差连接解决了困扰深度网络的"退化问题"。[^7] 没有跳跃连接,向网络添加更多层反而会增加训练误差。在某些任务上,19层的VGGNet表现竟然比8层的AlexNet更差,尽管前者容量更大。[^8]
残差连接使数百层网络的训练成为可能。这项技术被证明如此基础,以至于所有Transformer架构都采用了残差连接。[^9] GPT、BERT、Claude以及所有其他大型语言模型都依赖跳跃连接才能正常工作。[^10]
局限性
标准残差连接以固定权重1.0将输入直接加到输出。这个约束确保了训练稳定性,但限制了表达能力。网络无法学习某些层应该比其他层贡献更多,或者非相邻层之间的连接可能改善性能。[^11]
| 架构 | 年份 | 残差类型 | 连接权重 |
|---|---|---|---|
| ResNet | 2015 | 固定跳跃 | 1.0(常数)[^12] |
| Highway Network | 2015 | 门控跳跃 | 学习的门控(0-1)[^13] |
| DenseNet | 2016 | 全连接 | 等量贡献[^14] |
| Transformer | 2017 | 固定跳跃 | 1.0(常数)[^15] |
| Hyper-Connections | 2024 | 可变宽度 | 学习的矩阵[^16] |
研究人员尝试了各种修改。Highway网络添加了可学习的门控来控制信息流。[^17] DenseNet将每一层连接到所有后续层。[^18] 这些方法提高了性能,但在规模化时引入了计算开销或训练挑战。[^19]
超连接:失败的革命
2024年引入的超连接(HC)代表了使残差连接完全可学习的雄心勃勃的尝试。[^20] HC不使用固定权重1.0的跳跃连接,而是允许神经网络通过权重矩阵学习层之间的任意连接强度。[^21]
理论上很有前景。如果网络能够学习最优连接模式,它们可能发现人类永远不会手动设计的架构。[^22] 早期在较小模型上的实验显示出显著的性能提升。[^23]
问题在规模化时出现了。
灾难性不稳定
当DeepSeek研究人员尝试用无约束超连接训练一个270亿参数的模型时,信号放大超过了3000倍。[^24] 网络内部表示的幅度爆炸式增长,导致梯度变成无穷大,训练完全崩溃。[^25]
数学解释集中在特征值上。当任意矩阵在数百层中相乘时,任何大于1.0的特征值都会导致指数级增长。[^26] 在具有无约束连接矩阵的270亿参数模型中,所有特征值保持在1.0以下的概率接近于零。[^27]
| 模型规模 | HC信号增益 | 训练结果 |
|---|---|---|
| 30亿参数 | ~50倍 | 完成但性能下降[^28] |
| 90亿参数 | ~300倍 | 完成但存在显著不稳定性[^29] |
| 270亿参数 | ~3000倍 | 灾难性发散[^30] |
使残差连接有效的恒等映射特性被破坏了。[^31] 标准残差连接通过将输入加到输出来保持信号幅度。超连接的任意矩阵破坏了这一保证,而更大的模型指数级地放大了这个问题。[^32]
mHC解决方案
DeepSeek的流形约束超连接框架通过将连接矩阵约束到特定的数学结构来解决不稳定性问题。[^33] mHC不允许任意学习的矩阵,而是将连接投影到Birkhoff多面体上,即双随机矩阵空间。[^34]
双随机矩阵的每行和每列之和都为1.0。[^35] 这个约束保证了信号幅度在信息通过网络时既不会增大也不会缩小。[^36] 恒等映射特性恢复了,但在层之间的信息路由方式上具有学习的灵活性。[^37]
Sinkhorn-Knopp算法
将任意矩阵转换为双随机形式需要Sinkhorn-Knopp算法,这是1967年开发的用于矩阵归一化的迭代过程。[^38] 该算法在行归一化和列归一化之间交替进行直到收敛。[^39]
输入:非负矩阵A
重复:
1. 将每行归一化使和为1
2. 将每列归一化使和为1
直到收敛
输出:双随机矩阵
DeepSeek的实现使用20次Sinkhorn-Knopp归一化迭代,实验结果表明这提供了足够的精度而不会产生过多计算。[^40] 该算法集成到训练循环中,在每一步将学习到的连接权重投影到Birkhoff多面体上。[^41]
基础设施优化
原始的Sinkhorn-Knopp归一化会给训练增加不可接受的开销。DeepSeek工程师开发了几项优化使mHC在规模化时变得实用。[^42]
内核融合:多个归一化操作合并为单个GPU内核调用,消除操作之间的内存传输开销。[^43]
混合精度:基于TileLang的内核支持对矩阵操作进行高效的FP8计算,同时对数值敏感的归一化步骤保持FP32精度。[^44]
选择性重计算:系统不存储所有中间值,而是在反向传播期间重新计算某些张量,以计算换内存。[^45]
DualPipe通信重叠:多GPU训练将Sinkhorn-Knopp计算与设备间通信重叠,隐藏归一化延迟。[^46]
| 优化 | 开销减少 |
|---|---|
| 内核融合 | ~40%延迟减少[^47] |
| 混合精度 | ~30%内存减少[^48] |
| 选择性重计算 | ~25%内存减少[^49] |
| 通信重叠 | ~50%隐藏延迟[^50] |
综合优化将mHC的训练开销降低到基线以上6.7%,使该技术对生产规模训练可行。[^51]
实验结果
DeepSeek在三个模型规模上测试了mHC与基线架构和无约束超连接的对比:30亿、90亿和270亿参数。[^52] 所有模型都使用DeepSeek-V3架构作为基础,结合了多头潜在注意力(MLA)和混合专家(MoE)组件。[^53]
训练稳定性
最显著的改进出现在训练稳定性指标上。信号增益测量跟踪信息通过网络时内部表示增长的程度。[^54]
| 模型 | 基线 | HC | mHC |
|---|---|---|---|
| 30亿信号增益 | 1.2倍 | 48倍 | 1.5倍[^55] |
| 90亿信号增益 | 1.3倍 | 287倍 | 1.6倍[^56] |
| 270亿信号增益 | 1.4倍 | 3012倍 | 1.6倍[^57] |
无论模型规模如何,mHC训练的模型都将信号增益保持在理论理想值1.0倍附近。[^58] 无约束超连接随着规模增加显示出指数级增长的不稳定性,而mHC从30亿到270亿参数都表现出一致的行为。[^59]
基准测试性能
性能改进出现在以推理为重点的基准测试中,这是架构改进通常显示最大收益的地方。[^60]
| 基准测试 | 基线 | mHC | 提升 |
|---|---|---|---|
| BIG-Bench Hard(270亿) | 43.8% | 51.0% | +7.2个百分点[^61] |
| DROP | 78.2% | 81.4% | +3.2个百分点[^62] |
| GSM8K | 82.1% | 84.9% | +2.8个百分点[^63] |
| MMLU | 79.4% | 80.8% | +1.4个百分点[^64] |
最大的改进出现在BIG-Bench Hard上,这是一个专门设计用于测试复杂多步推理的基准测试。[^65] DROP需要对长段落进行数值推理,显示出第二大的提升。[^66] GSM8K数学推理和MMLU通用知识基准测试显示出较小但一致的改进。[^67]
训练效率
尽管增加了Sinkhorn-Knopp计算,mHC仅为总训练时间增加了6.7%的开销。[^68] 开销在不同模型规模上保持恒定,表明该技术可以高效扩展到更大的模型。[^69]
| 模型规模 | 训练时间(基线) | 训练时间(mHC) | 开销 |
|---|---|---|---|
| 30亿 | 100小时 | 106.5小时 | 6.5%[^70] |
| 90亿 | 280小时 | 298.8小时 | 6.7%[^71] |
| 270亿 | 840小时 | 896.3小时 | 6.7%[^72] |
损失曲线显示mHC比基线和HC方法都达到了更低的最终损失。[^73] mHC 270亿模型比基线低0.021的最终损失,直接转化为观察到的基准测试改进。[^74]
对基础模型开发的影响
DeepSeek CEO梁文锋作为mHC论文的共同作者,这是一个信号,表明该技术很可能会出现在公司的下一代旗舰模型中。[^75] 分析师预计DeepSeek R2或V4将采用mHC架构,可能在2026年2月春节期间发布。[^76]
更广泛的影响超出了DeepSeek。mHC解决了一个限制大型语言模型架构创新的根本约束。在过去十年中,研究人员在很大程度上避免修改残差连接,因为任何破坏恒等映射的改变都会在规模化时导致训练不稳定。[^77]
解锁架构创新
mHC证明,当适当约束时,可学习的连接模式可以在规模化时工作。[^78] Birkhoff多面体投影保持了使训练稳定的数学特性,同时允许网络发现最优信息路由模式。[^79]
mHC开辟的未来研究方向包括:
层特定的连接强度:模型可以学习早期层从更强的跳跃连接中受益,而更深的层需要不同的路由模式。[^80]
动态连接:连接模式可以根据输入内容变化,将不同类型的信息通过不同的路径路由。[^81]
交叉注意力修改:mHC框架可以扩展到注意力机制,可能改善模型如何组合跨序列位置的信息。[^82]
训练成本影响
DeepSeek已经建立了训练
[内容因翻译而截断]