DeepSeek mHC: архітектурне виправлення, що може відкрити шлях до моделей ШІ з трильйонами параметрів
Новий фреймворк DeepSeek Manifold-Constrained Hyper-Connections вирішує десятирічну проблему масштабування, забезпечуючи стабільне навчання моделей з 27B+ параметрів при накладних витратах лише 6,7%.
None