DeepSeek mHC: архітектурне виправлення, що може відкрити шлях до моделей ШІ з трильйонами параметрів
Підсилення сигналу в 3000 разів знищило модель з 27 мільярдами параметрів під час навчання.[^1] Дослідники DeepSeek спостерігали, як необмежені Hyper-Connections спричиняли катастрофічну дивергенцію, коли градієнти виходили за межі будь-якої можливості відновлення. Рішення, яке вони розробили, може змінити підхід індустрії до побудови базових моделей.
Коротко
DeepSeek опублікував технічну статтю 31 грудня 2025 року, представивши Manifold-Constrained Hyper-Connections (mHC) — фреймворк, що проєктує матриці з'єднань нейронних мереж на математичний многовид за допомогою алгоритму Сінкхорна-Кноппа.[^2] Цей підхід вирішує нестабільність навчання, яка переслідувала попередні архітектури Hyper-Connection, контролюючи підсилення сигналу до 1,6x порівняно з 3000x при необмежених методах.[^3] Тестування на моделях з 3B, 9B та 27B параметрами продемонструвало покращення на 2,1% у бенчмарках логічного мислення BIG-Bench Hard при додаткових витратах на навчання лише 6,7%.[^4] Генеральний директор Лян Веньфен став співавтором статті, що сигналізує про ймовірне використання mHC у наступній флагманській моделі DeepSeek.
Проблема залишкових з'єднань
Кожна велика мовна модель сьогодні покладається на залишкові з'єднання (residual connections) — техніку, представлену в 2015 році разом з ResNet, яка фундаментально змінила глибоке навчання.[^5] Концепція виглядає простою: дозволити інформації обходити шари, додаючи вхід безпосередньо до виходу, створюючи «skip-з'єднання», що полегшують потік градієнтів під час навчання.[^6]
Оригінальна стаття Каймін Хе про ResNet продемонструвала, що залишкові з'єднання вирішили «проблему деградації», яка переслідувала глибокі мережі.[^7] Без skip-з'єднань додавання більшої кількості шарів до мережі парадоксально збільшувало помилку навчання. VGGNet з 19 шарами працював гірше, ніж AlexNet з 8 шарами на деяких завданнях, незважаючи на більшу ємність.[^8]
Залишкові з'єднання уможливили навчання мереж із сотнями шарів. Ця техніка виявилася настільки фундаментальною, що всі архітектури трансформерів включають залишкові з'єднання.[^9] GPT, BERT, Claude та всі інші великі мовні моделі залежать від skip-з'єднань для функціонування.[^10]
Обмеження
Стандартне залишкове з'єднання додає вхід безпосередньо до виходу з фіксованою вагою 1,0. Це обмеження забезпечує стабільне навчання, але обмежує виразність. Мережа не може навчитися того, що деякі шари повинні робити більший внесок, або що з'єднання між несусідніми шарами можуть покращити продуктивність.[^11]
| Архітектура | Рік | Тип залишкового з'єднання | Вага з'єднання |
|---|---|---|---|
| ResNet | 2015 | Фіксований skip | 1,0 (константа)[^12] |
| Highway Network | 2015 | Керований skip | Навчений gate (0-1)[^13] |
| DenseNet | 2016 | Всі-до-всіх | Рівний внесок[^14] |
| Transformer | 2017 | Фіксований skip | 1,0 (константа)[^15] |
| Hyper-Connections | 2024 | Змінна ширина | Навчені матриці[^16] |
Дослідники намагалися внести різні модифікації. Highway networks додали навчені gates для контролю потоку інформації.[^17] DenseNet з'єднував кожен шар з кожним наступним.[^18] Ці підходи покращили продуктивність, але ввели обчислювальні накладні витрати або проблеми з навчанням у масштабі.[^19]
Hyper-Connections: невдала революція
Hyper-Connections (HC), представлені в 2024 році, були амбітною спробою зробити залишкові з'єднання повністю навчальними.[^20] Замість фіксованих skip-з'єднань з вагою 1,0, HC дозволяли нейронним мережам навчатися довільних сил з'єднань між шарами через вагові матриці.[^21]
Теорія була багатообіцяючою. Якби мережі могли навчитися оптимальних патернів з'єднань, вони могли б відкрити архітектури, які люди ніколи не спроєктували б вручну.[^22] Ранні експерименти показали суттєвий приріст продуктивності на менших моделях.[^23]
Проблема виявилася при масштабуванні.
Катастрофічна нестабільність
Коли дослідники DeepSeek спробували навчити модель з 27 мільярдами параметрів з необмеженими Hyper-Connections, підсилення сигналу перевищило 3000x.[^24] Внутрішні представлення мережі вибухнули за величиною, спричинивши нескінченні градієнти та повний колапс навчання.[^25]
Математичне пояснення зосереджено на власних значеннях. Коли довільні матриці перемножуються через сотні шарів, будь-яке власне значення більше 1,0 спричиняє експоненціальне зростання.[^26] У моделі з 27B параметрами з необмеженими матрицями з'єднань ймовірність того, що всі власні значення залишаться нижче 1,0, наближається до нуля.[^27]
| Розмір моделі | Підсилення сигналу HC | Результат навчання |
|---|---|---|
| 3B параметрів | ~50x | Завершено зі зниженою продуктивністю[^28] |
| 9B параметрів | ~300x | Завершено зі значною нестабільністю[^29] |
| 27B параметрів | ~3000x | Катастрофічна дивергенція[^30] |
Властивість тотожного відображення, яка забезпечувала роботу залишкових з'єднань, була зруйнована.[^31] Стандартні залишкові з'єднання зберігають величину сигналу, додаючи вхід до виходу. Довільні матриці Hyper-Connections порушили цю гарантію, і більші моделі експоненціально підсилювали проблему.[^32]
Рішення mHC
Фреймворк DeepSeek Manifold-Constrained Hyper-Connections вирішує нестабільність, обмежуючи матриці з'єднань до специфічної математичної структури.[^33] Замість дозволу довільних навчених матриць, mHC проєктує з'єднання на Birkhoff Polytope — простір двічі стохастичних матриць.[^34]
Двічі стохастична матриця має рядки та стовпці, які кожен дають у сумі 1,0.[^35] Це обмеження гарантує, що величина сигналу не може зростати або зменшуватися, коли інформація проходить через мережу.[^36] Властивість тотожного відображення повертається, але з навченою гнучкістю щодо маршрутизації інформації між шарами.[^37]
Алгоритм Сінкхорна-Кноппа
Перетворення довільних матриць у двічі стохастичну форму вимагає алгоритму Сінкхорна-Кноппа — ітеративної процедури, розробленої в 1967 році для нормалізації матриць.[^38] Алгоритм чергує нормалізацію рядків і нормалізацію стовпців до збіжності.[^39]
Вхід: Невід'ємна матриця A
Повторювати:
1. Нормалізувати кожен рядок, щоб сума дорівнювала 1
2. Нормалізувати кожен стовпець, щоб сума дорівнювала 1
Поки не настане збіжність
Вихід: Двічі стохастична матриця
Реалізація DeepSeek використовує 20 ітерацій нормалізації Сінкхорна-Кноппа, що, за експериментальними результатами, забезпечує достатню точність без надмірних обчислень.[^40] Алгоритм інтегрується в цикл навчання, проєктуючи навчені ваги з'єднань на Birkhoff Polytope на кожному кроці.[^41]
Оптимізація інфраструктури
Необроблена нормалізація Сінкхорна-Кноппа додала б неприйнятні накладні витрати до навчання. Інженери DeepSeek розробили кілька оптимізацій, щоб зробити mHC практичним у масштабі.[^42]
Об'єднання ядер (Kernel Fusion): Кілька операцій нормалізації об'єднуються в один виклик ядра GPU, усуваючи накладні витрати на передачу пам'яті між операціями.[^43]
Змішана точність: Ядра на основі TileLang забезпечують ефективні обчислення FP8 для матричних операцій, зберігаючи точність FP32 для чисельно чутливих кроків нормалізації.[^44]
Вибіркове переобчислення: Замість зберігання всіх проміжних значень система переобчислює певні тензори під час зворотного проходу, обмінюючи обчислення на пам'ять.[^45]
Перекриття комунікацій DualPipe: Навчання на кількох GPU перекриває обчислення Сінкхорна-Кноппа з міжпристроєвою комунікацією, приховуючи затримку нормалізації.[^46]
| Оптимізація | Зменшення накладних витрат |
|---|---|
| Об'єднання ядер | ~40% зменшення затримки[^47] |
| Змішана точність | ~30% зменшення пам'яті[^48] |
| Вибіркове переобчислення | ~25% зменшення пам'яті[^49] |
| Перекриття комунікацій | ~50% прихована затримка[^50] |
Комбіновані оптимізації зменшують накладні витрати навчання mHC до 6,7% понад базовий рівень, роблячи техніку життєздатною для навчання у виробничому масштабі.[^51]
Експериментальні результати
DeepSeek тестував mHC проти базових архітектур та необмежених Hyper-Connections на трьох масштабах моделей: 3B, 9B та 27B параметрів.[^52] Усі моделі використовували архітектуру DeepSeek-V3 як основу, включаючи компоненти Multi-Head Latent Attention (MLA) та Mixture-of-Experts (MoE).[^53]
Стабільність навчання
Найдраматичніше покращення з'явилося в метриках стабільності навчання. Вимірювання підсилення сигналу відстежують, наскільки зростають внутрішні представлення, коли інформація проходить через мережу.[^54]
| Модель | Базовий | HC | mHC |
|---|---|---|---|
| 3B підсилення сигналу | 1,2x | 48x | 1,5x[^55] |
| 9B підсилення сигналу | 1,3x | 287x | 1,6x[^56] |
| 27B підсилення сигналу | 1,4x | 3012x | 1,6x[^57] |
Моделі, навчені з mHC, підтримували підсилення сигналу близько до теоретичного ідеалу 1,0x незалежно від розміру моделі.[^58] Необмежені Hyper-Connections показали експоненціально зростаючу нестабільність з масштабом, тоді як mHC демонструвала послідовну поведінку від 3B до 27B параметрів.[^59]
Продуктивність на бенчмарках
Покращення продуктивності з'явилися на бенчмарках, орієнтованих на логічне мислення, де архітектурні досягнення зазвичай показують найбільші результати.[^60]
| Бенчмарк | Базовий | mHC | Покращення |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43,8% | 51,0% | +7,2 пункти[^61] |
| DROP | 78,2% | 81,4% | +3,2 пункти[^62] |
| GSM8K | 82,1% | 84,9% | +2,8 пункти[^63] |
| MMLU | 79,4% | 80,8% | +1,4 пункти[^64] |
Найбільші покращення з'явилися на BIG-Bench Hard — бенчмарку, спеціально розробленому для тестування складного, багатокрокового логічного мислення.[^65] DROP, який вимагає числового мислення над довгими уривками, показав друге за величиною покращення.[^66] Бенчмарки математичного мислення GSM8K та загальних знань MMLU продемонстрували менші, але послідовні покращення.[^67]
Ефективність навчання
Незважаючи на додаткові обчислення Сінкхорна-Кноппа, mHC додав лише 6,7% накладних витрат до загального часу навчання.[^68] Накладні витрати залишалися постійними для різних масштабів моделей, що свідчить про ефективне масштабування техніки до ще більших моделей.[^69]
| Розмір моделі | Час навчання (базовий) | Час навчання (mHC) | Накладні витрати |
|---|---|---|---|
| 3B | 100 годин | 106,5 годин | 6,5%[^70] |
| 9B | 280 годин | 298,8 годин | 6,7%[^71] |
| 27B | 840 годин | 896,3 годин | 6,7%[^72] |
Криві втрат показали, що mHC досягає нижчих кінцевих втрат, ніж як базовий підхід, так і HC.[^73] Модель mHC 27B досягла кінцевих втрат на 0,021 нижче базового рівня, що безпосередньо транслюється в спостережувані покращення на бенчмарках.[^74]
Наслідки для розробки базових моделей
Генеральний директор DeepSeek Лян Веньфен став співавтором статті про mHC — сигнал того, що техніка, ймовірно, з'явиться в наступній флагманській моделі компанії.[^75] Аналітики очікують, що DeepSeek R2 або V4 включатимуть архітектуру mHC, потенційно з запуском під час китайського Нового року в лютому 2026.[^76]
Ширші наслідки виходять за межі DeepSeek. mHC вирішує фундаментальне обмеження, яке обмежувало архітектурні інновації у великих мовних моделях. Протягом останнього десятиліття дослідники здебільшого уникали модифікації залишкових з'єднань, оскільки будь-яка зміна, що порушувала тотожне відображення, спричиняла нестабільність навчання у масштабі.[^77]
Розблокування архітектурних інновацій
mHC демонструє, що навчальні патерни з'єднань можуть працювати у масштабі при правильному обмеженні.[^78] Проєкція на Birkhoff Polytope підтримує математичні властивості, які забезпечують стабільність навчання, водночас дозволяючи мережам відкривати оптимальні патерни маршрутизації інформації.[^79]
Майбутні напрямки досліджень, відкриті mHC, включають:
Сили з'єднань, специфічні для шарів: Моделі могли б навчитися того, що ранні шари виграють від сильніших skip-з'єднань, тоді як глибші шари потребують інших патернів маршрутизації.[^80]
Динамічні з'єднання: Патерни з'єднань могли б змінюватися залежно від вхідного вмісту, маршрутизуючи різні типи інформації через різні шляхи.[^81]
Модифікації крос-уваги: Фреймворк mHC міг би розширитися на механізми уваги, потенційно покращуючи те, як моделі комбінують інформацію між позиціями послідовності.[^82]
Наслідки для вартості навчання
DeepSeek встановив репутацію навчання
[Вміст скорочено для перекладу]