DeepSeek mHC: Perbaikan Arsitektur yang Dapat Membuka Kunci Model AI Skala Triliun Parameter
Amplifikasi sinyal sebesar 3000x menghancurkan model 27 miliar parameter selama pelatihan.[^1] Para peneliti DeepSeek menyaksikan Hyper-Connections tanpa batasan menyebabkan divergensi katastrofik, dengan gradien yang berputar melampaui harapan pemulihan apa pun. Solusi yang mereka kembangkan mungkin akan membentuk ulang cara industri membangun model fondasi.
Ringkasan
DeepSeek menerbitkan makalah teknis pada 31 Desember 2025, memperkenalkan Manifold-Constrained Hyper-Connections (mHC), sebuah framework yang memproyeksikan matriks koneksi jaringan saraf ke manifold matematika menggunakan algoritma Sinkhorn-Knopp.[^2] Pendekatan ini memecahkan ketidakstabilan pelatihan yang mengganggu arsitektur Hyper-Connection sebelumnya, mengendalikan amplifikasi sinyal menjadi 1,6x dibandingkan 3000x dengan metode tanpa batasan.[^3] Pengujian pada model 3B, 9B, dan 27B parameter menunjukkan peningkatan 2,1% pada benchmark penalaran BIG-Bench Hard dengan overhead pelatihan tambahan hanya 6,7%.[^4] CEO Liang Wenfeng ikut menulis makalah tersebut, menandakan mHC kemungkinan akan muncul di model unggulan DeepSeek berikutnya.
Masalah Residual Connection
Setiap model bahasa besar saat ini mengandalkan residual connections, teknik yang diperkenalkan pada tahun 2015 dengan ResNet yang secara fundamental mengubah deep learning.[^5] Konsepnya tampak sederhana: memungkinkan informasi melewati layer dengan menambahkan input langsung ke output, menciptakan "skip connections" yang memungkinkan gradien mengalir lebih mudah selama pelatihan.[^6]
Makalah ResNet asli dari Kaiming He menunjukkan bahwa residual connections memecahkan "masalah degradasi" yang telah mengganggu jaringan dalam.[^7] Tanpa skip connections, menambahkan lebih banyak layer ke jaringan secara paradoks meningkatkan error pelatihan. VGGNet dengan 19 layer berkinerja lebih buruk daripada AlexNet dengan 8 layer pada tugas tertentu, meskipun memiliki kapasitas lebih.[^8]
Residual connections memungkinkan pelatihan jaringan dengan ratusan layer. Teknik ini terbukti sangat fundamental sehingga semua arsitektur transformer menggabungkan residual connections.[^9] GPT, BERT, Claude, dan setiap model bahasa besar lainnya bergantung pada skip connections untuk berfungsi.[^10]
Keterbatasan
Residual connection standar menambahkan input langsung ke output dengan bobot tetap 1,0. Batasan ini memastikan pelatihan stabil tetapi membatasi ekspresivitas. Jaringan tidak dapat mempelajari bahwa beberapa layer harus berkontribusi lebih dari yang lain atau bahwa koneksi antara layer yang tidak berdekatan mungkin meningkatkan kinerja.[^11]
| Arsitektur | Tahun | Tipe Residual | Bobot Koneksi |
|---|---|---|---|
| ResNet | 2015 | Skip tetap | 1,0 (konstan)[^12] |
| Highway Network | 2015 | Skip tergerbang | Gerbang dipelajari (0-1)[^13] |
| DenseNet | 2016 | Semua-ke-semua | Kontribusi sama[^14] |
| Transformer | 2017 | Skip tetap | 1,0 (konstan)[^15] |
| Hyper-Connections | 2024 | Lebar variabel | Matriks dipelajari[^16] |
Para peneliti mencoba berbagai modifikasi. Highway networks menambahkan gerbang yang dapat dipelajari untuk mengontrol aliran informasi.[^17] DenseNet menghubungkan setiap layer ke setiap layer berikutnya.[^18] Pendekatan ini meningkatkan kinerja tetapi memperkenalkan overhead komputasi atau tantangan pelatihan pada skala besar.[^19]
Hyper-Connections: Revolusi yang Gagal
Hyper-Connections (HC), diperkenalkan pada tahun 2024, merepresentasikan upaya ambisius untuk membuat residual connections sepenuhnya dapat dipelajari.[^20] Alih-alih skip connections tetap dengan bobot 1,0, HC memungkinkan jaringan saraf untuk mempelajari kekuatan koneksi arbitrer antar layer melalui matriks bobot.[^21]
Teorinya menjanjikan. Jika jaringan dapat mempelajari pola koneksi optimal, mereka mungkin menemukan arsitektur yang tidak akan pernah dirancang manusia secara manual.[^22] Eksperimen awal menunjukkan peningkatan kinerja substansial pada model yang lebih kecil.[^23]
Masalah muncul pada skala besar.
Ketidakstabilan Katastrofik
Ketika peneliti DeepSeek mencoba melatih model 27 miliar parameter dengan Hyper-Connections tanpa batasan, amplifikasi sinyal melebihi 3000x.[^24] Representasi internal jaringan meledak dalam besaran, menyebabkan gradien menjadi tak terhingga dan pelatihan runtuh sepenuhnya.[^25]
Penjelasan matematisnya berpusat pada eigenvalue. Ketika matriks arbitrer dikalikan bersama melintasi ratusan layer, eigenvalue apa pun yang lebih besar dari 1,0 menyebabkan pertumbuhan eksponensial.[^26] Dalam model 27B parameter dengan matriks koneksi tanpa batasan, probabilitas semua eigenvalue tetap di bawah 1,0 mendekati nol.[^27]
| Ukuran Model | Penguatan Sinyal HC | Hasil Pelatihan |
|---|---|---|
| 3B parameter | ~50x | Selesai dengan kinerja menurun[^28] |
| 9B parameter | ~300x | Selesai dengan ketidakstabilan signifikan[^29] |
| 27B parameter | ~3000x | Divergensi katastrofik[^30] |
Properti identity mapping yang membuat residual connections bekerja telah hancur.[^31] Residual connections standar mempertahankan besaran sinyal dengan menambahkan input ke output. Matriks arbitrer Hyper-Connections melanggar jaminan ini, dan model yang lebih besar memperkuat masalah secara eksponensial.[^32]
Solusi mHC
Framework Manifold-Constrained Hyper-Connections dari DeepSeek mengatasi ketidakstabilan dengan membatasi matriks koneksi ke struktur matematika tertentu.[^33] Alih-alih mengizinkan matriks yang dipelajari secara arbitrer, mHC memproyeksikan koneksi ke Birkhoff Polytope, ruang matriks doubly stochastic.[^34]
Matriks doubly stochastic memiliki baris dan kolom yang masing-masing berjumlah 1,0.[^35] Batasan ini menjamin bahwa besaran sinyal tidak dapat tumbuh atau menyusut saat informasi melewati jaringan.[^36] Properti identity mapping kembali, tetapi dengan fleksibilitas yang dipelajari tentang bagaimana informasi diarahkan antar layer.[^37]
Algoritma Sinkhorn-Knopp
Mengonversi matriks arbitrer ke bentuk doubly stochastic memerlukan algoritma Sinkhorn-Knopp, prosedur iteratif yang dikembangkan pada tahun 1967 untuk normalisasi matriks.[^38] Algoritma ini bergantian antara normalisasi baris dan normalisasi kolom hingga konvergen.[^39]
Input: Matriks non-negatif A
Ulangi:
1. Normalisasi setiap baris agar berjumlah 1
2. Normalisasi setiap kolom agar berjumlah 1
Hingga konvergen
Output: Matriks doubly stochastic
Implementasi DeepSeek menggunakan 20 iterasi normalisasi Sinkhorn-Knopp, yang hasil eksperimental menunjukkan memberikan akurasi yang cukup tanpa komputasi berlebihan.[^40] Algoritma ini terintegrasi ke dalam loop pelatihan, memproyeksikan bobot koneksi yang dipelajari ke Birkhoff Polytope pada setiap langkah.[^41]
Optimasi Infrastruktur
Normalisasi Sinkhorn-Knopp mentah akan menambahkan overhead yang tidak dapat diterima pada pelatihan. Insinyur DeepSeek mengembangkan beberapa optimasi untuk membuat mHC praktis pada skala besar.[^42]
Kernel Fusion: Beberapa operasi normalisasi digabungkan menjadi panggilan kernel GPU tunggal, menghilangkan overhead transfer memori antar operasi.[^43]
Mixed Precision: Kernel berbasis TileLang memungkinkan komputasi FP8 yang efisien untuk operasi matriks sambil mempertahankan presisi FP32 untuk langkah normalisasi yang sensitif secara numerik.[^44]
Selective Recomputation: Daripada menyimpan semua nilai intermediate, sistem menghitung ulang tensor tertentu selama backward pass, menukar komputasi dengan memori.[^45]
DualPipe Communication Overlap: Pelatihan multi-GPU menumpang tindih komputasi Sinkhorn-Knopp dengan komunikasi antar perangkat, menyembunyikan latensi normalisasi.[^46]
| Optimasi | Pengurangan Overhead |
|---|---|
| Kernel fusion | ~40% pengurangan latensi[^47] |
| Mixed precision | ~30% pengurangan memori[^48] |
| Selective recompute | ~25% pengurangan memori[^49] |
| Communication overlap | ~50% latensi tersembunyi[^50] |
Optimasi gabungan mengurangi overhead pelatihan mHC menjadi 6,7% di atas baseline, membuat teknik ini layak untuk pelatihan skala produksi.[^51]
Hasil Eksperimental
DeepSeek menguji mHC terhadap arsitektur baseline dan Hyper-Connections tanpa batasan di tiga skala model: 3B, 9B, dan 27B parameter.[^52] Semua model menggunakan arsitektur DeepSeek-V3 sebagai fondasi, menggabungkan komponen Multi-Head Latent Attention (MLA) dan Mixture-of-Experts (MoE).[^53]
Stabilitas Pelatihan
Peningkatan paling dramatis muncul dalam metrik stabilitas pelatihan. Pengukuran penguatan sinyal melacak seberapa besar representasi internal tumbuh saat informasi melewati jaringan.[^54]
| Model | Baseline | HC | mHC |
|---|---|---|---|
| Penguatan sinyal 3B | 1,2x | 48x | 1,5x[^55] |
| Penguatan sinyal 9B | 1,3x | 287x | 1,6x[^56] |
| Penguatan sinyal 27B | 1,4x | 3012x | 1,6x[^57] |
Model yang dilatih dengan mHC mempertahankan penguatan sinyal mendekati ideal teoritis 1,0x terlepas dari ukuran model.[^58] Hyper-Connections tanpa batasan menunjukkan ketidakstabilan yang meningkat secara eksponensial dengan skala, sementara mHC menunjukkan perilaku konsisten dari 3B hingga 27B parameter.[^59]
Kinerja Benchmark
Peningkatan kinerja muncul di seluruh benchmark yang berfokus pada penalaran di mana kemajuan arsitektur biasanya menunjukkan keuntungan terbesar.[^60]
| Benchmark | Baseline | mHC | Peningkatan |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43,8% | 51,0% | +7,2 poin[^61] |
| DROP | 78,2% | 81,4% | +3,2 poin[^62] |
| GSM8K | 82,1% | 84,9% | +2,8 poin[^63] |
| MMLU | 79,4% | 80,8% | +1,4 poin[^64] |
Peningkatan terbesar muncul pada BIG-Bench Hard, benchmark yang secara khusus dirancang untuk menguji penalaran kompleks multi-langkah.[^65] DROP, yang memerlukan penalaran numerik atas bagian panjang, menunjukkan keuntungan terbesar kedua.[^66] Penalaran matematika GSM8K dan benchmark pengetahuan umum MMLU menunjukkan peningkatan yang lebih kecil tetapi konsisten.[^67]
Efisiensi Pelatihan
Meskipun ada komputasi Sinkhorn-Knopp tambahan, mHC hanya menambahkan 6,7% overhead ke total waktu pelatihan.[^68] Overhead tetap konstan di seluruh skala model, menunjukkan teknik ini berskala efisien ke model yang lebih besar.[^69]
| Ukuran Model | Waktu Pelatihan (Baseline) | Waktu Pelatihan (mHC) | Overhead |
|---|---|---|---|
| 3B | 100 jam | 106,5 jam | 6,5%[^70] |
| 9B | 280 jam | 298,8 jam | 6,7%[^71] |
| 27B | 840 jam | 896,3 jam | 6,7%[^72] |
Kurva loss menunjukkan mHC mencapai loss akhir yang lebih rendah daripada pendekatan baseline dan HC.[^73] Model mHC 27B mencapai loss akhir 0,021 lebih rendah dari baseline, yang langsung diterjemahkan ke peningkatan benchmark yang diamati.[^74]
Implikasi untuk Pengembangan Model Fondasi
CEO DeepSeek Liang Wenfeng ikut menulis makalah mHC, sinyal bahwa teknik ini kemungkinan akan muncul di model unggulan perusahaan berikutnya.[^75] Analis memperkirakan DeepSeek R2 atau V4 akan menggabungkan arsitektur mHC, berpotensi diluncurkan selama Tahun Baru Imlek pada Februari 2026.[^76]
Implikasi yang lebih luas melampaui DeepSeek. mHC mengatasi batasan fundamental yang telah membatasi inovasi arsitektur dalam model bahasa besar. Selama dekade terakhir, para peneliti sebagian besar menghindari modifikasi residual connections karena perubahan apa pun yang melanggar identity mapping menyebabkan ketidakstabilan pelatihan pada skala besar.[^77]
Membuka Inovasi Arsitektur
mHC menunjukkan bahwa pola koneksi yang dapat dipelajari dapat bekerja pada skala besar ketika dibatasi dengan tepat.[^78] Proyeksi Birkhoff Polytope mempertahankan properti matematika yang membuat pelatihan stabil sambil memungkinkan jaringan menemukan pola routing informasi optimal.[^79]
Arah penelitian masa depan yang dibuka oleh mHC meliputi:
Kekuatan koneksi spesifik layer: Model dapat mempelajari bahwa layer awal mendapat manfaat dari skip connections yang lebih kuat sementara layer yang lebih dalam membutuhkan pola routing yang berbeda.[^80]
Koneksi dinamis: Pola koneksi dapat bervariasi berdasarkan konten input, mengarahkan jenis informasi yang berbeda melalui jalur yang berbeda.[^81]
Modifikasi cross-attention: Framework mHC dapat diperluas ke mekanisme attention, berpotensi meningkatkan cara model menggabungkan informasi di seluruh posisi sequence.[^82]
Implikasi Biaya Pelatihan
DeepSeek telah membangun rekam jejak dalam melatih
[Konten dipotong untuk terjemahan]