DeepSeek mHC: Perbaikan Arsitektur yang Dapat Membuka Kunci Model AI Skala Triliun Parameter

Framework Manifold-Constrained Hyper-Connections baru dari DeepSeek memecahkan masalah penskalaan yang telah ada selama satu dekade, memungkinkan pelatihan stabil model 27B+ parameter dengan overhead hanya 6,7%.

Blake Crosley

Jan 03, 2026 7 min read Disclaimer

DeepSeek mHC: Perbaikan Arsitektur yang Dapat Membuka Kunci Model AI Skala Triliun Parameter

Amplifikasi sinyal sebesar 3000x menghancurkan model 27 miliar parameter selama pelatihan.[^1] Para peneliti DeepSeek menyaksikan Hyper-Connections tanpa batasan menyebabkan divergensi katastrofik, dengan gradien yang berputar melampaui harapan pemulihan apa pun. Solusi yang mereka kembangkan mungkin akan membentuk ulang cara industri membangun model fondasi.

Ringkasan

DeepSeek menerbitkan makalah teknis pada 31 Desember 2025, memperkenalkan Manifold-Constrained Hyper-Connections (mHC), sebuah framework yang memproyeksikan matriks koneksi jaringan saraf ke manifold matematika menggunakan algoritma Sinkhorn-Knopp.[^2] Pendekatan ini memecahkan ketidakstabilan pelatihan yang mengganggu arsitektur Hyper-Connection sebelumnya, mengendalikan amplifikasi sinyal menjadi 1,6x dibandingkan 3000x dengan metode tanpa batasan.[^3] Pengujian pada model 3B, 9B, dan 27B parameter menunjukkan peningkatan 2,1% pada benchmark penalaran BIG-Bench Hard dengan overhead pelatihan tambahan hanya 6,7%.[^4] CEO Liang Wenfeng ikut menulis makalah tersebut, menandakan mHC kemungkinan akan muncul di model unggulan DeepSeek berikutnya.

Masalah Residual Connection

Setiap model bahasa besar saat ini mengandalkan residual connections, teknik yang diperkenalkan pada tahun 2015 dengan ResNet yang secara fundamental mengubah deep learning.[^5] Konsepnya tampak sederhana: memungkinkan informasi melewati layer dengan menambahkan input langsung ke output, menciptakan "skip connections" yang memungkinkan gradien mengalir lebih mudah selama pelatihan.[^6]

Makalah ResNet asli dari Kaiming He menunjukkan bahwa residual connections memecahkan "masalah degradasi" yang telah mengganggu jaringan dalam.[^7] Tanpa skip connections, menambahkan lebih banyak layer ke jaringan secara paradoks meningkatkan error pelatihan. VGGNet dengan 19 layer berkinerja lebih buruk daripada AlexNet dengan 8 layer pada tugas tertentu, meskipun memiliki kapasitas lebih.[^8]

Residual connections memungkinkan pelatihan jaringan dengan ratusan layer. Teknik ini terbukti sangat fundamental sehingga semua arsitektur transformer menggabungkan residual connections.[^9] GPT, BERT, Claude, dan setiap model bahasa besar lainnya bergantung pada skip connections untuk berfungsi.[^10]

Keterbatasan

Residual connection standar menambahkan input langsung ke output dengan bobot tetap 1,0. Batasan ini memastikan pelatihan stabil tetapi membatasi ekspresivitas. Jaringan tidak dapat mempelajari bahwa beberapa layer harus berkontribusi lebih dari yang lain atau bahwa koneksi antara layer yang tidak berdekatan mungkin meningkatkan kinerja.[^11]

Arsitektur	Tahun	Tipe Residual	Bobot Koneksi
ResNet	2015	Skip tetap	1,0 (konstan)[^12]
Highway Network	2015	Skip tergerbang	Gerbang dipelajari (0-1)[^13]
DenseNet	2016	Semua-ke-semua	Kontribusi sama[^14]
Transformer	2017	Skip tetap	1,0 (konstan)[^15]
Hyper-Connections	2024	Lebar variabel	Matriks dipelajari[^16]

Para peneliti mencoba berbagai modifikasi. Highway networks menambahkan gerbang yang dapat dipelajari untuk mengontrol aliran informasi.[^17] DenseNet menghubungkan setiap layer ke setiap layer berikutnya.[^18] Pendekatan ini meningkatkan kinerja tetapi memperkenalkan overhead komputasi atau tantangan pelatihan pada skala besar.[^19]

Hyper-Connections: Revolusi yang Gagal

Hyper-Connections (HC), diperkenalkan pada tahun 2024, merepresentasikan upaya ambisius untuk membuat residual connections sepenuhnya dapat dipelajari.[^20] Alih-alih skip connections tetap dengan bobot 1,0, HC memungkinkan jaringan saraf untuk mempelajari kekuatan koneksi arbitrer antar layer melalui matriks bobot.[^21]

Teorinya menjanjikan. Jika jaringan dapat mempelajari pola koneksi optimal, mereka mungkin menemukan arsitektur yang tidak akan pernah dirancang manusia secara manual.[^22] Eksperimen awal menunjukkan peningkatan kinerja substansial pada model yang lebih kecil.[^23]

Masalah muncul pada skala besar.

Ketidakstabilan Katastrofik

Ketika peneliti DeepSeek mencoba melatih model 27 miliar parameter dengan Hyper-Connections tanpa batasan, amplifikasi sinyal melebihi 3000x.[^24] Representasi internal jaringan meledak dalam besaran, menyebabkan gradien menjadi tak terhingga dan pelatihan runtuh sepenuhnya.[^25]

Penjelasan matematisnya berpusat pada eigenvalue. Ketika matriks arbitrer dikalikan bersama melintasi ratusan layer, eigenvalue apa pun yang lebih besar dari 1,0 menyebabkan pertumbuhan eksponensial.[^26] Dalam model 27B parameter dengan matriks koneksi tanpa batasan, probabilitas semua eigenvalue tetap di bawah 1,0 mendekati nol.[^27]

Ukuran Model	Penguatan Sinyal HC	Hasil Pelatihan
3B parameter	~50x	Selesai dengan kinerja menurun[^28]
9B parameter	~300x	Selesai dengan ketidakstabilan signifikan[^29]
27B parameter	~3000x	Divergensi katastrofik[^30]

Properti identity mapping yang membuat residual connections bekerja telah hancur.[^31] Residual connections standar mempertahankan besaran sinyal dengan menambahkan input ke output. Matriks arbitrer Hyper-Connections melanggar jaminan ini, dan model yang lebih besar memperkuat masalah secara eksponensial.[^32]

Solusi mHC

Framework Manifold-Constrained Hyper-Connections dari DeepSeek mengatasi ketidakstabilan dengan membatasi matriks koneksi ke struktur matematika tertentu.[^33] Alih-alih mengizinkan matriks yang dipelajari secara arbitrer, mHC memproyeksikan koneksi ke Birkhoff Polytope, ruang matriks doubly stochastic.[^34]

Matriks doubly stochastic memiliki baris dan kolom yang masing-masing berjumlah 1,0.[^35] Batasan ini menjamin bahwa besaran sinyal tidak dapat tumbuh atau menyusut saat informasi melewati jaringan.[^36] Properti identity mapping kembali, tetapi dengan fleksibilitas yang dipelajari tentang bagaimana informasi diarahkan antar layer.[^37]

Algoritma Sinkhorn-Knopp

Mengonversi matriks arbitrer ke bentuk doubly stochastic memerlukan algoritma Sinkhorn-Knopp, prosedur iteratif yang dikembangkan pada tahun 1967 untuk normalisasi matriks.[^38] Algoritma ini bergantian antara normalisasi baris dan normalisasi kolom hingga konvergen.[^39]

Input: Matriks non-negatif A
Ulangi:
  1. Normalisasi setiap baris agar berjumlah 1
  2. Normalisasi setiap kolom agar berjumlah 1
Hingga konvergen
Output: Matriks doubly stochastic

Implementasi DeepSeek menggunakan 20 iterasi normalisasi Sinkhorn-Knopp, yang hasil eksperimental menunjukkan memberikan akurasi yang cukup tanpa komputasi berlebihan.[^40] Algoritma ini terintegrasi ke dalam loop pelatihan, memproyeksikan bobot koneksi yang dipelajari ke Birkhoff Polytope pada setiap langkah.[^41]

Optimasi Infrastruktur

Normalisasi Sinkhorn-Knopp mentah akan menambahkan overhead yang tidak dapat diterima pada pelatihan. Insinyur DeepSeek mengembangkan beberapa optimasi untuk membuat mHC praktis pada skala besar.[^42]

Kernel Fusion: Beberapa operasi normalisasi digabungkan menjadi panggilan kernel GPU tunggal, menghilangkan overhead transfer memori antar operasi.[^43]

Mixed Precision: Kernel berbasis TileLang memungkinkan komputasi FP8 yang efisien untuk operasi matriks sambil mempertahankan presisi FP32 untuk langkah normalisasi yang sensitif secara numerik.[^44]

Selective Recomputation: Daripada menyimpan semua nilai intermediate, sistem menghitung ulang tensor tertentu selama backward pass, menukar komputasi dengan memori.[^45]

DualPipe Communication Overlap: Pelatihan multi-GPU menumpang tindih komputasi Sinkhorn-Knopp dengan komunikasi antar perangkat, menyembunyikan latensi normalisasi.[^46]

Optimasi	Pengurangan Overhead
Kernel fusion	~40% pengurangan latensi[^47]
Mixed precision	~30% pengurangan memori[^48]
Selective recompute	~25% pengurangan memori[^49]
Communication overlap	~50% latensi tersembunyi[^50]

Optimasi gabungan mengurangi overhead pelatihan mHC menjadi 6,7% di atas baseline, membuat teknik ini layak untuk pelatihan skala produksi.[^51]

Hasil Eksperimental

DeepSeek menguji mHC terhadap arsitektur baseline dan Hyper-Connections tanpa batasan di tiga skala model: 3B, 9B, dan 27B parameter.[^52] Semua model menggunakan arsitektur DeepSeek-V3 sebagai fondasi, menggabungkan komponen Multi-Head Latent Attention (MLA) dan Mixture-of-Experts (MoE).[^53]

Stabilitas Pelatihan

Peningkatan paling dramatis muncul dalam metrik stabilitas pelatihan. Pengukuran penguatan sinyal melacak seberapa besar representasi internal tumbuh saat informasi melewati jaringan.[^54]

Model	Baseline	HC	mHC
Penguatan sinyal 3B	1,2x	48x	1,5x[^55]
Penguatan sinyal 9B	1,3x	287x	1,6x[^56]
Penguatan sinyal 27B	1,4x	3012x	1,6x[^57]

Model yang dilatih dengan mHC mempertahankan penguatan sinyal mendekati ideal teoritis 1,0x terlepas dari ukuran model.[^58] Hyper-Connections tanpa batasan menunjukkan ketidakstabilan yang meningkat secara eksponensial dengan skala, sementara mHC menunjukkan perilaku konsisten dari 3B hingga 27B parameter.[^59]

Kinerja Benchmark

Peningkatan kinerja muncul di seluruh benchmark yang berfokus pada penalaran di mana kemajuan arsitektur biasanya menunjukkan keuntungan terbesar.[^60]

Benchmark	Baseline	mHC	Peningkatan
BIG-Bench Hard (27B)	43,8%	51,0%	+7,2 poin[^61]
DROP	78,2%	81,4%	+3,2 poin[^62]
GSM8K	82,1%	84,9%	+2,8 poin[^63]
MMLU	79,4%	80,8%	+1,4 poin[^64]

Peningkatan terbesar muncul pada BIG-Bench Hard, benchmark yang secara khusus dirancang untuk menguji penalaran kompleks multi-langkah.[^65] DROP, yang memerlukan penalaran numerik atas bagian panjang, menunjukkan keuntungan terbesar kedua.[^66] Penalaran matematika GSM8K dan benchmark pengetahuan umum MMLU menunjukkan peningkatan yang lebih kecil tetapi konsisten.[^67]

Efisiensi Pelatihan

Meskipun ada komputasi Sinkhorn-Knopp tambahan, mHC hanya menambahkan 6,7% overhead ke total waktu pelatihan.[^68] Overhead tetap konstan di seluruh skala model, menunjukkan teknik ini berskala efisien ke model yang lebih besar.[^69]

Ukuran Model	Waktu Pelatihan (Baseline)	Waktu Pelatihan (mHC)	Overhead
3B	100 jam	106,5 jam	6,5%[^70]
9B	280 jam	298,8 jam	6,7%[^71]
27B	840 jam	896,3 jam	6,7%[^72]

Kurva loss menunjukkan mHC mencapai loss akhir yang lebih rendah daripada pendekatan baseline dan HC.[^73] Model mHC 27B mencapai loss akhir 0,021 lebih rendah dari baseline, yang langsung diterjemahkan ke peningkatan benchmark yang diamati.[^74]

Implikasi untuk Pengembangan Model Fondasi

CEO DeepSeek Liang Wenfeng ikut menulis makalah mHC, sinyal bahwa teknik ini kemungkinan akan muncul di model unggulan perusahaan berikutnya.[^75] Analis memperkirakan DeepSeek R2 atau V4 akan menggabungkan arsitektur mHC, berpotensi diluncurkan selama Tahun Baru Imlek pada Februari 2026.[^76]

Implikasi yang lebih luas melampaui DeepSeek. mHC mengatasi batasan fundamental yang telah membatasi inovasi arsitektur dalam model bahasa besar. Selama dekade terakhir, para peneliti sebagian besar menghindari modifikasi residual connections karena perubahan apa pun yang melanggar identity mapping menyebabkan ketidakstabilan pelatihan pada skala besar.[^77]

Membuka Inovasi Arsitektur

mHC menunjukkan bahwa pola koneksi yang dapat dipelajari dapat bekerja pada skala besar ketika dibatasi dengan tepat.[^78] Proyeksi Birkhoff Polytope mempertahankan properti matematika yang membuat pelatihan stabil sambil memungkinkan jaringan menemukan pola routing informasi optimal.[^79]

Arah penelitian masa depan yang dibuka oleh mHC meliputi:

Kekuatan koneksi spesifik layer: Model dapat mempelajari bahwa layer awal mendapat manfaat dari skip connections yang lebih kuat sementara layer yang lebih dalam membutuhkan pola routing yang berbeda.[^80]

Koneksi dinamis: Pola koneksi dapat bervariasi berdasarkan konten input, mengarahkan jenis informasi yang berbeda melalui jalur yang berbeda.[^81]

Modifikasi cross-attention: Framework mHC dapat diperluas ke mekanisme attention, berpotensi meningkatkan cara model menggabungkan informasi di seluruh posisi sequence.[^82]

Implikasi Biaya Pelatihan

DeepSeek telah membangun rekam jejak dalam melatih

[Konten dipotong untuk terjemahan]

DeepSeek mHC: Perbaikan Arsitektur yang Dapat Membuka Kunci Model AI Skala Triliun Parameter

Ringkasan

Masalah Residual Connection

Keterbatasan

Hyper-Connections: Revolusi yang Gagal

Ketidakstabilan Katastrofik

Solusi mHC

Algoritma Sinkhorn-Knopp

Optimasi Infrastruktur

Hasil Eksperimental

Stabilitas Pelatihan

Kinerja Benchmark

Efisiensi Pelatihan

Implikasi untuk Pengembangan Model Fondasi

Membuka Inovasi Arsitektur

Implikasi Biaya Pelatihan

You Might Also Like

Trump Membuka Ekspor H200 ke Tiongkok dengan Biaya Tambahan ...

Supersiklus Memori AI: Bagaimana HBM Menjadi Hambatan Paling...

Trump Izinkan Nvidia Jual Chip H200 ke Tiongkok dengan Poton...

Minta Penawaran_

Permintaan Diterima_