DeepSeek mHC: Perbaikan Arsitektur yang Dapat Membuka Kunci Model AI Skala Triliun Parameter
Framework Manifold-Constrained Hyper-Connections baru dari DeepSeek memecahkan masalah penskalaan yang telah ada selama satu dekade, memungkinkan pelatihan stabil model 27B+ parameter dengan overhead hanya 6,7%.
None