DeepSeek mHC: การแก้ไขสถาปัตยกรรมที่อาจปลดล็อกโมเดล AI ขนาดล้านล้านพารามิเตอร์
เฟรมเวิร์ก Manifold-Constrained Hyper-Connections ใหม่ของ DeepSeek แก้ปัญหาการขยายขนาดที่มีมานานกว่าทศวรรษ ทำให้สามารถเทรนโมเดลขนาด 27B+ พารามิเตอร์ได้อย่างเสถียรด้วย overhead เพียง 6.7%
None