DeepSeek mHC: การแก้ไขสถาปัตยกรรมที่อาจปลดล็อกโมเดล AI ขนาดล้านล้านพารามิเตอร์
การขยายสัญญาณ 3000 เท่าทำลายโมเดลขนาด 27 พันล้านพารามิเตอร์ระหว่างการเทรน[^1] นักวิจัยของ DeepSeek เฝ้าดู Hyper-Connections แบบไม่จำกัดทำให้เกิดการแตกต่างอย่างรุนแรง โดย gradients พุ่งสูงจนไม่มีทางกู้คืนได้ วิธีแก้ปัญหาที่พวกเขาพัฒนาขึ้นอาจเปลี่ยนแปลงวิธีที่อุตสาหกรรมสร้าง foundation models
สรุปย่อ
DeepSeek เผยแพร่บทความทางเทคนิคเมื่อวันที่ 31 ธันวาคม 2025 แนะนำ Manifold-Constrained Hyper-Connections (mHC) ซึ่งเป็นเฟรมเวิร์กที่ฉายเมทริกซ์การเชื่อมต่อของโครงข่ายประสาทเทียมลงบน mathematical manifold โดยใช้อัลกอริทึม Sinkhorn-Knopp[^2] แนวทางนี้แก้ปัญหาความไม่เสถียรในการเทรนที่เคยรบกวนสถาปัตยกรรม Hyper-Connection ก่อนหน้านี้ ควบคุมการขยายสัญญาณให้เหลือ 1.6 เท่าเมื่อเทียบกับ 3000 เท่าในวิธีแบบไม่จำกัด[^3] การทดสอบกับโมเดลขนาด 3B, 9B และ 27B พารามิเตอร์แสดงให้เห็นการปรับปรุง 2.1% บน BIG-Bench Hard reasoning benchmarks โดยมี training overhead เพิ่มขึ้นเพียง 6.7%[^4] CEO Liang Wenfeng ร่วมเขียนบทความนี้ ส่งสัญญาณว่า mHC มีแนวโน้มจะปรากฏในโมเดลเรือธงรุ่นถัดไปของ DeepSeek
ปัญหาของ Residual Connection
โมเดลภาษาขนาดใหญ่ทุกตัวในปัจจุบันพึ่งพา residual connections ซึ่งเป็นเทคนิคที่นำเสนอในปี 2015 กับ ResNet ที่เปลี่ยนแปลง deep learning อย่างพื้นฐาน[^5] แนวคิดนี้ดูเรียบง่าย: อนุญาตให้ข้อมูลข้ามเลเยอร์ได้โดยการเพิ่ม input โดยตรงเข้ากับ output สร้าง "skip connections" ที่ช่วยให้ gradients ไหลได้ง่ายขึ้นระหว่างการเทรน[^6]
บทความ ResNet ต้นฉบับของ Kaiming He แสดงให้เห็นว่า residual connections แก้ปัญหา "degradation problem" ที่เคยรบกวนเครือข่ายลึก[^7] หากไม่มี skip connections การเพิ่มเลเยอร์มากขึ้นในเครือข่ายกลับเพิ่ม training error อย่างขัดแย้ง VGGNet ที่มี 19 เลเยอร์ทำงานได้แย่กว่า AlexNet ที่มี 8 เลเยอร์ในงานบางอย่าง แม้จะมีความจุมากกว่า[^8]
Residual connections ทำให้สามารถเทรนเครือข่ายที่มีหลายร้อยเลเยอร์ได้ เทคนิคนี้พิสูจน์แล้วว่าเป็นพื้นฐานจนสถาปัตยกรรม transformer ทั้งหมดรวม residual connections ไว้[^9] GPT, BERT, Claude และโมเดลภาษาขนาดใหญ่อื่นๆ ทั้งหมดพึ่งพา skip connections เพื่อทำงาน[^10]
ข้อจำกัด
Residual connection มาตรฐานเพิ่ม input โดยตรงเข้ากับ output ด้วยน้ำหนักคงที่ 1.0 ข้อจำกัดนี้รับประกันการเทรนที่เสถียรแต่จำกัดความสามารถในการแสดงออก เครือข่ายไม่สามารถเรียนรู้ว่าบางเลเยอร์ควรมีส่วนร่วมมากกว่าเลเยอร์อื่น หรือว่าการเชื่อมต่อระหว่างเลเยอร์ที่ไม่อยู่ติดกันอาจปรับปรุงประสิทธิภาพได้[^11]
| สถาปัตยกรรม | ปี | ประเภท Residual | น้ำหนักการเชื่อมต่อ |
|---|---|---|---|
| ResNet | 2015 | Fixed skip | 1.0 (คงที่)[^12] |
| Highway Network | 2015 | Gated skip | Learned gate (0-1)[^13] |
| DenseNet | 2016 | All-to-all | การมีส่วนร่วมเท่ากัน[^14] |
| Transformer | 2017 | Fixed skip | 1.0 (คงที่)[^15] |
| Hyper-Connections | 2024 | Variable width | Learned matrices[^16] |
นักวิจัยพยายามปรับเปลี่ยนหลายรูปแบบ Highway networks เพิ่ม learnable gates เพื่อควบคุมการไหลของข้อมูล[^17] DenseNet เชื่อมต่อทุกเลเยอร์กับทุกเลเยอร์ถัดไป[^18] แนวทางเหล่านี้ปรับปรุงประสิทธิภาพแต่นำมาซึ่ง computational overhead หรือความท้าทายในการเทรนในระดับใหญ่[^19]
Hyper-Connections: การปฏิวัติที่ล้มเหลว
Hyper-Connections (HC) ที่นำเสนอในปี 2024 เป็นความพยายามที่ทะเยอทะยานในการทำให้ residual connections เรียนรู้ได้อย่างเต็มที่[^20] แทนที่จะเป็น skip connections คงที่ที่มีน้ำหนัก 1.0 HC อนุญาตให้โครงข่ายประสาทเทียมเรียนรู้ความแข็งแกร่งของการเชื่อมต่อตามอำเภอใจระหว่างเลเยอร์ผ่าน weight matrices[^21]
ทฤษฎีนี้มีความหวัง หากเครือข่ายสามารถเรียนรู้รูปแบบการเชื่อมต่อที่เหมาะสม พวกมันอาจค้นพบสถาปัตยกรรมที่มนุษย์ไม่มีวันออกแบบด้วยมือ[^22] การทดลองในช่วงแรกแสดงให้เห็นการปรับปรุงประสิทธิภาพอย่างมากในโมเดลขนาดเล็ก[^23]
ปัญหาเกิดขึ้นเมื่อขยายขนาด
ความไม่เสถียรที่รุนแรง
เมื่อนักวิจัยของ DeepSeek พยายามเทรนโมเดลขนาด 27 พันล้านพารามิเตอร์ด้วย Hyper-Connections แบบไม่จำกัด การขยายสัญญาณเกิน 3000 เท่า[^24] การแสดงแทนภายในของเครือข่ายระเบิดในขนาด ทำให้ gradients กลายเป็นอนันต์และการเทรนล้มเหลวทั้งหมด[^25]
คำอธิบายทางคณิตศาสตร์มุ่งเน้นที่ eigenvalues เมื่อเมทริกซ์ตามอำเภอใจคูณกันข้ามหลายร้อยเลเยอร์ eigenvalue ใดก็ตามที่มากกว่า 1.0 ทำให้เกิดการเติบโตแบบเอ็กซ์โพเนนเชียล[^26] ในโมเดลขนาด 27B พารามิเตอร์ที่มี connection matrices แบบไม่จำกัด ความน่าจะเป็นที่ eigenvalues ทั้งหมดจะอยู่ต่ำกว่า 1.0 เข้าใกล้ศูนย์[^27]
| ขนาดโมเดล | HC Signal Gain | ผลลัพธ์การเทรน |
|---|---|---|
| 3B พารามิเตอร์ | ~50x | เสร็จสิ้นด้วยประสิทธิภาพลดลง[^28] |
| 9B พารามิเตอร์ | ~300x | เสร็จสิ้นด้วยความไม่เสถียรอย่างมาก[^29] |
| 27B พารามิเตอร์ | ~3000x | การแตกต่างรุนแรง[^30] |
คุณสมบัติ identity mapping ที่ทำให้ residual connections ทำงานได้ถูกทำลาย[^31] Residual connections มาตรฐานรักษาขนาดสัญญาณโดยการเพิ่ม input เข้ากับ output เมทริกซ์ตามอำเภอใจของ Hyper-Connections ทำลายการรับประกันนี้ และโมเดลที่ใหญ่ขึ้นขยายปัญหาแบบเอ็กซ์โพเนนเชียล[^32]
วิธีแก้ปัญหา mHC
เฟรมเวิร์ก Manifold-Constrained Hyper-Connections ของ DeepSeek จัดการกับความไม่เสถียรโดยจำกัด connection matrices ให้อยู่ในโครงสร้างทางคณิตศาสตร์เฉพาะ[^33] แทนที่จะอนุญาตให้เมทริกซ์ที่เรียนรู้เป็นแบบตามอำเภอใจ mHC ฉายการเชื่อมต่อลงบน Birkhoff Polytope ซึ่งเป็นปริภูมิของ doubly stochastic matrices[^34]
Doubly stochastic matrix มีแถวและคอลัมน์ที่แต่ละอันรวมกันได้ 1.0[^35] ข้อจำกัดนี้รับประกันว่าขนาดสัญญาณไม่สามารถเติบโตหรือหดตัวเมื่อข้อมูลผ่านเครือข่าย[^36] คุณสมบัติ identity mapping กลับมา แต่มีความยืดหยุ่นที่เรียนรู้ได้เกี่ยวกับวิธีที่ข้อมูลเดินทางระหว่างเลเยอร์[^37]
อัลกอริทึม Sinkhorn-Knopp
การแปลงเมทริกซ์ตามอำเภอใจให้เป็นรูปแบบ doubly stochastic ต้องใช้อัลกอริทึม Sinkhorn-Knopp ซึ่งเป็นขั้นตอนแบบวนซ้ำที่พัฒนาขึ้นในปี 1967 สำหรับการทำให้เมทริกซ์เป็นมาตรฐาน[^38] อัลกอริทึมสลับกันระหว่างการทำให้แถวเป็นมาตรฐานและการทำให้คอลัมน์เป็นมาตรฐานจนกว่าจะลู่เข้า[^39]
Input: Non-negative matrix A
Repeat:
1. Normalize each row to sum to 1
2. Normalize each column to sum to 1
Until convergence
Output: Doubly stochastic matrix
การใช้งานของ DeepSeek ใช้ 20 รอบของการทำให้เป็นมาตรฐาน Sinkhorn-Knopp ซึ่งผลการทดลองแสดงว่าให้ความแม่นยำเพียงพอโดยไม่มีการคำนวณมากเกินไป[^40] อัลกอริทึมรวมเข้ากับ training loop โดยฉาย connection weights ที่เรียนรู้ลงบน Birkhoff Polytope ในแต่ละขั้นตอน[^41]
การเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน
การทำให้เป็นมาตรฐาน Sinkhorn-Knopp แบบดิบจะเพิ่ม overhead ที่ยอมรับไม่ได้ให้กับการเทรน วิศวกรของ DeepSeek พัฒนาการเพิ่มประสิทธิภาพหลายอย่างเพื่อทำให้ mHC ใช้งานได้จริงในระดับใหญ่[^42]
Kernel Fusion: การดำเนินการทำให้เป็นมาตรฐานหลายอย่างรวมเป็นการเรียก GPU kernel ครั้งเดียว กำจัด memory transfer overhead ระหว่างการดำเนินการ[^43]
Mixed Precision: kernels แบบ TileLang ช่วยให้การคำนวณ FP8 มีประสิทธิภาพสำหรับการดำเนินการเมทริกซ์ในขณะที่รักษาความแม่นยำ FP32 สำหรับขั้นตอนการทำให้เป็นมาตรฐานที่ไวต่อตัวเลข[^44]
Selective Recomputation: แทนที่จะเก็บค่ากลางทั้งหมด ระบบคำนวณ tensors บางตัวใหม่ระหว่าง backward pass แลกการคำนวณกับหน่วยความจำ[^45]
DualPipe Communication Overlap: การเทรนแบบ Multi-GPU ทับซ้อนการคำนวณ Sinkhorn-Knopp กับการสื่อสารระหว่างอุปกรณ์ ซ่อน normalization latency[^46]
| การเพิ่มประสิทธิภาพ | การลด Overhead |
|---|---|
| Kernel fusion | ลด latency ~40%[^47] |
| Mixed precision | ลดหน่วยความจำ ~30%[^48] |
| Selective recompute | ลดหน่วยความจำ ~25%[^49] |
| Communication overlap | ซ่อน latency ~50%[^50] |
การเพิ่มประสิทธิภาพรวมกันลด training overhead ของ mHC เหลือ 6.7% เหนือ baseline ทำให้เทคนิคนี้ใช้งานได้จริงสำหรับการเทรนระดับการผลิต[^51]
ผลการทดลอง
DeepSeek ทดสอบ mHC กับสถาปัตยกรรม baseline และ Hyper-Connections แบบไม่จำกัดในสามขนาดโมเดล: 3B, 9B และ 27B พารามิเตอร์[^52] โมเดลทั้งหมดใช้สถาปัตยกรรม DeepSeek-V3 เป็นพื้นฐาน รวม Multi-Head Latent Attention (MLA) และส่วนประกอบ Mixture-of-Experts (MoE)[^53]
ความเสถียรในการเทรน
การปรับปรุงที่น่าทึ่งที่สุดปรากฏในเมตริกความเสถียรในการเทรน การวัด signal gain ติดตามว่าการแสดงแทนภายในเติบโตมากเท่าไหร่เมื่อข้อมูลผ่านเครือข่าย[^54]
| โมเดล | Baseline | HC | mHC |
|---|---|---|---|
| 3B signal gain | 1.2x | 48x | 1.5x[^55] |
| 9B signal gain | 1.3x | 287x | 1.6x[^56] |
| 27B signal gain | 1.4x | 3012x | 1.6x[^57] |
โมเดลที่เทรนด้วย mHC รักษา signal gains ใกล้กับค่าทางทฤษฎีที่เหมาะสม 1.0x โดยไม่ขึ้นกับขนาดโมเดล[^58] Hyper-Connections แบบไม่จำกัดแสดงความไม่เสถียรที่เพิ่มขึ้นแบบเอ็กซ์โพเนนเชียลตามขนาด ในขณะที่ mHC แสดงพฤติกรรมที่สม่ำเสมอตั้งแต่ 3B ถึง 27B พารามิเตอร์[^59]
ประสิทธิภาพ Benchmark
การปรับปรุงประสิทธิภาพปรากฏทั่ว benchmarks ที่เน้นการใช้เหตุผล ซึ่งความก้าวหน้าทางสถาปัตยกรรมมักแสดงผลกำไรที่ใหญ่ที่สุด[^60]
| Benchmark | Baseline | mHC | การปรับปรุง |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43.8% | 51.0% | +7.2 คะแนน[^61] |
| DROP | 78.2% | 81.4% | +3.2 คะแนน[^62] |
| GSM8K | 82.1% | 84.9% | +2.8 คะแนน[^63] |
| MMLU | 79.4% | 80.8% | +1.4 คะแนน[^64] |
การปรับปรุงที่ใหญ่ที่สุดปรากฏบน BIG-Bench Hard ซึ่งเป็น benchmark ที่ออกแบบมาโดยเฉพาะเพื่อทดสอบการใช้เหตุผลแบบซับซ้อนหลายขั้นตอน[^65] DROP ซึ่งต้องใช้การใช้เหตุผลเชิงตัวเลขข้ามข้อความยาว แสดงผลกำไรที่ใหญ่เป็นอันดับสอง[^66] GSM8K การใช้เหตุผลทางคณิตศาสตร์และ MMLU benchmarks ความรู้ทั่วไปแสดงการปรับปรุงที่เล็กกว่าแต่สม่ำเสมอ[^67]
ประสิทธิภาพการเทรน
แม้จะมีการคำนวณ Sinkhorn-Knopp เพิ่มเติม mHC เพิ่ม overhead เพียง 6.7% ให้กับเวลาเทรนทั้งหมด[^68] Overhead ยังคงคงที่ตามขนาดโมเดล แสดงว่าเทคนิคนี้ขยายขนาดได้อย่างมีประสิทธิภาพไปยังโมเดลที่ใหญ่ขึ้น[^69]
| ขนาดโมเดล | เวลาเทรน (Baseline) | เวลาเทรน (mHC) | Overhead |
|---|---|---|---|
| 3B | 100 ชั่วโมง | 106.5 ชั่วโมง | 6.5%[^70] |
| 9B | 280 ชั่วโมง | 298.8 ชั่วโมง | 6.7%[^71] |
| 27B | 840 ชั่วโมง | 896.3 ชั่วโมง | 6.7%[^72] |
Loss curves แสดงให้เห็น mHC บรรลุ final loss ที่ต่ำกว่าทั้งแนวทาง baseline และ HC[^73] โมเดล mHC 27B บรรลุ final loss ต่ำกว่า baseline 0.021 แปลงเป็นการปรับปรุง benchmark ที่สังเกตได้โดยตรง[^74]
ผลกระทบต่อการพัฒนา Foundation Model
CEO ของ DeepSeek Liang Wenfeng ร่วมเขียนบทความ mHC ซึ่งเป็นสัญญาณว่าเทคนิคนี้มีแนวโน้มจะปรากฏในโมเดลเรือธงรุ่นถัดไปของบริษัท[^75] นักวิเคราะห์คาดว่า DeepSeek R2 หรือ V4 จะรวม mHC architecture อาจเปิดตัวในช่วงตรุษจีนในเดือนกุมภาพันธ์ 2026[^76]
ผลกระทบที่กว้างขึ้นขยายเกินกว่า DeepSeek mHC จัดการกับข้อจำกัดพื้นฐานที่จำกัดนวัตกรรมทางสถาปัตยกรรมในโมเดลภาษาขนาดใหญ่ ในช่วงทศวรรษที่ผ่านมา นักวิจัยส่วนใหญ่หลีกเลี่ยงการปรับเปลี่ยน residual connections เพราะการเปลี่ยนแปลงใดๆ ที่ทำลาย identity mapping ทำให้เกิดความไม่เสถียรในการเทรนในระดับใหญ่[^77]
ปลดล็อกนวัตกรรมทางสถาปัตยกรรม
mHC แสดงให้เห็นว่ารูปแบบการเชื่อมต่อที่เรียนรู้ได้สามารถทำงานในระดับใหญ่เมื่อถูกจำกัดอย่างเหมาะสม[^78] การฉาย Birkhoff Polytope รักษาคุณสมบัติทางคณิตศาสตร์ที่ทำให้การเทรนเสถียรในขณะที่อนุญาตให้เครือข่ายค้นพบรูปแบบการเดินทางข้อมูลที่เหมาะสม[^79]
ทิศทางการวิจัยในอนาคตที่ mHC เปิดรวมถึง:
ความแข็งแกร่งของการเชื่อมต่อเฉพาะเลเยอร์: โมเดลสามารถเรียนรู้ว่าเลเยอร์แรกๆ ได้ประโยชน์จาก skip connections ที่แข็งแกร่งกว่าในขณะที่เลเยอร์ลึกกว่าต้องการรูปแบบการเดินทางที่แตกต่าง[^80]
การเชื่อมต่อแบบไดนามิก: รูปแบบการเชื่อมต่อสามารถเปลี่ยนแปลงตามเนื้อหา input เดินทางข้อมูลประเภทต่างๆ ผ่านเส้นทางที่แตกต่างกัน[^81]
การปรับเปลี่ยน Cross-attention: เฟรมเวิร์ก mHC สามารถขยายไปยังกลไก attention อาจปรับปรุงวิธีที่โมเดลรวมข้อมูลข้ามตำแหน่งลำดับ[^82]
ผลกระทบต่อต้นทุนการเทรน
DeepSeek ได้สร้างประวัติผลงานในการเทรน
[เนื้อหาถูกตัดทอนสำหรับการแปล]