DeepSeek mHC: การแก้ไขสถาปัตยกรรมที่อาจปลดล็อกโมเดล AI ขนาดล้านล้านพารามิเตอร์

เฟรมเวิร์ก Manifold-Constrained Hyper-Connections ใหม่ของ DeepSeek แก้ปัญหาการขยายขนาดที่มีมานานกว่าทศวรรษ ทำให้สามารถเทรนโมเดลขนาด 27B+ พารามิเตอร์ได้อย่างเสถียรด้วย overhead เพียง 6.7%

DeepSeek mHC: การแก้ไขสถาปัตยกรรมที่อาจปลดล็อกโมเดล AI ขนาดล้านล้านพารามิเตอร์

DeepSeek mHC: การแก้ไขสถาปัตยกรรมที่อาจปลดล็อกโมเดล AI ขนาดล้านล้านพารามิเตอร์

การขยายสัญญาณ 3000 เท่าทำลายโมเดลขนาด 27 พันล้านพารามิเตอร์ระหว่างการเทรน[^1] นักวิจัยของ DeepSeek เฝ้าดู Hyper-Connections แบบไม่จำกัดทำให้เกิดการแตกต่างอย่างรุนแรง โดย gradients พุ่งสูงจนไม่มีทางกู้คืนได้ วิธีแก้ปัญหาที่พวกเขาพัฒนาขึ้นอาจเปลี่ยนแปลงวิธีที่อุตสาหกรรมสร้าง foundation models

สรุปย่อ

DeepSeek เผยแพร่บทความทางเทคนิคเมื่อวันที่ 31 ธันวาคม 2025 แนะนำ Manifold-Constrained Hyper-Connections (mHC) ซึ่งเป็นเฟรมเวิร์กที่ฉายเมทริกซ์การเชื่อมต่อของโครงข่ายประสาทเทียมลงบน mathematical manifold โดยใช้อัลกอริทึม Sinkhorn-Knopp[^2] แนวทางนี้แก้ปัญหาความไม่เสถียรในการเทรนที่เคยรบกวนสถาปัตยกรรม Hyper-Connection ก่อนหน้านี้ ควบคุมการขยายสัญญาณให้เหลือ 1.6 เท่าเมื่อเทียบกับ 3000 เท่าในวิธีแบบไม่จำกัด[^3] การทดสอบกับโมเดลขนาด 3B, 9B และ 27B พารามิเตอร์แสดงให้เห็นการปรับปรุง 2.1% บน BIG-Bench Hard reasoning benchmarks โดยมี training overhead เพิ่มขึ้นเพียง 6.7%[^4] CEO Liang Wenfeng ร่วมเขียนบทความนี้ ส่งสัญญาณว่า mHC มีแนวโน้มจะปรากฏในโมเดลเรือธงรุ่นถัดไปของ DeepSeek

ปัญหาของ Residual Connection

โมเดลภาษาขนาดใหญ่ทุกตัวในปัจจุบันพึ่งพา residual connections ซึ่งเป็นเทคนิคที่นำเสนอในปี 2015 กับ ResNet ที่เปลี่ยนแปลง deep learning อย่างพื้นฐาน[^5] แนวคิดนี้ดูเรียบง่าย: อนุญาตให้ข้อมูลข้ามเลเยอร์ได้โดยการเพิ่ม input โดยตรงเข้ากับ output สร้าง "skip connections" ที่ช่วยให้ gradients ไหลได้ง่ายขึ้นระหว่างการเทรน[^6]

บทความ ResNet ต้นฉบับของ Kaiming He แสดงให้เห็นว่า residual connections แก้ปัญหา "degradation problem" ที่เคยรบกวนเครือข่ายลึก[^7] หากไม่มี skip connections การเพิ่มเลเยอร์มากขึ้นในเครือข่ายกลับเพิ่ม training error อย่างขัดแย้ง VGGNet ที่มี 19 เลเยอร์ทำงานได้แย่กว่า AlexNet ที่มี 8 เลเยอร์ในงานบางอย่าง แม้จะมีความจุมากกว่า[^8]

Residual connections ทำให้สามารถเทรนเครือข่ายที่มีหลายร้อยเลเยอร์ได้ เทคนิคนี้พิสูจน์แล้วว่าเป็นพื้นฐานจนสถาปัตยกรรม transformer ทั้งหมดรวม residual connections ไว้[^9] GPT, BERT, Claude และโมเดลภาษาขนาดใหญ่อื่นๆ ทั้งหมดพึ่งพา skip connections เพื่อทำงาน[^10]

ข้อจำกัด

Residual connection มาตรฐานเพิ่ม input โดยตรงเข้ากับ output ด้วยน้ำหนักคงที่ 1.0 ข้อจำกัดนี้รับประกันการเทรนที่เสถียรแต่จำกัดความสามารถในการแสดงออก เครือข่ายไม่สามารถเรียนรู้ว่าบางเลเยอร์ควรมีส่วนร่วมมากกว่าเลเยอร์อื่น หรือว่าการเชื่อมต่อระหว่างเลเยอร์ที่ไม่อยู่ติดกันอาจปรับปรุงประสิทธิภาพได้[^11]

สถาปัตยกรรม ปี ประเภท Residual น้ำหนักการเชื่อมต่อ
ResNet 2015 Fixed skip 1.0 (คงที่)[^12]
Highway Network 2015 Gated skip Learned gate (0-1)[^13]
DenseNet 2016 All-to-all การมีส่วนร่วมเท่ากัน[^14]
Transformer 2017 Fixed skip 1.0 (คงที่)[^15]
Hyper-Connections 2024 Variable width Learned matrices[^16]

นักวิจัยพยายามปรับเปลี่ยนหลายรูปแบบ Highway networks เพิ่ม learnable gates เพื่อควบคุมการไหลของข้อมูล[^17] DenseNet เชื่อมต่อทุกเลเยอร์กับทุกเลเยอร์ถัดไป[^18] แนวทางเหล่านี้ปรับปรุงประสิทธิภาพแต่นำมาซึ่ง computational overhead หรือความท้าทายในการเทรนในระดับใหญ่[^19]

Hyper-Connections: การปฏิวัติที่ล้มเหลว

Hyper-Connections (HC) ที่นำเสนอในปี 2024 เป็นความพยายามที่ทะเยอทะยานในการทำให้ residual connections เรียนรู้ได้อย่างเต็มที่[^20] แทนที่จะเป็น skip connections คงที่ที่มีน้ำหนัก 1.0 HC อนุญาตให้โครงข่ายประสาทเทียมเรียนรู้ความแข็งแกร่งของการเชื่อมต่อตามอำเภอใจระหว่างเลเยอร์ผ่าน weight matrices[^21]

ทฤษฎีนี้มีความหวัง หากเครือข่ายสามารถเรียนรู้รูปแบบการเชื่อมต่อที่เหมาะสม พวกมันอาจค้นพบสถาปัตยกรรมที่มนุษย์ไม่มีวันออกแบบด้วยมือ[^22] การทดลองในช่วงแรกแสดงให้เห็นการปรับปรุงประสิทธิภาพอย่างมากในโมเดลขนาดเล็ก[^23]

ปัญหาเกิดขึ้นเมื่อขยายขนาด

ความไม่เสถียรที่รุนแรง

เมื่อนักวิจัยของ DeepSeek พยายามเทรนโมเดลขนาด 27 พันล้านพารามิเตอร์ด้วย Hyper-Connections แบบไม่จำกัด การขยายสัญญาณเกิน 3000 เท่า[^24] การแสดงแทนภายในของเครือข่ายระเบิดในขนาด ทำให้ gradients กลายเป็นอนันต์และการเทรนล้มเหลวทั้งหมด[^25]

คำอธิบายทางคณิตศาสตร์มุ่งเน้นที่ eigenvalues เมื่อเมทริกซ์ตามอำเภอใจคูณกันข้ามหลายร้อยเลเยอร์ eigenvalue ใดก็ตามที่มากกว่า 1.0 ทำให้เกิดการเติบโตแบบเอ็กซ์โพเนนเชียล[^26] ในโมเดลขนาด 27B พารามิเตอร์ที่มี connection matrices แบบไม่จำกัด ความน่าจะเป็นที่ eigenvalues ทั้งหมดจะอยู่ต่ำกว่า 1.0 เข้าใกล้ศูนย์[^27]

ขนาดโมเดล HC Signal Gain ผลลัพธ์การเทรน
3B พารามิเตอร์ ~50x เสร็จสิ้นด้วยประสิทธิภาพลดลง[^28]
9B พารามิเตอร์ ~300x เสร็จสิ้นด้วยความไม่เสถียรอย่างมาก[^29]
27B พารามิเตอร์ ~3000x การแตกต่างรุนแรง[^30]

คุณสมบัติ identity mapping ที่ทำให้ residual connections ทำงานได้ถูกทำลาย[^31] Residual connections มาตรฐานรักษาขนาดสัญญาณโดยการเพิ่ม input เข้ากับ output เมทริกซ์ตามอำเภอใจของ Hyper-Connections ทำลายการรับประกันนี้ และโมเดลที่ใหญ่ขึ้นขยายปัญหาแบบเอ็กซ์โพเนนเชียล[^32]

วิธีแก้ปัญหา mHC

เฟรมเวิร์ก Manifold-Constrained Hyper-Connections ของ DeepSeek จัดการกับความไม่เสถียรโดยจำกัด connection matrices ให้อยู่ในโครงสร้างทางคณิตศาสตร์เฉพาะ[^33] แทนที่จะอนุญาตให้เมทริกซ์ที่เรียนรู้เป็นแบบตามอำเภอใจ mHC ฉายการเชื่อมต่อลงบน Birkhoff Polytope ซึ่งเป็นปริภูมิของ doubly stochastic matrices[^34]

Doubly stochastic matrix มีแถวและคอลัมน์ที่แต่ละอันรวมกันได้ 1.0[^35] ข้อจำกัดนี้รับประกันว่าขนาดสัญญาณไม่สามารถเติบโตหรือหดตัวเมื่อข้อมูลผ่านเครือข่าย[^36] คุณสมบัติ identity mapping กลับมา แต่มีความยืดหยุ่นที่เรียนรู้ได้เกี่ยวกับวิธีที่ข้อมูลเดินทางระหว่างเลเยอร์[^37]

อัลกอริทึม Sinkhorn-Knopp

การแปลงเมทริกซ์ตามอำเภอใจให้เป็นรูปแบบ doubly stochastic ต้องใช้อัลกอริทึม Sinkhorn-Knopp ซึ่งเป็นขั้นตอนแบบวนซ้ำที่พัฒนาขึ้นในปี 1967 สำหรับการทำให้เมทริกซ์เป็นมาตรฐาน[^38] อัลกอริทึมสลับกันระหว่างการทำให้แถวเป็นมาตรฐานและการทำให้คอลัมน์เป็นมาตรฐานจนกว่าจะลู่เข้า[^39]

Input: Non-negative matrix A
Repeat:
  1. Normalize each row to sum to 1
  2. Normalize each column to sum to 1
Until convergence
Output: Doubly stochastic matrix

การใช้งานของ DeepSeek ใช้ 20 รอบของการทำให้เป็นมาตรฐาน Sinkhorn-Knopp ซึ่งผลการทดลองแสดงว่าให้ความแม่นยำเพียงพอโดยไม่มีการคำนวณมากเกินไป[^40] อัลกอริทึมรวมเข้ากับ training loop โดยฉาย connection weights ที่เรียนรู้ลงบน Birkhoff Polytope ในแต่ละขั้นตอน[^41]

การเพิ่มประสิทธิภาพโครงสร้างพื้นฐาน

การทำให้เป็นมาตรฐาน Sinkhorn-Knopp แบบดิบจะเพิ่ม overhead ที่ยอมรับไม่ได้ให้กับการเทรน วิศวกรของ DeepSeek พัฒนาการเพิ่มประสิทธิภาพหลายอย่างเพื่อทำให้ mHC ใช้งานได้จริงในระดับใหญ่[^42]

Kernel Fusion: การดำเนินการทำให้เป็นมาตรฐานหลายอย่างรวมเป็นการเรียก GPU kernel ครั้งเดียว กำจัด memory transfer overhead ระหว่างการดำเนินการ[^43]

Mixed Precision: kernels แบบ TileLang ช่วยให้การคำนวณ FP8 มีประสิทธิภาพสำหรับการดำเนินการเมทริกซ์ในขณะที่รักษาความแม่นยำ FP32 สำหรับขั้นตอนการทำให้เป็นมาตรฐานที่ไวต่อตัวเลข[^44]

Selective Recomputation: แทนที่จะเก็บค่ากลางทั้งหมด ระบบคำนวณ tensors บางตัวใหม่ระหว่าง backward pass แลกการคำนวณกับหน่วยความจำ[^45]

DualPipe Communication Overlap: การเทรนแบบ Multi-GPU ทับซ้อนการคำนวณ Sinkhorn-Knopp กับการสื่อสารระหว่างอุปกรณ์ ซ่อน normalization latency[^46]

การเพิ่มประสิทธิภาพ การลด Overhead
Kernel fusion ลด latency ~40%[^47]
Mixed precision ลดหน่วยความจำ ~30%[^48]
Selective recompute ลดหน่วยความจำ ~25%[^49]
Communication overlap ซ่อน latency ~50%[^50]

การเพิ่มประสิทธิภาพรวมกันลด training overhead ของ mHC เหลือ 6.7% เหนือ baseline ทำให้เทคนิคนี้ใช้งานได้จริงสำหรับการเทรนระดับการผลิต[^51]

ผลการทดลอง

DeepSeek ทดสอบ mHC กับสถาปัตยกรรม baseline และ Hyper-Connections แบบไม่จำกัดในสามขนาดโมเดล: 3B, 9B และ 27B พารามิเตอร์[^52] โมเดลทั้งหมดใช้สถาปัตยกรรม DeepSeek-V3 เป็นพื้นฐาน รวม Multi-Head Latent Attention (MLA) และส่วนประกอบ Mixture-of-Experts (MoE)[^53]

ความเสถียรในการเทรน

การปรับปรุงที่น่าทึ่งที่สุดปรากฏในเมตริกความเสถียรในการเทรน การวัด signal gain ติดตามว่าการแสดงแทนภายในเติบโตมากเท่าไหร่เมื่อข้อมูลผ่านเครือข่าย[^54]

โมเดล Baseline HC mHC
3B signal gain 1.2x 48x 1.5x[^55]
9B signal gain 1.3x 287x 1.6x[^56]
27B signal gain 1.4x 3012x 1.6x[^57]

โมเดลที่เทรนด้วย mHC รักษา signal gains ใกล้กับค่าทางทฤษฎีที่เหมาะสม 1.0x โดยไม่ขึ้นกับขนาดโมเดล[^58] Hyper-Connections แบบไม่จำกัดแสดงความไม่เสถียรที่เพิ่มขึ้นแบบเอ็กซ์โพเนนเชียลตามขนาด ในขณะที่ mHC แสดงพฤติกรรมที่สม่ำเสมอตั้งแต่ 3B ถึง 27B พารามิเตอร์[^59]

ประสิทธิภาพ Benchmark

การปรับปรุงประสิทธิภาพปรากฏทั่ว benchmarks ที่เน้นการใช้เหตุผล ซึ่งความก้าวหน้าทางสถาปัตยกรรมมักแสดงผลกำไรที่ใหญ่ที่สุด[^60]

Benchmark Baseline mHC การปรับปรุง
BIG-Bench Hard (27B) 43.8% 51.0% +7.2 คะแนน[^61]
DROP 78.2% 81.4% +3.2 คะแนน[^62]
GSM8K 82.1% 84.9% +2.8 คะแนน[^63]
MMLU 79.4% 80.8% +1.4 คะแนน[^64]

การปรับปรุงที่ใหญ่ที่สุดปรากฏบน BIG-Bench Hard ซึ่งเป็น benchmark ที่ออกแบบมาโดยเฉพาะเพื่อทดสอบการใช้เหตุผลแบบซับซ้อนหลายขั้นตอน[^65] DROP ซึ่งต้องใช้การใช้เหตุผลเชิงตัวเลขข้ามข้อความยาว แสดงผลกำไรที่ใหญ่เป็นอันดับสอง[^66] GSM8K การใช้เหตุผลทางคณิตศาสตร์และ MMLU benchmarks ความรู้ทั่วไปแสดงการปรับปรุงที่เล็กกว่าแต่สม่ำเสมอ[^67]

ประสิทธิภาพการเทรน

แม้จะมีการคำนวณ Sinkhorn-Knopp เพิ่มเติม mHC เพิ่ม overhead เพียง 6.7% ให้กับเวลาเทรนทั้งหมด[^68] Overhead ยังคงคงที่ตามขนาดโมเดล แสดงว่าเทคนิคนี้ขยายขนาดได้อย่างมีประสิทธิภาพไปยังโมเดลที่ใหญ่ขึ้น[^69]

ขนาดโมเดล เวลาเทรน (Baseline) เวลาเทรน (mHC) Overhead
3B 100 ชั่วโมง 106.5 ชั่วโมง 6.5%[^70]
9B 280 ชั่วโมง 298.8 ชั่วโมง 6.7%[^71]
27B 840 ชั่วโมง 896.3 ชั่วโมง 6.7%[^72]

Loss curves แสดงให้เห็น mHC บรรลุ final loss ที่ต่ำกว่าทั้งแนวทาง baseline และ HC[^73] โมเดล mHC 27B บรรลุ final loss ต่ำกว่า baseline 0.021 แปลงเป็นการปรับปรุง benchmark ที่สังเกตได้โดยตรง[^74]

ผลกระทบต่อการพัฒนา Foundation Model

CEO ของ DeepSeek Liang Wenfeng ร่วมเขียนบทความ mHC ซึ่งเป็นสัญญาณว่าเทคนิคนี้มีแนวโน้มจะปรากฏในโมเดลเรือธงรุ่นถัดไปของบริษัท[^75] นักวิเคราะห์คาดว่า DeepSeek R2 หรือ V4 จะรวม mHC architecture อาจเปิดตัวในช่วงตรุษจีนในเดือนกุมภาพันธ์ 2026[^76]

ผลกระทบที่กว้างขึ้นขยายเกินกว่า DeepSeek mHC จัดการกับข้อจำกัดพื้นฐานที่จำกัดนวัตกรรมทางสถาปัตยกรรมในโมเดลภาษาขนาดใหญ่ ในช่วงทศวรรษที่ผ่านมา นักวิจัยส่วนใหญ่หลีกเลี่ยงการปรับเปลี่ยน residual connections เพราะการเปลี่ยนแปลงใดๆ ที่ทำลาย identity mapping ทำให้เกิดความไม่เสถียรในการเทรนในระดับใหญ่[^77]

ปลดล็อกนวัตกรรมทางสถาปัตยกรรม

mHC แสดงให้เห็นว่ารูปแบบการเชื่อมต่อที่เรียนรู้ได้สามารถทำงานในระดับใหญ่เมื่อถูกจำกัดอย่างเหมาะสม[^78] การฉาย Birkhoff Polytope รักษาคุณสมบัติทางคณิตศาสตร์ที่ทำให้การเทรนเสถียรในขณะที่อนุญาตให้เครือข่ายค้นพบรูปแบบการเดินทางข้อมูลที่เหมาะสม[^79]

ทิศทางการวิจัยในอนาคตที่ mHC เปิดรวมถึง:

ความแข็งแกร่งของการเชื่อมต่อเฉพาะเลเยอร์: โมเดลสามารถเรียนรู้ว่าเลเยอร์แรกๆ ได้ประโยชน์จาก skip connections ที่แข็งแกร่งกว่าในขณะที่เลเยอร์ลึกกว่าต้องการรูปแบบการเดินทางที่แตกต่าง[^80]

การเชื่อมต่อแบบไดนามิก: รูปแบบการเชื่อมต่อสามารถเปลี่ยนแปลงตามเนื้อหา input เดินทางข้อมูลประเภทต่างๆ ผ่านเส้นทางที่แตกต่างกัน[^81]

การปรับเปลี่ยน Cross-attention: เฟรมเวิร์ก mHC สามารถขยายไปยังกลไก attention อาจปรับปรุงวิธีที่โมเดลรวมข้อมูลข้ามตำแหน่งลำดับ[^82]

ผลกระทบต่อต้นทุนการเทรน

DeepSeek ได้สร้างประวัติผลงานในการเทรน

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING