DeepSeek mHC: Giải Pháp Kiến Trúc Có Thể Mở Khóa Các Mô Hình AI Nghìn Tỷ Tham Số

Khung Hyper-Connections Ràng Buộc Đa Tạp mới của DeepSeek giải quyết vấn đề mở rộng quy mô tồn tại hàng thập kỷ, cho phép huấn luyện ổn định các mô hình 27B+ tham số chỉ với 6,7% chi phí bổ sung.

Blake Crosley

Jan 03, 2026 11 min read Disclaimer

DeepSeek mHC: Giải Pháp Kiến Trúc Có Thể Mở Khóa Các Mô Hình AI Nghìn Tỷ Tham Số

Khuếch đại tín hiệu 3000 lần đã phá hủy một mô hình 27 tỷ tham số trong quá trình huấn luyện.[^1] Các nhà nghiên cứu của DeepSeek chứng kiến Hyper-Connections không ràng buộc gây ra sự phân kỳ thảm khốc, với gradient xoắn ốc vượt quá mọi hy vọng phục hồi. Giải pháp họ phát triển có thể định hình lại cách ngành công nghiệp xây dựng các mô hình nền tảng.

Tóm Tắt

DeepSeek công bố một bài báo kỹ thuật vào ngày 31 tháng 12 năm 2025, giới thiệu Hyper-Connections Ràng Buộc Đa Tạp (mHC), một khung chiếu các ma trận kết nối mạng neural lên một đa tạp toán học sử dụng thuật toán Sinkhorn-Knopp.[^2] Phương pháp này giải quyết sự bất ổn định huấn luyện đã làm khó các kiến trúc Hyper-Connection trước đó, kiểm soát khuếch đại tín hiệu ở mức 1,6 lần so với 3000 lần với các phương pháp không ràng buộc.[^3] Thử nghiệm trên các mô hình 3B, 9B và 27B tham số cho thấy cải thiện 2,1% trên benchmark suy luận BIG-Bench Hard chỉ với 6,7% chi phí huấn luyện bổ sung.[^4] CEO Liang Wenfeng đồng tác giả bài báo, báo hiệu mHC có thể sẽ xuất hiện trong mô hình flagship tiếp theo của DeepSeek.

Vấn Đề Kết Nối Dư

Mọi mô hình ngôn ngữ lớn ngày nay đều dựa vào kết nối dư, một kỹ thuật được giới thiệu năm 2015 với ResNet đã thay đổi căn bản học sâu.[^5] Khái niệm này có vẻ đơn giản: cho phép thông tin bỏ qua các lớp bằng cách cộng trực tiếp đầu vào với đầu ra, tạo ra các "kết nối bỏ qua" giúp gradient chảy dễ dàng hơn trong quá trình huấn luyện.[^6]

Bài báo ResNet gốc của Kaiming He chứng minh rằng kết nối dư đã giải quyết "vấn đề suy thoái" từng làm khổ các mạng sâu.[^7] Không có kết nối bỏ qua, việc thêm nhiều lớp vào mạng nghịch lý lại làm tăng lỗi huấn luyện. VGGNet với 19 lớp hoạt động kém hơn AlexNet với 8 lớp trên một số tác vụ, mặc dù có dung lượng lớn hơn.[^8]

Kết nối dư cho phép huấn luyện các mạng với hàng trăm lớp. Kỹ thuật này chứng tỏ tầm quan trọng đến mức tất cả kiến trúc transformer đều tích hợp kết nối dư.[^9] GPT, BERT, Claude và mọi mô hình ngôn ngữ lớn khác đều phụ thuộc vào kết nối bỏ qua để hoạt động.[^10]

Hạn Chế

Kết nối dư tiêu chuẩn cộng trực tiếp đầu vào với đầu ra với trọng số cố định 1,0. Ràng buộc này đảm bảo huấn luyện ổn định nhưng hạn chế tính biểu đạt. Mạng không thể học được rằng một số lớp nên đóng góp nhiều hơn các lớp khác hoặc các kết nối giữa các lớp không liền kề có thể cải thiện hiệu suất.[^11]

Kiến trúc	Năm	Loại Dư	Trọng số Kết nối
ResNet	2015	Bỏ qua cố định	1,0 (hằng số)[^12]
Highway Network	2015	Bỏ qua có cổng	Cổng học được (0-1)[^13]
DenseNet	2016	Tất cả-đến-tất cả	Đóng góp bằng nhau[^14]
Transformer	2017	Bỏ qua cố định	1,0 (hằng số)[^15]
Hyper-Connections	2024	Độ rộng biến đổi	Ma trận học được[^16]

Các nhà nghiên cứu đã thử nghiệm nhiều sửa đổi khác nhau. Highway networks thêm cổng có thể học để kiểm soát luồng thông tin.[^17] DenseNet kết nối mọi lớp với mọi lớp tiếp theo.[^18] Các phương pháp này cải thiện hiệu suất nhưng gây ra chi phí tính toán hoặc thách thức huấn luyện ở quy mô lớn.[^19]

Hyper-Connections: Cuộc Cách Mạng Thất Bại

Hyper-Connections (HC), được giới thiệu năm 2024, đại diện cho một nỗ lực tham vọng nhằm làm cho kết nối dư hoàn toàn có thể học được.[^20] Thay vì kết nối bỏ qua cố định với trọng số 1,0, HC cho phép mạng neural học các cường độ kết nối tùy ý giữa các lớp thông qua ma trận trọng số.[^21]

Lý thuyết hứa hẹn. Nếu mạng có thể học các mẫu kết nối tối ưu, chúng có thể khám phá các kiến trúc mà con người sẽ không bao giờ thiết kế thủ công.[^22] Các thí nghiệm ban đầu cho thấy hiệu suất tăng đáng kể trên các mô hình nhỏ hơn.[^23]

Vấn đề xuất hiện ở quy mô lớn.

Bất Ổn Định Thảm Khốc

Khi các nhà nghiên cứu DeepSeek cố gắng huấn luyện một mô hình 27 tỷ tham số với Hyper-Connections không ràng buộc, khuếch đại tín hiệu vượt quá 3000 lần.[^24] Các biểu diễn nội bộ của mạng bùng nổ về độ lớn, khiến gradient trở thành vô cực và huấn luyện sụp đổ hoàn toàn.[^25]

Giải thích toán học tập trung vào giá trị riêng. Khi các ma trận tùy ý nhân với nhau qua hàng trăm lớp, bất kỳ giá trị riêng nào lớn hơn 1,0 đều gây ra tăng trưởng theo cấp số nhân.[^26] Trong một mô hình 27B tham số với ma trận kết nối không ràng buộc, xác suất tất cả giá trị riêng giữ dưới 1,0 tiến tới không.[^27]

Kích thước Mô hình	Độ Tăng Tín hiệu HC	Kết quả Huấn luyện
3B tham số	~50x	Hoàn thành với hiệu suất suy giảm[^28]
9B tham số	~300x	Hoàn thành với bất ổn định đáng kể[^29]
27B tham số	~3000x	Phân kỳ thảm khốc[^30]

Thuộc tính ánh xạ đồng nhất làm cho kết nối dư hoạt động đã bị phá hủy.[^31] Kết nối dư tiêu chuẩn bảo toàn độ lớn tín hiệu bằng cách cộng đầu vào với đầu ra. Ma trận tùy ý của Hyper-Connections phá vỡ đảm bảo này, và các mô hình lớn hơn khuếch đại vấn đề theo cấp số nhân.[^32]

Giải Pháp mHC

Khung Hyper-Connections Ràng Buộc Đa Tạp của DeepSeek giải quyết bất ổn định bằng cách ràng buộc ma trận kết nối vào một cấu trúc toán học cụ thể.[^33] Thay vì cho phép ma trận học được tùy ý, mHC chiếu các kết nối lên Đa Tạp Birkhoff, không gian của ma trận ngẫu nhiên kép.[^34]

Ma trận ngẫu nhiên kép có các hàng và cột mỗi cái tổng bằng 1,0.[^35] Ràng buộc này đảm bảo rằng độ lớn tín hiệu không thể tăng hoặc giảm khi thông tin đi qua mạng.[^36] Thuộc tính ánh xạ đồng nhất trở lại, nhưng với tính linh hoạt học được về cách thông tin định tuyến giữa các lớp.[^37]

Thuật Toán Sinkhorn-Knopp

Chuyển đổi ma trận tùy ý sang dạng ngẫu nhiên kép yêu cầu thuật toán Sinkhorn-Knopp, một quy trình lặp được phát triển năm 1967 để chuẩn hóa ma trận.[^38] Thuật toán luân phiên giữa chuẩn hóa hàng và chuẩn hóa cột cho đến khi hội tụ.[^39]

Đầu vào: Ma trận không âm A
Lặp lại:
  1. Chuẩn hóa mỗi hàng tổng bằng 1
  2. Chuẩn hóa mỗi cột tổng bằng 1
Cho đến khi hội tụ
Đầu ra: Ma trận ngẫu nhiên kép

Triển khai của DeepSeek sử dụng 20 lần lặp chuẩn hóa Sinkhorn-Knopp, mà kết quả thực nghiệm cho thấy cung cấp độ chính xác đủ mà không tính toán quá mức.[^40] Thuật toán tích hợp vào vòng lặp huấn luyện, chiếu trọng số kết nối học được lên Đa Tạp Birkhoff ở mỗi bước.[^41]

Tối Ưu Hóa Hạ Tầng

Chuẩn hóa Sinkhorn-Knopp thô sẽ thêm chi phí không thể chấp nhận vào huấn luyện. Các kỹ sư DeepSeek phát triển một số tối ưu hóa để làm mHC thực tế ở quy mô lớn.[^42]

Hợp Nhất Kernel: Nhiều thao tác chuẩn hóa hợp nhất vào các cuộc gọi kernel GPU đơn lẻ, loại bỏ chi phí chuyển bộ nhớ giữa các thao tác.[^43]

Độ Chính Xác Hỗn Hợp: Các kernel dựa trên TileLang cho phép tính toán FP8 hiệu quả cho các thao tác ma trận trong khi duy trì độ chính xác FP32 cho các bước chuẩn hóa nhạy cảm số học.[^44]

Tính Toán Lại Chọn Lọc: Thay vì lưu trữ tất cả giá trị trung gian, hệ thống tính toán lại một số tensor trong quá trình lan truyền ngược, đổi tính toán lấy bộ nhớ.[^45]

Chồng Lấn Giao Tiếp DualPipe: Huấn luyện đa GPU chồng lấn tính toán Sinkhorn-Knopp với giao tiếp giữa thiết bị, ẩn độ trễ chuẩn hóa.[^46]

Tối ưu hóa	Giảm Chi phí
Hợp nhất kernel	~40% giảm độ trễ[^47]
Độ chính xác hỗn hợp	~30% giảm bộ nhớ[^48]
Tính toán lại chọn lọc	~25% giảm bộ nhớ[^49]
Chồng lấn giao tiếp	~50% độ trễ ẩn[^50]

Các tối ưu hóa kết hợp giảm chi phí huấn luyện của mHC xuống 6,7% so với baseline, làm cho kỹ thuật khả thi cho huấn luyện quy mô sản xuất.[^51]

Kết Quả Thực Nghiệm

DeepSeek thử nghiệm mHC so với các kiến trúc baseline và Hyper-Connections không ràng buộc trên ba quy mô mô hình: 3B, 9B và 27B tham số.[^52] Tất cả mô hình sử dụng kiến trúc DeepSeek-V3 làm nền tảng, tích hợp các thành phần Multi-Head Latent Attention (MLA) và Mixture-of-Experts (MoE).[^53]

Ổn Định Huấn Luyện

Cải thiện ấn tượng nhất xuất hiện ở các chỉ số ổn định huấn luyện. Đo lường độ tăng tín hiệu theo dõi mức độ biểu diễn nội bộ tăng khi thông tin đi qua mạng.[^54]

Mô hình	Baseline	HC	mHC
Độ tăng tín hiệu 3B	1,2x	48x	1,5x[^55]
Độ tăng tín hiệu 9B	1,3x	287x	1,6x[^56]
Độ tăng tín hiệu 27B	1,4x	3012x	1,6x[^57]

Các mô hình huấn luyện bằng mHC duy trì độ tăng tín hiệu gần lý tưởng 1,0x bất kể kích thước mô hình.[^58] Hyper-Connections không ràng buộc cho thấy bất ổn định tăng theo cấp số nhân với quy mô, trong khi mHC thể hiện hành vi nhất quán từ 3B đến 27B tham số.[^59]

Hiệu Suất Benchmark

Cải thiện hiệu suất xuất hiện trên các benchmark tập trung vào suy luận nơi các tiến bộ kiến trúc thường cho thấy lợi ích lớn nhất.[^60]

Benchmark	Baseline	mHC	Cải thiện
BIG-Bench Hard (27B)	43,8%	51,0%	+7,2 điểm[^61]
DROP	78,2%	81,4%	+3,2 điểm[^62]
GSM8K	82,1%	84,9%	+2,8 điểm[^63]
MMLU	79,4%	80,8%	+1,4 điểm[^64]

Cải thiện lớn nhất xuất hiện trên BIG-Bench Hard, một benchmark được thiết kế đặc biệt để kiểm tra suy luận phức tạp, nhiều bước.[^65] DROP, yêu cầu suy luận số học trên các đoạn văn dài, cho thấy mức tăng lớn thứ hai.[^66] Benchmark suy luận toán học GSM8K và kiến thức tổng quát MMLU thể hiện cải thiện nhỏ hơn nhưng nhất quán.[^67]

Hiệu Quả Huấn Luyện

Mặc dù có thêm các tính toán Sinkhorn-Knopp, mHC chỉ thêm 6,7% chi phí vào tổng thời gian huấn luyện.[^68] Chi phí duy trì không đổi qua các quy mô mô hình, cho thấy kỹ thuật mở rộng hiệu quả đến các mô hình lớn hơn nữa.[^69]

Kích thước Mô hình	Thời gian Huấn luyện (Baseline)	Thời gian Huấn luyện (mHC)	Chi phí
3B	100 giờ	106,5 giờ	6,5%[^70]
9B	280 giờ	298,8 giờ	6,7%[^71]
27B	840 giờ	896,3 giờ	6,7%[^72]

Đường cong loss cho thấy mHC đạt loss cuối cùng thấp hơn cả baseline và phương pháp HC.[^73] Mô hình mHC 27B đạt loss cuối cùng thấp hơn 0,021 so với baseline, chuyển trực tiếp thành cải thiện benchmark quan sát được.[^74]

Ý Nghĩa Đối Với Phát Triển Mô Hình Nền Tảng

CEO DeepSeek Liang Wenfeng đồng tác giả bài báo mHC, một tín hiệu cho thấy kỹ thuật này có thể sẽ xuất hiện trong mô hình flagship tiếp theo của công ty.[^75] Các nhà phân tích kỳ vọng DeepSeek R2 hoặc V4 sẽ tích hợp kiến trúc mHC, có thể ra mắt trong dịp Tết Nguyên Đán vào tháng 2 năm 2026.[^76]

Ý nghĩa rộng hơn vượt ra ngoài DeepSeek. mHC giải quyết một ràng buộc cơ bản đã hạn chế đổi mới kiến trúc trong các mô hình ngôn ngữ lớn. Trong thập kỷ qua, các nhà nghiên cứu phần lớn tránh sửa đổi kết nối dư vì bất kỳ thay đổi nào phá vỡ ánh xạ đồng nhất đều gây bất ổn định huấn luyện ở quy mô lớn.[^77]

Mở Khóa Đổi Mới Kiến Trúc

mHC chứng minh rằng các mẫu kết nối có thể học được hoạt động ở quy mô lớn khi được ràng buộc đúng cách.[^78] Phép chiếu Đa Tạp Birkhoff duy trì các thuộc tính toán học làm cho huấn luyện ổn định trong khi cho phép mạng khám phá các mẫu định tuyến thông tin tối ưu.[^79]

Các hướng nghiên cứu tương lai được mở ra bởi mHC bao gồm:

Cường độ kết nối theo lớp: Các mô hình có thể học rằng các lớp đầu hưởng lợi từ kết nối bỏ qua mạnh hơn trong khi các lớp sâu hơn cần các mẫu định tuyến khác.[^80]

Kết nối động: Các mẫu kết nối có thể thay đổi dựa trên nội dung đầu vào, định tuyến các loại thông tin khác nhau qua các đường khác nhau.[^81]

Sửa đổi cross-attention: Khung mHC có thể mở rộng đến các cơ chế attention, có khả năng cải thiện cách các mô hình kết hợp thông tin qua các vị trí chuỗi.[^82]

Ý Nghĩa Chi Phí Huấn Luyện

DeepSeek đã thiết lập thành tích huấn luyện

[Nội dung bị cắt để dịch]

DeepSeek mHC: Giải Pháp Kiến Trúc Có Thể Mở Khóa Các Mô Hình AI Nghìn Tỷ Tham Số

Tóm Tắt

Vấn Đề Kết Nối Dư

Hạn Chế

Hyper-Connections: Cuộc Cách Mạng Thất Bại

Bất Ổn Định Thảm Khốc

Giải Pháp mHC

Thuật Toán Sinkhorn-Knopp

Tối Ưu Hóa Hạ Tầng

Kết Quả Thực Nghiệm

Ổn Định Huấn Luyện

Hiệu Suất Benchmark

Hiệu Quả Huấn Luyện

Ý Nghĩa Đối Với Phát Triển Mô Hình Nền Tảng

Mở Khóa Đổi Mới Kiến Trúc

Ý Nghĩa Chi Phí Huấn Luyện

You Might Also Like

Trump mở xuất khẩu H200 sang Trung Quốc với phụ phí 25%

Siêu Chu Kỳ Bộ Nhớ AI: HBM Trở Thành Nút Thắt Cổ Chai Quan T...

Trump cho phép Nvidia bán chip H200 cho Trung Quốc với mức c...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_