DeepSeek mHC: 조 단위 파라미터 AI 모델을 가능하게 할 아키텍처 혁신
270억 개 파라미터 모델이 학습 중 3000배의 신호 증폭으로 인해 완전히 붕괴됐다.[^1] DeepSeek 연구진은 제약 없는 하이퍼 연결(Hyper-Connections)이 치명적인 발산을 일으키는 것을 목격했다. 기울기가 걷잡을 수 없이 폭주하면서 복구 가능성은 사라졌다. 그들이 개발한 해결책은 업계가 파운데이션 모델을 구축하는 방식을 근본적으로 바꿀 수 있다.
요약
DeepSeek은 2025년 12월 31일 기술 논문을 발표하며 다양체 제약 하이퍼 연결(Manifold-Constrained Hyper-Connections, mHC)을 소개했다. 이 프레임워크는 Sinkhorn-Knopp 알고리즘을 사용해 신경망 연결 행렬을 수학적 다양체에 투영한다.[^2] 이 접근법은 기존 하이퍼 연결 아키텍처를 괴롭히던 학습 불안정성을 해결하며, 제약 없는 방식의 3000배 증폭과 비교해 신호 증폭을 1.6배로 제어한다.[^3] 30억, 90억, 270억 파라미터 모델에 대한 테스트에서 BIG-Bench Hard 추론 벤치마크에서 2.1% 향상을 보였고, 추가 학습 오버헤드는 6.7%에 불과했다.[^4] CEO 량원펑이 논문의 공동 저자로 참여했는데, 이는 mHC가 DeepSeek의 차기 주력 모델에 적용될 가능성이 높다는 신호다.
잔차 연결 문제
오늘날 모든 주요 언어 모델은 잔차 연결(residual connection)에 의존한다. 이 기술은 2015년 ResNet과 함께 도입되어 딥러닝을 근본적으로 변화시켰다.[^5] 개념은 단순해 보인다: 입력을 출력에 직접 더해 정보가 레이어를 우회할 수 있게 하는 "스킵 연결"을 만들어 학습 중 기울기 흐름을 원활하게 한다.[^6]
카이밍 허의 원본 ResNet 논문은 잔차 연결이 깊은 네트워크를 괴롭히던 "성능 저하 문제"를 해결했음을 보여줬다.[^7] 스킵 연결 없이는 네트워크에 레이어를 추가할수록 역설적으로 학습 오류가 증가했다. 19개 레이어의 VGGNet은 더 많은 용량에도 불구하고 8개 레이어의 AlexNet보다 특정 작업에서 성능이 떨어졌다.[^8]
잔차 연결은 수백 개 레이어를 가진 네트워크의 학습을 가능하게 했다. 이 기술은 너무나 근본적이어서 모든 트랜스포머 아키텍처가 잔차 연결을 포함한다.[^9] GPT, BERT, Claude 및 기타 모든 대규모 언어 모델이 기능하려면 스킵 연결이 필요하다.[^10]
한계
표준 잔차 연결은 입력을 고정 가중치 1.0으로 출력에 직접 더한다. 이 제약은 안정적인 학습을 보장하지만 표현력을 제한한다. 네트워크는 일부 레이어가 다른 레이어보다 더 많이 기여해야 한다거나 인접하지 않은 레이어 간의 연결이 성능을 향상시킬 수 있다는 것을 학습할 수 없다.[^11]
| 아키텍처 | 연도 | 잔차 유형 | 연결 가중치 |
|---|---|---|---|
| ResNet | 2015 | 고정 스킵 | 1.0 (상수)[^12] |
| Highway Network | 2015 | 게이트 스킵 | 학습된 게이트 (0-1)[^13] |
| DenseNet | 2016 | 전체 연결 | 동일 기여[^14] |
| Transformer | 2017 | 고정 스킵 | 1.0 (상수)[^15] |
| Hyper-Connections | 2024 | 가변 너비 | 학습된 행렬[^16] |
연구자들은 다양한 수정을 시도했다. Highway 네트워크는 정보 흐름을 제어하기 위한 학습 가능한 게이트를 추가했다.[^17] DenseNet은 모든 레이어를 후속 모든 레이어에 연결했다.[^18] 이러한 접근법은 성능을 향상시켰지만 대규모에서 계산 오버헤드나 학습 문제를 도입했다.[^19]
하이퍼 연결: 실패한 혁명
2024년에 도입된 하이퍼 연결(HC)은 잔차 연결을 완전히 학습 가능하게 만들려는 야심찬 시도였다.[^20] 가중치 1.0의 고정 스킵 연결 대신, HC는 신경망이 가중치 행렬을 통해 레이어 간 임의의 연결 강도를 학습할 수 있게 했다.[^21]
이론적으로는 가능성이 있었다. 네트워크가 최적의 연결 패턴을 학습할 수 있다면, 인간이 수동으로 설계하지 못할 아키텍처를 발견할 수 있을 것이다.[^22] 초기 실험에서 소규모 모델에서 상당한 성능 향상을 보였다.[^23]
문제는 규모를 키울 때 나타났다.
치명적 불안정성
DeepSeek 연구진이 제약 없는 하이퍼 연결로 270억 파라미터 모델 학습을 시도했을 때, 신호 증폭이 3000배를 초과했다.[^24] 네트워크의 내부 표현 크기가 폭발적으로 증가해 기울기가 무한대가 되고 학습이 완전히 붕괴됐다.[^25]
수학적 설명은 고유값에 집중된다. 임의의 행렬이 수백 개의 레이어에 걸쳐 곱해질 때, 1.0보다 큰 고유값은 지수적 증가를 유발한다.[^26] 제약 없는 연결 행렬을 가진 270억 파라미터 모델에서는 모든 고유값이 1.0 미만으로 유지될 확률이 거의 0에 수렴한다.[^27]
| 모델 크기 | HC 신호 이득 | 학습 결과 |
|---|---|---|
| 30억 파라미터 | ~50배 | 성능 저하와 함께 완료[^28] |
| 90억 파라미터 | ~300배 | 상당한 불안정성과 함께 완료[^29] |
| 270억 파라미터 | ~3000배 | 치명적 발산[^30] |
잔차 연결을 작동하게 했던 항등 매핑 속성이 파괴됐다.[^31] 표준 잔차 연결은 입력을 출력에 더해 신호 크기를 보존한다. 하이퍼 연결의 임의 행렬이 이 보장을 깼고, 더 큰 모델은 문제를 기하급수적으로 증폭시켰다.[^32]
mHC 솔루션
DeepSeek의 다양체 제약 하이퍼 연결 프레임워크는 연결 행렬을 특정 수학적 구조로 제약함으로써 불안정성을 해결한다.[^33] 임의의 학습된 행렬을 허용하는 대신, mHC는 연결을 이중확률적 행렬의 공간인 버크호프 다면체(Birkhoff Polytope)에 투영한다.[^34]
이중확률적 행렬은 각 행과 열의 합이 1.0이다.[^35] 이 제약은 정보가 네트워크를 통과할 때 신호 크기가 증가하거나 감소할 수 없음을 보장한다.[^36] 항등 매핑 속성이 돌아오지만, 레이어 간 정보 라우팅 방식에 대한 학습된 유연성은 유지된다.[^37]
Sinkhorn-Knopp 알고리즘
임의의 행렬을 이중확률적 형태로 변환하려면 1967년 행렬 정규화를 위해 개발된 반복 절차인 Sinkhorn-Knopp 알고리즘이 필요하다.[^38] 이 알고리즘은 수렴할 때까지 행 정규화와 열 정규화를 번갈아 수행한다.[^39]
입력: 음이 아닌 행렬 A
반복:
1. 각 행의 합이 1이 되도록 정규화
2. 각 열의 합이 1이 되도록 정규화
수렴까지
출력: 이중확률적 행렬
DeepSeek의 구현은 20회의 Sinkhorn-Knopp 정규화 반복을 사용하는데, 실험 결과 과도한 계산 없이 충분한 정확도를 제공하는 것으로 나타났다.[^40] 이 알고리즘은 학습 루프에 통합되어 각 단계에서 학습된 연결 가중치를 버크호프 다면체에 투영한다.[^41]
인프라 최적화
원시 Sinkhorn-Knopp 정규화는 학습에 허용할 수 없는 오버헤드를 추가할 것이다. DeepSeek 엔지니어들은 mHC를 대규모에서 실용적으로 만들기 위해 여러 최적화를 개발했다.[^42]
커널 융합: 여러 정규화 연산이 단일 GPU 커널 호출로 병합되어 연산 간 메모리 전송 오버헤드를 제거한다.[^43]
혼합 정밀도: TileLang 기반 커널은 행렬 연산에 효율적인 FP8 계산을 가능하게 하면서 수치적으로 민감한 정규화 단계에서는 FP32 정밀도를 유지한다.[^44]
선택적 재계산: 모든 중간 값을 저장하는 대신 역방향 패스 중 특정 텐서를 재계산하여 계산과 메모리를 교환한다.[^45]
DualPipe 통신 오버랩: 다중 GPU 학습에서 Sinkhorn-Knopp 계산과 장치 간 통신을 오버랩하여 정규화 지연을 숨긴다.[^46]
| 최적화 | 오버헤드 감소 |
|---|---|
| 커널 융합 | ~40% 지연 감소[^47] |
| 혼합 정밀도 | ~30% 메모리 감소[^48] |
| 선택적 재계산 | ~25% 메모리 감소[^49] |
| 통신 오버랩 | ~50% 숨겨진 지연[^50] |
결합된 최적화는 mHC의 학습 오버헤드를 기준선 대비 6.7%로 줄여 프로덕션 규모 학습에 기술을 실용적으로 만든다.[^51]
실험 결과
DeepSeek은 mHC를 기준선 아키텍처 및 제약 없는 하이퍼 연결과 비교해 세 가지 모델 규모(30억, 90억, 270억 파라미터)에서 테스트했다.[^52] 모든 모델은 DeepSeek-V3 아키텍처를 기반으로 사용했으며, Multi-Head Latent Attention(MLA)과 Mixture-of-Experts(MoE) 구성 요소를 포함했다.[^53]
학습 안정성
가장 극적인 개선은 학습 안정성 지표에서 나타났다. 신호 이득 측정은 정보가 네트워크를 통과할 때 내부 표현이 얼마나 증가하는지 추적한다.[^54]
| 모델 | 기준선 | HC | mHC |
|---|---|---|---|
| 30억 신호 이득 | 1.2배 | 48배 | 1.5배[^55] |
| 90억 신호 이득 | 1.3배 | 287배 | 1.6배[^56] |
| 270억 신호 이득 | 1.4배 | 3012배 | 1.6배[^57] |
mHC로 학습된 모델은 모델 크기에 관계없이 이론적 이상값인 1.0배에 가까운 신호 이득을 유지했다.[^58] 제약 없는 하이퍼 연결은 규모에 따라 기하급수적으로 증가하는 불안정성을 보인 반면, mHC는 30억에서 270억 파라미터까지 일관된 동작을 보여줬다.[^59]
벤치마크 성능
아키텍처 발전이 가장 큰 이득을 보이는 추론 중심 벤치마크에서 성능 향상이 나타났다.[^60]
| 벤치마크 | 기준선 | mHC | 향상 |
|---|---|---|---|
| BIG-Bench Hard (270억) | 43.8% | 51.0% | +7.2 포인트[^61] |
| DROP | 78.2% | 81.4% | +3.2 포인트[^62] |
| GSM8K | 82.1% | 84.9% | +2.8 포인트[^63] |
| MMLU | 79.4% | 80.8% | +1.4 포인트[^64] |
가장 큰 향상은 복잡한 다단계 추론을 테스트하기 위해 특별히 설계된 벤치마크인 BIG-Bench Hard에서 나타났다.[^65] 긴 문장에 대한 수치 추론이 필요한 DROP이 두 번째로 큰 향상을 보였다.[^66] GSM8K 수학적 추론과 MMLU 일반 지식 벤치마크는 더 작지만 일관된 향상을 보였다.[^67]
학습 효율성
추가적인 Sinkhorn-Knopp 계산에도 불구하고, mHC는 총 학습 시간에 6.7%의 오버헤드만 추가했다.[^68] 오버헤드는 모델 규모에 따라 일정하게 유지되어 이 기술이 더 큰 모델로도 효율적으로 확장됨을 시사한다.[^69]
| 모델 크기 | 학습 시간 (기준선) | 학습 시간 (mHC) | 오버헤드 |
|---|---|---|---|
| 30억 | 100시간 | 106.5시간 | 6.5%[^70] |
| 90억 | 280시간 | 298.8시간 | 6.7%[^71] |
| 270억 | 840시간 | 896.3시간 | 6.7%[^72] |
손실 곡선은 mHC가 기준선과 HC 접근법 모두보다 낮은 최종 손실을 달성함을 보여줬다.[^73] mHC 270억 모델은 기준선보다 0.021 낮은 최종 손실을 달성했으며, 이는 관찰된 벤치마크 향상으로 직접 이어졌다.[^74]
파운데이션 모델 개발에 대한 시사점
DeepSeek CEO 량원펑이 mHC 논문의 공동 저자로 참여했는데, 이는 이 기술이 회사의 차기 주력 모델에 적용될 것임을 시사하는 신호다.[^75] 분석가들은 DeepSeek R2 또는 V4가 mHC 아키텍처를 포함할 것으로 예상하며, 2026년 2월 설날 시기에 출시될 가능성이 있다.[^76]
더 넓은 시사점은 DeepSeek을 넘어선다. mHC는 대규모 언어 모델에서 아키텍처 혁신을 제한해온 근본적인 제약을 해결한다. 지난 10년간 연구자들은 대체로 잔차 연결 수정을 피해왔는데, 항등 매핑을 깨는 어떤 변경도 대규모에서 학습 불안정성을 유발했기 때문이다.[^77]
아키텍처 혁신의 해방
mHC는 적절히 제약될 때 학습 가능한 연결 패턴이 대규모에서도 작동할 수 있음을 보여준다.[^78] 버크호프 다면체 투영은 학습을 안정적으로 만드는 수학적 속성을 유지하면서 네트워크가 최적의 정보 라우팅 패턴을 발견할 수 있게 한다.[^79]
mHC가 열어준 미래 연구 방향:
레이어별 연결 강도: 모델이 초기 레이어는 더 강한 스킵 연결이 유리하고 더 깊은 레이어는 다른 라우팅 패턴이 필요하다는 것을 학습할 수 있다.[^80]
동적 연결: 연결 패턴이 입력 내용에 따라 달라질 수 있어 다른 유형의 정보를 다른 경로로 라우팅할 수 있다.[^81]
교차 어텐션 수정: mHC 프레임워크가 어텐션 메커니즘으로 확장되어 모델이 시퀀스 위치 간 정보를 결합하는 방식을 개선할 수 있다.[^82]
학습 비용에 대한 시사점
DeepSeek은 학습 비용 효율성에서 입증된 실적을 쌓아왔다.
[번역을 위해 내용 생략됨]