토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법
체인-오브-생각 추론이 테스트 시간 스케일링 패러다임을 지배해왔습니다: 모델이 답을 내기 전에 "소리 내어 생각하며" 보이는 추론 토큰을 생성합니다.[^1] 새 논문은 이 가정을 완전히 도전합니다. 잠재 공간에서 순환 블록을 반복함으로써 연구자들은 35억 파라미터 모델이 추론 벤치마크에서 500억 파라미터에 해당하는 성능을 달성함을 보여줍니다.[^2]
TL;DR
논문은 추가 토큰을 생성하지 않고 추론 시간에 임의의 깊이로 펼쳐지는 아키텍처를 소개합니다.[^3] 순환 블록은 숨겨진 상태를 반복적으로 처리하여 모델이 어려운 문제에서 "더 열심히 생각"할 수 있게 합니다.[^4]
토큰 생성 문제
컨텍스트 윈도우 소비: 각 추론 토큰이 컨텍스트 공간을 차지합니다.[^9]
지연 시간 스케일링: 토큰 생성은 근본적으로 순차적입니다.[^10]
잠재 추론 작동 방식
순환 블록
입력 → 레이어 1-N → 순환 블록 ↺ → 레이어 N+1-M → 출력
↑___________|
(K번 반복)
순환 블록은 보이는 출력 없이 숨겨진 상태를 변환합니다.[^14]
벤치마크 성능
최대 펼침 시, 3.5B 모델은 표준 추론에서 약 500억 파라미터에 해당하는 성능을 달성합니다.[^26]
토큰 기반 추론과의 비교
| 차원 | 체인-오브-생각 | 잠재 추론 |
|---|---|---|
| 계산 스케일링 | 토큰 생성 | 순환 반복 |
| 컨텍스트 사용 | 컨텍스트 소비 | 컨텍스트 중립 |
| 해석 가능성 | 보이는 추론 | 불투명 |
핵심 요점
- 토큰 불필요: 추론이 완전히 숨겨진 표현 공간에서 발생 가능
- 대규모 유효 확장: 순환 깊이를 통해 3.5B → 50B 동등
- 훈련 단순성: 표준 언어 모델링, 전문 데이터 불필요
- 유연한 추론: 배포 시 계산-성능 트레이드오프 제어 가능