토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

새로운 아키텍처가 AI 모델이 토큰 생성 대신 잠재 공간에서 추론하게 합니다. 순환 깊이 접근 방식은 체인-오브-생각 없이 테스트 시간 계산을 확장합니다.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

체인-오브-생각 추론이 테스트 시간 스케일링 패러다임을 지배해왔습니다: 모델이 답을 내기 전에 "소리 내어 생각하며" 보이는 추론 토큰을 생성합니다.[^1] 새 논문은 이 가정을 완전히 도전합니다. 잠재 공간에서 순환 블록을 반복함으로써 연구자들은 35억 파라미터 모델이 추론 벤치마크에서 500억 파라미터에 해당하는 성능을 달성함을 보여줍니다.[^2]

TL;DR

논문은 추가 토큰을 생성하지 않고 추론 시간에 임의의 깊이로 펼쳐지는 아키텍처를 소개합니다.[^3] 순환 블록은 숨겨진 상태를 반복적으로 처리하여 모델이 어려운 문제에서 "더 열심히 생각"할 수 있게 합니다.[^4]

토큰 생성 문제

컨텍스트 윈도우 소비: 각 추론 토큰이 컨텍스트 공간을 차지합니다.[^9]

지연 시간 스케일링: 토큰 생성은 근본적으로 순차적입니다.[^10]

잠재 추론 작동 방식

순환 블록

입력 → 레이어 1-N → 순환 블록 ↺ → 레이어 N+1-M → 출력
                       ↑___________|
                       (K번 반복)

순환 블록은 보이는 출력 없이 숨겨진 상태를 변환합니다.[^14]

벤치마크 성능

최대 펼침 시, 3.5B 모델은 표준 추론에서 약 500억 파라미터에 해당하는 성능을 달성합니다.[^26]

토큰 기반 추론과의 비교

차원	체인-오브-생각	잠재 추론
계산 스케일링	토큰 생성	순환 반복
컨텍스트 사용	컨텍스트 소비	컨텍스트 중립
해석 가능성	보이는 추론	불투명

핵심 요점

토큰 불필요: 추론이 완전히 숨겨진 표현 공간에서 발생 가능
대규모 유효 확장: 순환 깊이를 통해 3.5B → 50B 동등
훈련 단순성: 표준 언어 모델링, 전문 데이터 불필요
유연한 추론: 배포 시 계산-성능 트레이드오프 제어 가능

토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

TL;DR

토큰 생성 문제

잠재 추론 작동 방식

순환 블록

벤치마크 성능

토큰 기반 추론과의 비교

핵심 요점

You Might Also Like

침수 냉각 ROI 계산기: AI 워크로드 2-4년 투자 회수 분석

영국 AI 회랑: 런던의 부상하는 컴퓨팅 허브

물 사용 효율성: 위기 없는 AI 데이터센터 냉각

견적 요청_

요청이 접수되었습니다_