토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

새로운 아키텍처가 AI 모델이 토큰 생성 대신 잠재 공간에서 추론하게 합니다. 순환 깊이 접근 방식은 체인-오브-생각 없이 테스트 시간 계산을 확장합니다.

토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

토큰 없이 사고하기: 잠재 추론이 3.5B 모델을 50B처럼 수행하게 만드는 방법

체인-오브-생각 추론이 테스트 시간 스케일링 패러다임을 지배해왔습니다: 모델이 답을 내기 전에 "소리 내어 생각하며" 보이는 추론 토큰을 생성합니다.[^1] 새 논문은 이 가정을 완전히 도전합니다. 잠재 공간에서 순환 블록을 반복함으로써 연구자들은 35억 파라미터 모델이 추론 벤치마크에서 500억 파라미터에 해당하는 성능을 달성함을 보여줍니다.[^2]

TL;DR

논문은 추가 토큰을 생성하지 않고 추론 시간에 임의의 깊이로 펼쳐지는 아키텍처를 소개합니다.[^3] 순환 블록은 숨겨진 상태를 반복적으로 처리하여 모델이 어려운 문제에서 "더 열심히 생각"할 수 있게 합니다.[^4]

토큰 생성 문제

컨텍스트 윈도우 소비: 각 추론 토큰이 컨텍스트 공간을 차지합니다.[^9]

지연 시간 스케일링: 토큰 생성은 근본적으로 순차적입니다.[^10]

잠재 추론 작동 방식

순환 블록

입력 → 레이어 1-N → 순환 블록 ↺ → 레이어 N+1-M → 출력
                       ↑___________|
                       (K번 반복)

순환 블록은 보이는 출력 없이 숨겨진 상태를 변환합니다.[^14]

벤치마크 성능

최대 펼침 시, 3.5B 모델은 표준 추론에서 약 500억 파라미터에 해당하는 성능을 달성합니다.[^26]

토큰 기반 추론과의 비교

차원 체인-오브-생각 잠재 추론
계산 스케일링 토큰 생성 순환 반복
컨텍스트 사용 컨텍스트 소비 컨텍스트 중립
해석 가능성 보이는 추론 불투명

핵심 요점

  1. 토큰 불필요: 추론이 완전히 숨겨진 표현 공간에서 발생 가능
  2. 대규모 유효 확장: 순환 깊이를 통해 3.5B → 50B 동등
  3. 훈련 단순성: 표준 언어 모델링, 전문 데이터 불필요
  4. 유연한 추론: 배포 시 계산-성능 트레이드오프 제어 가능

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중