재귀 언어 모델: AI에게 자체 컨텍스트 관리 가르치기

MIT의 RLM 아키텍처로 모델이 하위 LLM과 Python 스크립트에 컨텍스트를 위임할 수 있습니다. 100배 컨텍스트 확장과 2-3배 토큰 효율성. Prime Intellect가 2026년 패러다임을 예측합니다.

Blake Crosley

Jan 07, 2026 4 min read Disclaimer

재귀 언어 모델: AI에게 자체 컨텍스트 관리 가르치기

컨텍스트 윈도우는 극적으로 확장되었습니다: 100K, 200K, 심지어 100만 토큰까지.[^1] 그러나 근본적인 한계는 남아 있습니다. 선형 메모리 비용, 극단적 길이에서의 어텐션 저하, 한번 소비된 정보를 재방문하거나 재구성할 수 없는 점 모두가 장문 컨텍스트 모델이 달성할 수 있는 것을 제한합니다.[^2] 재귀 언어 모델(RLM)은 완전히 다른 접근 방식을 취합니다. 모든 것을 컨텍스트에 채우는 대신, RLM은 Python 스크립트와 하위 LLM 호출을 사용하여 모델이 자체 컨텍스트를 적극적으로 관리하도록 가르칩니다.[^3]

요약

MIT의 RLM 논문은 메인 언어 모델이 영속적인 Python REPL과 생성 가능한 하위 LLM 인스턴스에 작업을 위임하는 아키텍처를 소개합니다.[^4] 대규모 입력을 직접 로드하는 대신, 모델은 프로그래밍 방식으로 데이터를 검사하고 변환합니다.[^5] 테스트 결과 RLM은 모델 컨텍스트 윈도우를 최대 100배 초과하는 입력을 처리하면서 기본 모델과 일반적인 장문 컨텍스트 스캐폴딩을 크게 능가합니다.[^6] CodeQA에서 GPT-5는 24% 기준 정확도를 달성하는 반면 RLM은 62%에 도달합니다.[^7] Prime Intellect는 RLM 훈련 인프라를 구현했으며 이 접근 방식이 AI 에이전트의 다음 주요 돌파구를 정의할 것이라고 예측합니다.[^8]

장문 컨텍스트 문제

트랜스포머 어텐션은 시퀀스 길이에 따라 2차적으로 확장됩니다.[^9] 효율적인 어텐션 변형이 이 비용을 줄이지만, 근본적인 과제는 지속됩니다:

컨텍스트 저하

연구에 따르면 모델이 기술적으로 해당 길이를 지원하더라도 컨텍스트가 커짐에 따라 모델 성능이 저하됩니다.[^10] 유명한 "건초더미에서 바늘 찾기" 테스트는 긴 컨텍스트 중간에 있는 정보가 종종 무시되거나 잊혀진다는 것을 보여줍니다.[^11]

정적 컨텍스트

기존 컨텍스트 윈도우는 한 번 쓰기 버퍼로 작동합니다. 토큰이 컨텍스트에 들어가면 모델은 이를 재구성하거나 요약하거나 선택적으로 검색할 수 없습니다.[^12] 관련 없는 정보가 중요한 세부 사항과 함께 지속됩니다.

메모리 비용

컨텍스트의 각 추가 토큰은 추론 중 키-값 캐시를 위한 비례적인 메모리가 필요합니다.[^13] 백만 토큰 컨텍스트는 단일 쿼리에도 상당한 GPU 메모리를 요구합니다.

RLM 솔루션

RLM은 "모델이 컨텍스트를 받는다"에서 "모델이 컨텍스트를 관리한다"로 패러다임을 뒤집습니다.[^14]

핵심 아키텍처

RLM은 메인 모델에 세 가지 핵심 기능을 제공합니다:[^15]

기능	구현	목적
Python REPL	영속 환경	데이터 저장, 변환, 검색
하위 LLM	`llm_batch()`를 통해 생성 가능한 인스턴스	분석 작업 위임
Answer 변수	`answer["content"]` + `answer["ready"]`	반복적 응답 개선

메인 모델은 대규모 입력을 직접 처리하지 않습니다. 대신 정보 흐름을 관리하기 위한 Python 코드를 작성합니다.

컨트롤 플레인 설계

Python REPL은 Prime Intellect가 "장문 컨텍스트를 위한 컨트롤 플레인"이라고 부르는 역할을 합니다.[^16] 환경은 다음을 제공합니다:

영속 상태: 변수가 모델 턴 간에 유지되어 복잡한 다단계 워크플로우를 가능하게 합니다.[^17]

병렬 처리: llm_batch() 함수는 여러 하위 LLM 호출을 동시에 생성하여 병렬화 가능한 작업을 크게 가속화합니다.[^18]

도구 격리: 하위 LLM만 도구 접근(웹 검색, 파일 읽기 등)을 받아 메인 모델 컨텍스트의 토큰 팽창을 방지합니다.[^19]

사전 설치 패키지: 수학 집약적 작업은 numpy, scipy, sympy가 자동으로 사용 가능합니다.[^20]

Answer 변수 패턴

최종 응답은 단일 생성이 아닌 반복적으로 나타납니다:[^21]

# 모델이 answer 변수에 씁니다
answer["content"] = "부분 해결책..."
answer["ready"] = False  # 처리 계속

# 이후 반복에서 개선
answer["content"] = "완전한 해결책..."
answer["ready"] = True  # 완료 신호

이 패턴을 통해 모델은 여러 REPL 상호작용을 통해 답변을 수정하고 개선할 수 있습니다.[^22]

컨텍스트 폴딩 작동 방식

연구자들은 RLM의 접근 방식을 요약이 아닌 "학습된 컨텍스트 폴딩"으로 설명합니다:[^23]

요약이 아님

기존 접근 방식은 요약을 통해 컨텍스트를 압축하여 필연적으로 정보를 잃습니다.[^24] RLM 접근 방식은 다음을 통해 모든 정보를 보존합니다:

원시 데이터 저장 Python 변수에
선택적 쿼리 하위 LLM 호출을 통해
필요시 프로그래밍 방식으로 변환
원본 콘텐츠를 요약하지 않음

하위 LLM에 위임

메인 모델이 큰 문서 섹션의 분석이 필요할 때, 해당 섹션만으로 하위 LLM을 생성합니다:[^25]

# 메인 모델 코드
results = llm_batch([
    {"prompt": f"섹션 1 분석: {section_1}"},
    {"prompt": f"섹션 2 분석: {section_2}"},
    {"prompt": f"섹션 3 분석: {section_3}"}
])
# 전체 문서를 로드하지 않고 결과 처리

메인 모델의 컨텍스트는 가볍게 유지되고 하위 LLM이 토큰 집약적 작업을 처리합니다.[^26]

벤치마크 성능

네 가지 다양한 환경에서의 테스트는 상당한 기능을 보여줍니다:[^27]

DeepDive (웹 연구)

하위 LLM이 웹 스크래핑과 콘텐츠 추출을 처리합니다. 메인 모델이 검색 전략을 조율하고 결과를 종합합니다.[^28]

접근 방식	보상
표준 LLM	~45%
RLM (팁 없음)	~55%
RLM (전략 팁 포함)	~70%

Oolong (장문 컨텍스트 집계)

실제 복잡한 문서(D&D 세션 녹취록)가 약 150만 자에서 컨텍스트 처리를 테스트했습니다:[^29]

접근 방식	정확도
표준 LLM	~35%
RLM	~75%

주목할 점은 RLM이 합성 데이터에서는 성능이 낮았다는 것으로, 이 접근 방식이 인위적인 벤치마크보다 현실적인 복잡성에서 뛰어나다는 것을 시사합니다.

CodeQA (문서 QA)

아마도 가장 놀라운 결과:[^30]

모델	접근 방식	정확도
GPT-5	기준선	24.0%
GPT-5	요약 에이전트	41.3%
GPT-5	RLM	62.0%

RLM은 기준 성능을 두 배 이상으로 높이면서 요약을 크게 능가했습니다.

토큰 효율성

정확도 외에도 RLM은 토큰 효율성을 극적으로 향상시킵니다:[^33]

메인 모델 토큰: 동등하거나 더 나은 결과를 위해 기본 모델이 처리하는 토큰이 2-3배 감소.[^34]

총 토큰: 하위 LLM 호출로 인해 증가할 수 있지만, 입력 크기에 관계없이 메인 모델 컨텍스트는 제한됩니다.[^35]

Prime Intellect의 2026년 예측

Prime Intellect는 RLM 훈련 인프라를 구축하고 대담한 예측을 합니다:[^37]

2026년의 패러다임

그들은 세 가지 전제를 기반으로 RLM을 다음 주요 돌파구로 자리매김합니다:[^38]

1. 훈련 이점: 고정된 스캐폴딩과 달리 RLM은 컨텍스트 관리를 개선하기 위해 강화 학습으로 엔드투엔드 훈련이 가능합니다.[^39]

2. 어텐션과 상호 보완: "효율적인 어텐션과 컨텍스트 폴딩 모두 진정한 장기 에이전트에 필요합니다. 더 나은 어텐션은 컨텍스트 저하를 지연시킵니다. 컨텍스트 폴딩은 능동적 관리를 가능하게 합니다."[^40]

3. 장기 에이전트: RLM은 몇 주 또는 몇 달에 걸쳐 작동하며 확장된 작업 타임라인에 걸쳐 컨텍스트를 관리하는 에이전트를 가능하게 합니다.[^41]

핵심 요점

재귀 언어 모델은 컨텍스트 처리에서 패러다임 전환을 도입합니다:

능동적 컨텍스트 관리: 모델이 수동적으로 받는 대신 자체 컨텍스트를 제어
100배 확장: 기본 컨텍스트 윈도우를 훨씬 초과하는 입력 처리
정보 보존: 요약 기반 정보 손실 없음
토큰 효율성: 메인 모델 토큰 소비 2-3배 감소
훈련 잠재력: RLM 네이티브 훈련에서 주요 이점 기대
장기 에이전트: 확장된 작업 타임라인에 적합한 아키텍처

RLM이 "2026년의 패러다임"을 나타낸다는 Prime Intellect의 확신은 컨텍스트 관리가 컨텍스트 길이보다 더 중요할 수 있다는 인식의 증가를 반영합니다.

재귀 언어 모델: AI에게 자체 컨텍스트 관리 가르치기

요약

장문 컨텍스트 문제

컨텍스트 저하

정적 컨텍스트

메모리 비용

RLM 솔루션

핵심 아키텍처

컨트롤 플레인 설계

Answer 변수 패턴

컨텍스트 폴딩 작동 방식

요약이 아님

하위 LLM에 위임

벤치마크 성능

DeepDive (웹 연구)

Oolong (장문 컨텍스트 집계)

CodeQA (문서 QA)

토큰 효율성

Prime Intellect의 2026년 예측

2026년의 패러다임

핵심 요점

You Might Also Like

일본 AI 인프라: 아시아 최대 경제 대국의 각성

KV 캐시 최적화: 프로덕션 LLM을 위한 메모리 효율성

싱가포르와 동남아시아, 글로벌 AI 인프라 허브로 부상

견적 요청_

요청이 접수되었습니다_