재귀 언어 모델: AI에게 자체 컨텍스트 관리 가르치기
컨텍스트 윈도우는 극적으로 확장되었습니다: 100K, 200K, 심지어 100만 토큰까지.[^1] 그러나 근본적인 한계는 남아 있습니다. 선형 메모리 비용, 극단적 길이에서의 어텐션 저하, 한번 소비된 정보를 재방문하거나 재구성할 수 없는 점 모두가 장문 컨텍스트 모델이 달성할 수 있는 것을 제한합니다.[^2] 재귀 언어 모델(RLM)은 완전히 다른 접근 방식을 취합니다. 모든 것을 컨텍스트에 채우는 대신, RLM은 Python 스크립트와 하위 LLM 호출을 사용하여 모델이 자체 컨텍스트를 적극적으로 관리하도록 가르칩니다.[^3]
요약
MIT의 RLM 논문은 메인 언어 모델이 영속적인 Python REPL과 생성 가능한 하위 LLM 인스턴스에 작업을 위임하는 아키텍처를 소개합니다.[^4] 대규모 입력을 직접 로드하는 대신, 모델은 프로그래밍 방식으로 데이터를 검사하고 변환합니다.[^5] 테스트 결과 RLM은 모델 컨텍스트 윈도우를 최대 100배 초과하는 입력을 처리하면서 기본 모델과 일반적인 장문 컨텍스트 스캐폴딩을 크게 능가합니다.[^6] CodeQA에서 GPT-5는 24% 기준 정확도를 달성하는 반면 RLM은 62%에 도달합니다.[^7] Prime Intellect는 RLM 훈련 인프라를 구현했으며 이 접근 방식이 AI 에이전트의 다음 주요 돌파구를 정의할 것이라고 예측합니다.[^8]
장문 컨텍스트 문제
트랜스포머 어텐션은 시퀀스 길이에 따라 2차적으로 확장됩니다.[^9] 효율적인 어텐션 변형이 이 비용을 줄이지만, 근본적인 과제는 지속됩니다:
컨텍스트 저하
연구에 따르면 모델이 기술적으로 해당 길이를 지원하더라도 컨텍스트가 커짐에 따라 모델 성능이 저하됩니다.[^10] 유명한 "건초더미에서 바늘 찾기" 테스트는 긴 컨텍스트 중간에 있는 정보가 종종 무시되거나 잊혀진다는 것을 보여줍니다.[^11]
정적 컨텍스트
기존 컨텍스트 윈도우는 한 번 쓰기 버퍼로 작동합니다. 토큰이 컨텍스트에 들어가면 모델은 이를 재구성하거나 요약하거나 선택적으로 검색할 수 없습니다.[^12] 관련 없는 정보가 중요한 세부 사항과 함께 지속됩니다.
메모리 비용
컨텍스트의 각 추가 토큰은 추론 중 키-값 캐시를 위한 비례적인 메모리가 필요합니다.[^13] 백만 토큰 컨텍스트는 단일 쿼리에도 상당한 GPU 메모리를 요구합니다.
RLM 솔루션
RLM은 "모델이 컨텍스트를 받는다"에서 "모델이 컨텍스트를 관리한다"로 패러다임을 뒤집습니다.[^14]
핵심 아키텍처
RLM은 메인 모델에 세 가지 핵심 기능을 제공합니다:[^15]
| 기능 | 구현 | 목적 |
|---|---|---|
| Python REPL | 영속 환경 | 데이터 저장, 변환, 검색 |
| 하위 LLM | llm_batch()를 통해 생성 가능한 인스턴스 |
분석 작업 위임 |
| Answer 변수 | answer["content"] + answer["ready"] |
반복적 응답 개선 |
메인 모델은 대규모 입력을 직접 처리하지 않습니다. 대신 정보 흐름을 관리하기 위한 Python 코드를 작성합니다.
컨트롤 플레인 설계
Python REPL은 Prime Intellect가 "장문 컨텍스트를 위한 컨트롤 플레인"이라고 부르는 역할을 합니다.[^16] 환경은 다음을 제공합니다:
영속 상태: 변수가 모델 턴 간에 유지되어 복잡한 다단계 워크플로우를 가능하게 합니다.[^17]
병렬 처리: llm_batch() 함수는 여러 하위 LLM 호출을 동시에 생성하여 병렬화 가능한 작업을 크게 가속화합니다.[^18]
도구 격리: 하위 LLM만 도구 접근(웹 검색, 파일 읽기 등)을 받아 메인 모델 컨텍스트의 토큰 팽창을 방지합니다.[^19]
사전 설치 패키지: 수학 집약적 작업은 numpy, scipy, sympy가 자동으로 사용 가능합니다.[^20]
Answer 변수 패턴
최종 응답은 단일 생성이 아닌 반복적으로 나타납니다:[^21]
# 모델이 answer 변수에 씁니다
answer["content"] = "부분 해결책..."
answer["ready"] = False # 처리 계속
# 이후 반복에서 개선
answer["content"] = "완전한 해결책..."
answer["ready"] = True # 완료 신호
이 패턴을 통해 모델은 여러 REPL 상호작용을 통해 답변을 수정하고 개선할 수 있습니다.[^22]
컨텍스트 폴딩 작동 방식
연구자들은 RLM의 접근 방식을 요약이 아닌 "학습된 컨텍스트 폴딩"으로 설명합니다:[^23]
요약이 아님
기존 접근 방식은 요약을 통해 컨텍스트를 압축하여 필연적으로 정보를 잃습니다.[^24] RLM 접근 방식은 다음을 통해 모든 정보를 보존합니다:
- 원시 데이터 저장 Python 변수에
- 선택적 쿼리 하위 LLM 호출을 통해
- 필요시 프로그래밍 방식으로 변환
- 원본 콘텐츠를 요약하지 않음
하위 LLM에 위임
메인 모델이 큰 문서 섹션의 분석이 필요할 때, 해당 섹션만으로 하위 LLM을 생성합니다:[^25]
# 메인 모델 코드
results = llm_batch([
{"prompt": f"섹션 1 분석: {section_1}"},
{"prompt": f"섹션 2 분석: {section_2}"},
{"prompt": f"섹션 3 분석: {section_3}"}
])
# 전체 문서를 로드하지 않고 결과 처리
메인 모델의 컨텍스트는 가볍게 유지되고 하위 LLM이 토큰 집약적 작업을 처리합니다.[^26]
벤치마크 성능
네 가지 다양한 환경에서의 테스트는 상당한 기능을 보여줍니다:[^27]
DeepDive (웹 연구)
하위 LLM이 웹 스크래핑과 콘텐츠 추출을 처리합니다. 메인 모델이 검색 전략을 조율하고 결과를 종합합니다.[^28]
| 접근 방식 | 보상 |
|---|---|
| 표준 LLM | ~45% |
| RLM (팁 없음) | ~55% |
| RLM (전략 팁 포함) | ~70% |
Oolong (장문 컨텍스트 집계)
실제 복잡한 문서(D&D 세션 녹취록)가 약 150만 자에서 컨텍스트 처리를 테스트했습니다:[^29]
| 접근 방식 | 정확도 |
|---|---|
| 표준 LLM | ~35% |
| RLM | ~75% |
주목할 점은 RLM이 합성 데이터에서는 성능이 낮았다는 것으로, 이 접근 방식이 인위적인 벤치마크보다 현실적인 복잡성에서 뛰어나다는 것을 시사합니다.
CodeQA (문서 QA)
아마도 가장 놀라운 결과:[^30]
| 모델 | 접근 방식 | 정확도 |
|---|---|---|
| GPT-5 | 기준선 | 24.0% |
| GPT-5 | 요약 에이전트 | 41.3% |
| GPT-5 | RLM | 62.0% |
RLM은 기준 성능을 두 배 이상으로 높이면서 요약을 크게 능가했습니다.
토큰 효율성
정확도 외에도 RLM은 토큰 효율성을 극적으로 향상시킵니다:[^33]
메인 모델 토큰: 동등하거나 더 나은 결과를 위해 기본 모델이 처리하는 토큰이 2-3배 감소.[^34]
총 토큰: 하위 LLM 호출로 인해 증가할 수 있지만, 입력 크기에 관계없이 메인 모델 컨텍스트는 제한됩니다.[^35]
Prime Intellect의 2026년 예측
Prime Intellect는 RLM 훈련 인프라를 구축하고 대담한 예측을 합니다:[^37]
2026년의 패러다임
그들은 세 가지 전제를 기반으로 RLM을 다음 주요 돌파구로 자리매김합니다:[^38]
1. 훈련 이점: 고정된 스캐폴딩과 달리 RLM은 컨텍스트 관리를 개선하기 위해 강화 학습으로 엔드투엔드 훈련이 가능합니다.[^39]
2. 어텐션과 상호 보완: "효율적인 어텐션과 컨텍스트 폴딩 모두 진정한 장기 에이전트에 필요합니다. 더 나은 어텐션은 컨텍스트 저하를 지연시킵니다. 컨텍스트 폴딩은 능동적 관리를 가능하게 합니다."[^40]
3. 장기 에이전트: RLM은 몇 주 또는 몇 달에 걸쳐 작동하며 확장된 작업 타임라인에 걸쳐 컨텍스트를 관리하는 에이전트를 가능하게 합니다.[^41]
핵심 요점
재귀 언어 모델은 컨텍스트 처리에서 패러다임 전환을 도입합니다:
- 능동적 컨텍스트 관리: 모델이 수동적으로 받는 대신 자체 컨텍스트를 제어
- 100배 확장: 기본 컨텍스트 윈도우를 훨씬 초과하는 입력 처리
- 정보 보존: 요약 기반 정보 손실 없음
- 토큰 효율성: 메인 모델 토큰 소비 2-3배 감소
- 훈련 잠재력: RLM 네이티브 훈련에서 주요 이점 기대
- 장기 에이전트: 확장된 작업 타임라인에 적합한 아키텍처
RLM이 "2026년의 패러다임"을 나타낸다는 Prime Intellect의 확신은 컨텍스트 관리가 컨텍스트 길이보다 더 중요할 수 있다는 인식의 증가를 반영합니다.