추론 시간 스케일링: AI 추론의 새로운 훈련 프론티어

테스트 시간 컴퓨팅이 차세대 AI 스케일링 프론티어로 부상하다. ThreadWeaver가 1.5배 속도 향상 달성. P1이 물리 올림피아드 금메달 획득. DeepSeek-R1이 70% 낮은 비용으로 o1 수준 달성. 인프라에 미치는 영향 분석.

추론 시간 스케일링: AI 추론의 새로운 훈련 프론티어

추론 시간 스케일링: AI 추론의 새로운 훈련 프론티어

2025년 12월 12일

2025년 12월 업데이트: 추론 시간 스케일링이 AI 추론 연구의 주요 프론티어로 부상했습니다. ThreadWeaver가 정확도를 유지하면서 1.5배 지연 시간 감소를 달성했습니다. P1은 강화학습과 테스트 시간 에이전트를 통해 물리 올림피아드에서 금메달을 획득한 최초의 오픈소스 모델이 되었습니다. DeepSeek-R1은 70% 낮은 비용으로 OpenAI o1 수준을 달성했습니다. 분석가들은 2030년까지 추론이 전체 AI 컴퓨팅의 75%를 차지할 것으로 전망합니다.


요약

AI 스케일링 패러다임이 전환되었습니다. 연구자들은 더 큰 모델을 훈련하는 대신, 추론 시간에 더 많은 컴퓨팅을 투자하여 최첨단 추론 능력을 달성하고 있습니다. 핵심 통찰: 확장된 사고 사슬(chain-of-thought)을 통해 모델이 "더 오래 생각"하게 하면, 훈련만으로는 달성할 수 없는 추론 능력이 생성됩니다. DeepSeek-R1은 쿼리당 10-100배 더 많은 토큰을 생성하여 o1 수준을 달성함으로써 이를 대규모로 입증했습니다. ThreadWeaver는 이러한 추론을 병렬화하여 지연 시간을 줄입니다. P1은 강화학습 훈련과 테스트 시간 에이전트를 결합하여 물리 올림피아드 금메달을 달성했습니다. 인프라 측면에서, 추론 수요는 2026년까지 훈련 수요를 118배 초과할 것으로 예상되며, GPU 조달이 추론 최적화 하드웨어 방향으로 재편될 것입니다.


주요 사건

세 가지 연구 돌파구가 추론 시간 스케일링의 성숙을 보여줍니다:

DeepSeek-R1 (2025년 1월): DeepSeek이 R1을 출시하여 순수 강화학습만으로 OpenAI o1에 필적하는 추론 능력을 생성할 수 있음을 입증했습니다. 이 모델은 확장된 사고 사슬 추론을 통해 AIME 벤치마크 정확도를 15.6%에서 71%로 향상시켰으며, 다수결 투표로 86.7%에 도달했습니다.1

P1 물리 모델 (2025년 11월): 연구자들이 국제 물리 올림피아드(IPhO 2025)에서 금메달 수준의 성과를 달성한 최초의 오픈소스 모델 계열인 P1을 공개했습니다. P1-235B-A22B는 30점 만점에 21.2점을 기록하여 Gemini-2.5-Pro와 GPT-5에 이어 3위를 차지했습니다.2

ThreadWeaver (2025): ThreadWeaver가 병렬 추론을 도입하여 순차적 추론 정확도를 유지하면서 평균 1.53배의 토큰 지연 시간 단축을 달성했습니다. 이 접근법은 순차적 사고 사슬 대신 추론 경로의 동시 탐색을 가능하게 합니다.3


인프라에 미치는 영향

멘탈 모델: 기존 스케일링은 훈련 시간에 컴퓨팅을 투자했습니다(더 큰 모델, 더 많은 데이터). 추론 시간 스케일링은 쿼리 시간에 컴퓨팅을 투자합니다(더 긴 추론 사슬, 다중 시도, 자기 검증). 100배의 추론 컴퓨팅을 사용하는 7B 파라미터 모델이 표준 추론을 사용하는 70B 모델과 맞먹을 수 있습니다. 인프라에 대한 영향은 심대합니다: 추론 클러스터가 훈련 클러스터보다 더 중요해집니다.

추론이 병목이 되다: 분석가들은 2026년까지 추론이 훈련 컴퓨팅 수요를 118배 초과할 것으로 전망합니다. 2030년까지 추론은 전체 AI 컴퓨팅의 75%를 차지하여 7조 달러의 인프라 투자를 유도할 수 있습니다.4

추론 모델은 더 많은 토큰을 소비한다: DeepSeek-R1, o1, o3-mini는 비추론 모델보다 "훨씬 더 많은 토큰"을 생성합니다. OpenAI의 2024년 추론 지출은 23억 달러에 달했습니다: GPT-4 훈련 비용의 15배입니다.5

GPU 인프라 수요 급증: 젠슨 황(Jensen Huang)은 차세대 추론 모델이 "최대 100배 더 많은 컴퓨팅 자원"을 요구한다고 밝혔습니다.6 AI 추론 시장은 1,060억 달러(2025년)에서 2,550억 달러(2030년)로 19.2% CAGR로 성장합니다.

지연 시간이 다시 중요해지다: ThreadWeaver의 병렬 추론은 핵심 제약을 해결합니다. 순차적 추론 지연 시간은 사슬 길이에 비례하여 증가합니다. 실시간 애플리케이션의 경우, 추론 속도가 경쟁 우위가 됩니다.


기술 세부 사항

DeepSeek-R1 접근법

DeepSeek-R1-Zero는 Group Relative Policy Optimization (GRPO)을 사용하여 순수 강화학습으로 추론을 훈련했습니다:7

구성 요소 세부 사항
훈련 방법 순수 강화학습, 지도 학습 미세 조정 없음
알고리즘 GRPO (가치 함수 없는 PPO 적응)
핵심 통찰 추론 시 확장된 CoT가 추론 능력 생성
AIME 성능 15.6% → 71% (다수결 투표로 86.7%)
비용 우위 유사 모델 대비 70% 낮은 추론 비용

특히 DeepSeek은 Process Reward Models와 Monte Carlo Tree Search와 같은 방법을 명시적으로 "실패한 시도"로 분류했습니다. 이 발견은 더 긴 응답을 가진 순수 강화학습이 암묵적인 추론 시간 스케일링 역할을 한다는 것을 시사합니다.8

ThreadWeaver 병렬 추론

ThreadWeaver는 순차적 사고 사슬 대신 동시 추론 경로를 가능하게 합니다:9

혁신 설명
병렬 궤적 생성기 병렬 주석이 포함된 CoT 데이터 생성
트라이 기반 공동 설계 위치 임베딩 수정 없이 병렬 추론 가능
P-GRPO 알고리즘 정확도와 지연 시간 감소를 공동 최적화

Qwen3-8B 기반 성능:

벤치마크 ThreadWeaver 순차적 속도 향상
AIME24 79.9% 78.3% 1.14배
AMC23 1.16배
MATH500 1.23배
OlympiadBench 1.21배
Minerva Math 1.53배

P1 물리 모델

P1은 훈련 시간과 테스트 시간 스케일링을 결합합니다:10

훈련 시간 (강화학습 후처리): - 기본 언어 모델에 대한 다단계 강화학습 프레임워크 - 점진적 추론 향상 - 보상 희소성 및 엔트로피 붕괴 해결

테스트 시간 (PhysicsMinions 에이전트): - Visual Studio: 시각 분석 - Logic Studio: 논리적 추론 - Review Studio: 솔루션 검증 - 다중 턴 반성 및 자기 수정

IPhO 2025 결과:

모델 점수 순위
Gemini-2.5-Pro 37.7
GPT-5 37.4
P1-235B + PhysicsMinions 38.4 1위
P1-235B-A22B (단독) 21.2/30 금메달

추론 컴퓨팅 전망

지표 출처
2025년 추론 시장 1,060억 달러 MarketsandMarkets
2030년 추론 시장 2,550억 달러 MarketsandMarkets
2027년 추론 칩 시장 1,020억 달러 Reuters
AI 컴퓨팅 중 추론 비중 (2030년) 75% 산업 분석
훈련 대 추론 수요 (2026년) 1:118 분석가 추정
글로벌 AI 컴퓨팅 성장 (2025-2027) 10배 AI 2027 전망

정책 및 규제 영향

기존 규제는 훈련 컴퓨팅 임계값을 사용합니다(예: EU AI Act의 10^25 FLOPs). 그러나 추론 시간 스케일링은 계산 방식을 바꿉니다:11

  • 모델은 훈련뿐만 아니라 추론 컴퓨팅을 통해 높은 능력을 달성할 수 있습니다
  • 광범위한 테스트 시간 추론을 가진 더 작은 훈련된 모델이 임계값 모델 능력을 초과할 수 있습니다
  • 정책 입안자들은 훈련 컴퓨팅에만 집중함으로써 "모델의 실제 영향을 과소평가"할 위험이 있습니다

향후 전망

2026년: 추론 수요가 훈련을 118배 초과할 것으로 예상됩니다. 데이터 센터 계획이 추론 최적화 아키텍처 방향으로 전환됩니다.

2027년: 글로벌 AI 관련 컴퓨팅이 1억 H100 등가(2025년 3월 대비 10배 성장)에 도달할 것으로 예상됩니다.12

진행 중: 병렬 추론(ThreadWeaver), 다중 에이전트 시스템(PhysicsMinions), 강화학습 기반 추론(DeepSeek, P1)에 대한 연구가 계속됩니다.

인프라 전환: 목적에 맞게 구축된 추론 인프라(NVIDIA Blackwell, TPU v5e, Groq LPUs)가 주요 컴퓨팅 범주가 됩니다.


핵심 시사점

인프라 계획 담당자를 위해: - 2030년까지 추론이 AI 컴퓨팅의 75%를 차지할 것으로 예상 - 추론 모델은 표준 모델보다 10-100배 더 많은 토큰 소비 - 지연 시간 최적화(ThreadWeaver 스타일 병렬화)가 하드웨어 요구 사항 생성 - 용량 모델링에서 추론 집약적 워크로드 계획 필요

운영 팀을 위해: - NVIDIA Blackwell은 대규모 추론에 최적화(랙당 1.4 엑사플롭스) - 추론 비용 모니터링, 훈련 비용의 15배 초과 가능(OpenAI 2024 기준) - 테스트 시간 컴퓨팅 튜닝이 지연 시간과 비용 균형에 영향 - 에이전트 프레임워크(PhysicsMinions)가 다중 턴 추론 오버헤드 추가

전략 기획을 위해: - 훈련 대 추론 컴퓨팅 비율이 극적으로 변화 중 - 더 작은 모델 + 대량 추론이 더 큰 훈련된 모델과 맞먹을 수 있음 - DeepSeek-R1이 효율성을 통해 70% 비용 우위 입증 - 정책 프레임워크가 훈련 컴퓨팅 임계값을 넘어 확장될 수 있음


참고 문헌


추론 집약적 AI 워크로드를 지원하는 GPU 인프라에 대해서는 Introl에 문의하세요.



  1. HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. 

  2. arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. 

  3. ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  4. WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. 

  5. Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. 

  6. NVIDIA. "AI Inference Solutions." 2025. 

  7. Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. 

  8. DeepSeek. "DeepSeek-R1 Technical Report." January 2025. 

  9. ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  10. GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. 

  11. Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. 

  12. AI 2027. "Compute Forecast." 2025. 

  13. MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. 

  14. NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. 

  15. arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. 

  16. Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. 

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중