GPT-5.2: ARC-AGI 90% 돌파 최초 모델이 추론 계산을 변화시키다
2026년 1월 1일
2026년 1월 업데이트: OpenAI가 2025년 12월 11일 GPT-5.2를 출시하며 전문 지식 작업에서 가능한 것을 재정의하는 벤치마크 점수를 달성했습니다. 이 모델은 GDPval 작업의 70.9%에서 11배 빠른 속도와 1% 미만의 비용으로 인간 전문가를 능가합니다.
요약
GPT-5.2가 핵심 역량 임계값을 넘어섰습니다: ARC-AGI-1에서 90%를 초과한 최초의 모델, AIME 2025에서 완벽한 100%, FrontierMath에서 40.3%(5.1 대비 10% 향상). 400K 토큰 컨텍스트 윈도우와 128K 출력 토큰이 새로운 인프라 수요를 창출합니다. 추론 제공업체에게 1.4배 가격 인상은 OpenAI의 자신감과 이러한 역량을 제공하는 데 필요한 컴퓨팅 집약도를 나타냅니다.
무슨 일이 일어났나
OpenAI는 2025년 12월 11일 GPT-5.2를 출시했습니다. 이는 Google Gemini 3의 벤치마크 우위에 대응해 "코드 레드"를 선언했다고 알려진 지 불과 11일 만이었습니다.1
출시에는 두 가지 변형이 포함됩니다:
| 변형 | 사용 사례 | 가격 (백만 토큰당) |
|---|---|---|
| GPT-5.2 | 범용 | $1.75 입력 / $14 출력 |
| GPT-5.2 Pro | 확장 추론 | 더 높음 (xhigh 추론 티어) |
주요 사양:2
- 컨텍스트 윈도우: 400,000 토큰
- 최대 출력: 128,000 토큰
- 지식 컷오프: 2025년 8월 31일 (2024년 9월에서 업데이트)
- 가격: GPT-5.1 비용의 1.4배
GPT-5.2는 NVIDIA H100, H200, GB200-NVL72 GPU를 사용하여 Azure 인프라에서 구축되었습니다.3
벤치마크 성능
GPT-5.2는 전문, 과학, 수학 벤치마크에서 새로운 기록을 세웠습니다:4
| 벤치마크 | GPT-5.2 점수 | 이전 최고 | 개선 |
|---|---|---|---|
| GPQA Diamond (박사 과학) | 93.2% | 91.9% (Gemini 3) | +1.3% |
| ARC-AGI-1 검증됨 | >90% | ~85% | 90% 초과 최초 |
| AIME 2025 (수학) | 100% | 96.7% (Gemini 3) | 만점 |
| FrontierMath T1-3 | 40.3% | 30% (GPT-5.1) | +10% |
| GDPval (지식 작업) | 70.9% | — | 전문가 능가 |
| SWE-Bench Pro (코딩) | 55.6% | 51% (GPT-5.1) | +4.6% |
| Tau2 Telecom (도구 사용) | 98.7% | ~95% | 거의 완벽 |
GDPval 결과는 주목할 만합니다: GPT-5.2 Thinking은 44개 직업의 인간 전문가 대비 11배 이상의 속도와 1% 미만의 비용으로 결과를 생성했습니다.5
왜 중요한가
추론 수요 급증
400K 토큰 컨텍스트 윈도우는 요청당 상당한 메모리를 필요로 합니다. 전체 컨텍스트를 사용한 단일 추론은 이전 128K 모델보다 훨씬 더 많은 GPU 메모리를 소비합니다. 제공업체는 다음을 계획해야 합니다:6
- 메모리 스케일링: 128K 컨텍스트 대비 요청당 3배+ 메모리
- 배치 크기 감소: GPU당 동시 요청 수 감소
- KV 캐시 증가: 컨텍스트 길이 × 배치 크기 = 대규모 KV 캐시 요구사항
비용 구조 변화
GPT-5.1 대비 1.4배 가격 인상은 실제 컴퓨팅 집약도를 반영합니다:7
| 모델 | 입력 비용 | 출력 비용 | 5.1 대비 비율 |
|---|---|---|---|
| GPT-5.1 | $1.25/M | $10/M | 1.0x |
| GPT-5.2 | $1.75/M | $14/M | 1.4x |
대용량 추론 운영의 경우 동등한 워크로드에 대해 TCO가 40% 증가합니다.
전문 업무 자동화
GPT-5.2의 GDPval 성능—1% 미만의 비용으로 작업의 70.9%에서 전문가를 능가—은 기업 배포에 대한 즉각적인 수요를 창출합니다. 이러한 역량을 추구하는 조직은 다음을 처리할 수 있는 추론 인프라가 필요합니다:8
- 확장 추론 체인 (Pro 변형)
- 긴 컨텍스트 문서 처리
- 신뢰할 수 있는 도구 호출 (98.7% Tau2)
기술 세부사항
아키텍처
OpenAI는 구체적인 아키텍처 변경을 공개하지 않았지만 벤치마크 패턴은 다음을 시사합니다:9
- 향상된 추론 역량 (FrontierMath +10%)
- 개선된 긴 컨텍스트 정확도 (256K 토큰 검색)
- 더 나은 도구 사용 신뢰성 (Tau2 98.7%)
추론 요구사항
GPT-5.2를 대규모로 서비스하려면 다음을 고려해야 합니다:10
| 요소 | GPT-5.1 | GPT-5.2 | 영향 |
|---|---|---|---|
| 컨텍스트 윈도우 | 200K | 400K | 요청당 2배 메모리 |
| 최대 출력 | 64K | 128K | 2배 생성 시간 |
| 추론 깊이 | 표준 | 확장 (Pro) | 가변 지연 |
| 도구 호출 | 95% | 98.7% | 더 복잡한 오케스트레이션 |
경쟁 환경
GPT-5.2는 Gemini 3에서 일부 벤치마크를 되찾았지만 전부는 아닙니다:11
| 벤치마크 | 리더 | 점수 |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | 선두 |
| GDPval | GPT-5.2 Thinking | 70.9% |
Gemini 3 출시 11일 만에 GPT-5.2가 출시된 빠른 출시 주기는 두 회사가 직면한 추론 인프라 압력을 보여줍니다.
다음 단계
단기 (2026년 1분기)
- GPT-5.2 Mini 출시 예정 (출시 시 Mini 변형 없음)
- 기업 API 롤아웃 확대
- 서드파티 추론 제공업체 지원 추가
인프라 영향
GPT-5.2 배포를 계획하는 조직은:12
- 메모리 용량 평가: 400K 컨텍스트는 128K 모델 대비 3배+ 메모리 필요
- KV 캐시 계획: CXL 메모리 확장이 점점 더 중요해짐
- 컴퓨팅 예산 책정: 1.4배 비용 증가는 현실
- 하이브리드 접근 고려: 단순한 작업을 저렴한 모델로 라우팅
프론티어 모델을 지원하는 추론 인프라 배포는 Introl에 문의하세요.
참고문헌
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." 2025년 12월. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." 2025년 12월. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 2025년 12월 11일. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2025년 12월. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." 2025년 12월. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." 2025년 12월. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 2025년 12월 11일. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." 2025년 12월. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." 2025년 12월. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." 2025년 12월. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." 2025년 12월. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." 2025년 12월. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩