DeepSeek V3.2가 IMO 금메달 수준 추론 달성: 중국 AI가 최첨단 성능에 필적
2025년 12월 11일
2025년 12월 업데이트: DeepSeek은 2025년 12월 1일 V3.2와 V3.2-Speciale을 출시했습니다. Speciale 버전은 IMO 2025 벤치마크 문제에서 35/42를 기록하며 70% 낮은 추론 비용으로 Gemini 3 Pro의 추론 능력에 필적했습니다.
DeepSeek은 2025년 12월 1일 두 가지 모델을 출시했습니다: DeepSeek-V3.2와 DeepSeek-V3.2-Speciale.1 Speciale 버전은 IMO 2025 벤치마크 문제에서 42점 만점에 35점을 기록하여 금메달에 상응하는 지위를 획득하고 세계 최고의 AI 시스템에 필적하는 수학적 추론 능력을 입증했습니다.2
미국 수출 제한은 DeepSeek의 최첨단 NVIDIA GPU 접근을 제한합니다. 이러한 제약에도 불구하고 회사는 서방 대안과 경쟁하거나 극적으로 낮은 비용으로 이를 능가하는 모델을 계속 생산하고 있습니다.3 이번 출시는 중국의 효율성 우선 AI 개발 접근법을 검증했습니다.
기술 사양
두 V3.2 모델 모두 MIT 라이선스 하에 오픈 웨이트로 6,850억 개의 총 매개변수를 갖추고 있습니다.4 전체 모델 웨이트는 약 690GB의 저장 공간이 필요합니다. 모델 실행에는 다음 중 하나가 필요합니다:
- 멀티-GPU 배포: 텐서 병렬 처리를 사용하는 8x H100 80GB GPU
- 양자화 추론: INT4 양자화로 요구 사항을 4x A100 80GB로 감소
- 클라우드 API: DeepSeek은 $0.70/M 토큰에 호스팅된 추론 제공
모델은 128,000 토큰 컨텍스트 윈도우를 지원하여 긴 문서, 코드베이스 및 연구 논문을 단일 프롬프트에서 분석할 수 있습니다.
V3.2-Speciale은 도구 사용 내에서 통합 추론을 도입합니다. 모델은 도구 호출에 대해 "사고" 및 "비사고" 모드를 모두 지원하여 작업을 실행하기 전에 다단계 에이전트 워크플로를 통해 추론할 수 있습니다.5 예를 들어, 데이터베이스를 쿼리할 때 Speciale은 여러 API 호출을 요구하는 대신 단일 추론 체인 내에서 쿼리 최적화와 결과 해석에 대해 추론할 수 있습니다.
훈련 과정은 1,800개 이상의 환경과 85,000개 이상의 복잡한 지시를 포함하는 합성 데이터 생성 파이프라인을 사용했습니다.6 합성 데이터는 비싼 인간 주석에 대한 의존성을 줄이면서 유기적으로 수집하기 어려운 시나리오에서 훈련을 가능하게 합니다.
벤치마크 성능
DeepSeek-V3.2-Speciale은 여러 경쟁 벤치마크에서 금메달 수준의 결과를 달성했습니다:7
| 벤치마크 | 점수 | 맥락 |
|---|---|---|
| IMO 2025 문제 | 35/42점 | 금메달 기준 |
| 중국 수학 올림피아드 | 금메달 수준 | 최상위 성과 카테고리 |
| IOI 2025 문제 | 492/600점 | 금메달, 10위 상당 |
| Terminal Bench 2.0 | 46.4% | GPT-5-High(35.2%) 능가 |
Terminal Bench 2.0 결과는 다중 파일 리팩토링, 디버깅 및 테스트 생성을 포함한 복잡한 코딩 워크플로를 측정합니다.8 DeepSeek은 실용적인 소프트웨어 엔지니어링 작업에서 GPT-5-High를 11 퍼센트 포인트 앞섰습니다.
참고: 이 점수는 공식 경쟁 스타일의 벤치마크 문제를 반영하며, 2025년 실제 경쟁 이벤트에서의 성능이 아닙니다.
비용 경제학
DeepSeek V3.2 가격은 이전 V3.1-Terminus 모델에서 70% 감소를 나타냅니다:9
| 모델 | 입력 토큰 | 출력 토큰 |
|---|---|---|
| DeepSeek V3.2 | $0.14/M | $0.70/M |
| V3.1-Terminus (이전) | $0.48/M | $2.40/M |
비교를 위한 현재 서방 제공업체 가격:10
| 제공업체 | 입력 | 출력 |
|---|---|---|
| Claude Sonnet 4 | $3.00/M | $15.00/M |
| GPT-4.5 | $2.50/M | $10.00/M |
| Gemini 3 Pro | $1.25/M | $5.00/M |
| DeepSeek V3.2 | $0.14/M | $0.70/M |
월 100억 개의 출력 토큰을 처리하는 조직은 DeepSeek으로 연간 약 700만 달러를 지출하는 반면 서방 대안으로는 5천만~1억 5천만 달러를 지출하게 됩니다.11 코드 생성 및 장문 콘텐츠와 같은 출력 집약적 워크로드에서 비용 격차가 더 벌어집니다.
인프라 영향
DeepSeek은 메모리 대역폭이 감소된 중국 특정 변형인 H800 GPU(H100의 3.35TB/s 대비 2.0TB/s)에서 V3.2를 훈련했습니다.12 이 성과는 소프트웨어 최적화가 하드웨어 제한을 보완할 수 있음을 보여줍니다.
주요 효율성 기술:13
Mixture-of-Experts (MoE) 아키텍처: 총 6,850억 개의 매개변수에도 불구하고 추론 요청당 370억 개의 매개변수만 활성화됩니다. MoE는 동등한 밀집 모델에 비해 계산을 약 30% 줄입니다.
Multi-head Latent Attention (MLA): 키-값 캐시 요구 사항을 압축하여 대역폭 제한이 있는 H800 하드웨어에서 메모리 대역폭 병목 현상을 줄입니다.
FP8 혼합 정밀도 훈련: 메모리 요구 사항을 줄이고 Hopper 아키텍처 GPU에서 훈련을 가속화합니다.
AI 인프라를 평가하는 조직은 DeepSeek의 성공이 최첨단 기능을 위한 컴퓨팅 요구 사항에 대한 가정에 도전한다는 것을 인식해야 합니다. 소프트웨어 최적화는 많은 워크로드에서 순수 GPU 축적보다 더 나은 ROI를 제공할 수 있습니다.14
엔터프라이즈 배포
AWS, Azure 및 Google Cloud 모두 DeepSeek 모델 배포를 제공하여 엔터프라이즈급 신뢰성을 검증합니다.15 하이퍼스케일러 가용성은 그렇지 않으면 중국 기원 모델 채택을 제한할 수 있는 배포 마찰을 제거합니다.
DeepSeek 배포를 고려하는 조직은 다음을 평가해야 합니다:
- 데이터 주권: 모델 웨이트는 개방되어 있지만 API 사용은 DeepSeek 인프라를 통해 데이터를 라우팅합니다
- 규정 준수 요구 사항: 일부 규제 산업은 중국 모델 사용을 제한할 수 있습니다
- 성능 특성: DeepSeek은 추론과 코딩에서 탁월하지만 창의적이거나 미묘한 작업에서는 성능이 떨어질 수 있습니다
경쟁 환경
V3.2 출시는 트럼프 행정부가 H200 수출 제한 완화를 발표하기 일주일 전에 이루어졌습니다.16 이 타이밍은 정책 패러독스를 강조합니다: 중국 AI 개발을 늦추기 위한 수출 통제가 효율성 개선을 강제함으로써 혁신을 가속화했을 수 있습니다.
중국 오픈 소스 모델은 2024년 말 글로벌 사용량의 1.2%에서 2025년 약 30%로 성장했습니다.17 이 변화는 규제 장벽이 경쟁 우위를 보호할 것이라고 가정한 미국 기업들에게 기술적 성과와 시장 혼란 모두를 나타냅니다.
서방 AI 기업들은 DeepSeek의 효율성에 필적하거나 우수한 기능을 통해 프리미엄 가격을 정당화해야 하는 압박에 직면해 있습니다. 2025년 11월 출시 클러스터(GPT-5.1, Claude Opus 4.5, Gemini 3 Pro, Grok 4.1)는 지속적인 최첨단 발전을 보여주었지만 상당히 높은 가격대였습니다.18
Claude Opus 4.5는 72.5%의 SWE-bench 성능으로 코딩 벤치마크를 선도하고, Gemini 3 Pro는 역대 최고인 1501의 LMArena Elo 점수를 달성했습니다.19 DeepSeek이 범용 격차를 줄이는 동안에도 서방 모델은 특정 기능에서 우위를 유지합니다.
핵심 요점
ML 엔지니어용: - V3.2-Speciale은 IMO 금메달 수준 달성 (벤치마크 문제에서 35/42) - 6,850억 매개변수, 128K 컨텍스트, MIT 라이선스 오픈 웨이트 - 8x H100 80GB 또는 4x A100 80GB에서 양자화 배포 필요
인프라 기획자용: - 중국 모델은 수출 제한 하드웨어(H800)에서 최첨단 기능 시연 - 소프트웨어 최적화(MoE, MLA, FP8)가 하드웨어 제약 보완 - 하이브리드 배포 고려: 최대 기능을 위한 서방 모델, 비용 최적화를 위한 DeepSeek
전략 기획용: - 중국 오픈 소스 모델이 2025년 글로벌 사용량의 30% 도달 - 하이퍼스케일러 가용성(AWS, Azure, GCP)이 엔터프라이즈 배포 검증 - 수출 통제가 중국 AI 발전을 막기보다 가속화했을 수 있음
참고문헌
AI 인프라 배포 지원은 Introl에 문의하세요.
-
DeepSeek API Docs. "DeepSeek-V3.2 Release Notes." 2025년 12월 1일. ↩
-
UNU Campus Computing Centre. "Inside DeepSeek End-of-Year AI Breakthrough." 2025년 12월. ↩
-
Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 2025년 12월 1일. ↩
-
Simon Willison. "DeepSeek-V3.2 Technical Analysis." 2025년 12월 1일. ↩
-
DeepSeek API Docs. "V3.2 Tool Use with Thinking Mode." 2025년 12월. ↩
-
Semiconductor Engineering. "DeepSeek New AI Models: V3.2 and V3.2-Speciale." 2025년 12월. ↩
-
WinBuzzer. "New DeepSeek V3.2 Speciale Model Claims Reasoning Parity with Gemini 3 Pro." 2025년 12월 1일. ↩
-
VentureBeat. "DeepSeek drops two AI models that rival GPT-5 on coding benchmarks." 2025년 12월. ↩
-
DeepSeek API Docs. "Pricing: V3.2 vs V3.1-Terminus." 2025년 12월. ↩
-
Artificial Analysis. "LLM Pricing Comparison December 2025." 2025년 12월. ↩
-
Sebastian Raschka. "A Technical Tour of the DeepSeek Models from V3 to V3.2." 2025년 12월. ↩
-
DEV Community. "DeepSeek-V3.2 Complete Technical Analysis." 2025년 12월. ↩
-
DeepSeek. "V3.2 Technical Report: Architecture and Training." 2025년 12월. ↩
-
CSIS. "Chinese AI Efficiency and Infrastructure Economics." 2025년 12월. ↩
-
AWS, Azure, Google Cloud. "DeepSeek Model Availability." 2025년 12월. ↩
-
Semafor. "Trump allows H200 exports to China with 25% surcharge." 2025년 12월 8일. ↩
-
Stanford HAI. "2025 AI Index Report." 2025년. ↩
-
Shakudo. "Top 9 Large Language Models as of December 2025." 2025년 12월. ↩
-
OverChat. "Best AI Models 2025: Claude, Gemini, GPT Compared." 2025년 12월. ↩