DeepSeek V3.2, 엘리트 벤치마크에서 GPT-5 추월: 중국 AI 급부상이 인프라에 미치는 영향
2025년 12월 10일 작성자: Blake Crosley
중국의 DeepSeek은 2025년 12월 1일 두 개의 새로운 AI 모델을 공개했다. DeepSeek-V3.2-Speciale은 엘리트 대회에서 놀라운 성과를 거뒀다: 2025년 국제수학올림피아드(IMO)에서 금메달 수준(42점 만점에 35점), 국제정보올림피아드(IOI)에서 10위(600점 만점에 492점), ICPC 세계 결선에서 2위를 기록했다.[^1] 벤치마크 성능 측면에서 Speciale 버전은 AIME에서 96.0% 통과율을 달성해 GPT-5-High의 94.6%와 Gemini-3.0-Pro의 95.0%를 넘어섰다.[^2] 두 모델 모두 Apache 2.0 라이선스로 무료 오픈소스 공개되어, 최첨단 AI 역량에 필요한 컴퓨팅 요구사항에 대한 기존 가정에 도전장을 내밀었다.
이번 출시는 AI 지정학에서 중요한 순간을 의미한다. 미국의 칩 수출 규제 하에서 운영되는 중국 연구소가 엘리트 추론 과제에서 미국 최첨단 시스템과 동등하거나 이를 능가하는 모델을 생산한 것이다. 이 성과는 인프라 투자와 AI 역량 간의 관계에 의문을 제기하며, GPU 조달과 학습 인프라를 계획하는 조직들에게 시사점을 던진다.
벤치마크 성능 분석
DeepSeek-V3.2-Speciale은 수학 및 프로그래밍 벤치마크 전반에서 탁월한 성능을 보여주며 전 세계 상위 3개 최첨단 모델 중 하나로 자리매김했다.
하버드-MIT 수학 토너먼트에서 Speciale 버전은 99.2%를 기록해 Gemini의 97.5%를 넘어섰다.[^3] 계산력보다 수학적 통찰력을 측정하는 15문제, 75분짜리 시험인 AIME는 AI에게 가장 도전적인 추론 벤치마크 중 하나다. 96% 점수는 이 모델이 전 세계 상위 50위권 수학올림피아드 참가자 수준임을 의미한다.[^4]
기반 아키텍처가 그 이유를 설명해준다. DeepSeek V3.2는 6,850억 파라미터의 Mixture-of-Experts(MoE) 프레임워크를 기반으로 하며, 토큰당 370억 파라미터만 활성화된다.[^5] MoE 설계는 모델이 6,850억 모델의 지식 용량을 갖추면서도 370억 모델의 추론 비용만 발생한다는 것을 의미한다—이는 제한된 하드웨어에서 학습과 배포를 모두 가능하게 하는 핵심적인 효율성 이점이다.
표준 DeepSeek-V3.2 릴리스는 역량과 효율성의 균형을 갖춘 일상적인 추론 어시스턴트 사용 사례를 대상으로 한다. Speciale 버전—확장된 추론 체인을 갖춘 고컴퓨팅 구성—은 비용 효율성보다 엘리트 벤치마크 성능에 최적화된 최대 역량 버전이다.[^6] DeepSeek은 Speciale API 엔드포인트가 2025년 12월 15일에 만료된다고 밝혔는데, 이는 대규모로 모델을 운영하는 데 드는 극단적인 계산 비용을 반영한다.
두 모델 모두 추론과 특정 작업의 자율적 실행을 결합하는 기능을 추가해, 순수 벤치마크 성능과 함께 에이전트 역량도 갖추었음을 보여준다.[^7] 이러한 조합은 DeepSeek 모델을 학술 벤치마크를 넘어선 실용적 응용 분야에 포지셔닝한다.
인프라 효율성의 시사점
DeepSeek의 성과는 최첨단 AI에 필요한 컴퓨팅 요구사항에 대한 가정에 도전하며, 인프라 계획에 대한 구체적인 교훈을 제공한다.
학습 효율성의 혁신
DeepSeek은 2,048개의 NVIDIA H800 GPU—인터커넥트 속도가 감소된 H100의 수출 제한 버전—로 V3를 학습시켰다. 총 278만 8천 GPU 시간, 약 560만 달러의 컴퓨팅 비용이 들었다.[^8] 비교하자면, Llama 3 405B는 더 작은 모델임에도 학습에 3,080만 GPU 시간이 필요했다—11배 더 많은 컴퓨팅이다.[^9]
이 효율성은 세 가지 핵심 혁신에서 비롯된다:
FP8 혼합 정밀도 학습. DeepSeek은 대규모에서 FP8(8비트) 학습을 선도하여 정확도를 유지하면서 메모리 요구사항을 줄였다. V3는 FP8을 사용해 학습된 최초의 오픈 LLM으로, 이 기법이 초대형 모델에서도 유효함을 입증했다.[^10]
토큰당 컴퓨팅 효율성. DeepSeek은 토큰당 250 GFLOPs로 V3를 학습시켰다. Qwen 2.5 72B의 394 GFLOPs, Llama 3.1 405B의 2,448 GFLOPs와 비교된다.[^11] Llama 대비 10배의 효율성 격차는 알고리즘 혁신이 순수 컴퓨팅을 대체할 수 있음을 보여준다.
Multi-head Latent Attention(MLA). 이 아키텍처는 추론 중 메모리 대역폭 요구사항을 줄여, 그렇지 않으면 불충분했을 하드웨어에서의 배포를 가능하게 한다.
조달 결정에 미치는 영향
이 효율성 격차는 GPU 조달에 직접적인 시사점을 제공한다:
대규모 클러스터 가정에 의문을 제기하라. DeepSeek이 2,048개의 H800으로 최첨단 성능을 달성했다면, 10,000개 이상의 GPU 클러스터를 계획하는 조직은 효율성 가정을 검증해야 한다. 더 작지만 잘 최적화된 클러스터가 동등한 역량을 제공할 수 있다.
학습 인프라 전문성에 투자하라. DeepSeek의 효율성과 서방 연구소들의 접근 방식 간 격차는 학습 방법론이 하드웨어만큼 중요함을 시사한다. 조직은 GPU 조달과 함께 ML 엔지니어링 인재에도 예산을 배정해야 한다.
급격한 효율성 향상을 계획하라. 12-18개월의 조달 주기는 학습 효율성이 개선됨에 따라 진부화 위험이 있다. 현재 가정에 고정된 대규모 자본 구매보다 더 짧은 계약이나 유연한 클라우드 계약을 고려하라.
수출 규제 맥락
미국의 칩 수출 규제는 H100과 Blackwell 아키텍처를 포함한 NVIDIA의 가장 진보된 GPU에 대한 중국의 접근을 제한한다. DeepSeek은 완전한 컴퓨팅 성능은 유지하되 NVLink 인터커넥트 속도가 감소된 H800을 사용해 V3.2를 개발했으며, 최첨단 하드웨어 접근 없이 최첨단 성능을 달성했다.
이 성과는 인터커넥트 대역폭 제약이 알고리즘 혁신을 통해 부분적으로 극복될 수 있음을 보여준다. 조직은 더 많은 GPU가 자동으로 더 나은 모델을 생산한다고 가정할 수 없다. 학습 효율성, 아키텍처 혁신, 최적화가 순수 컴퓨팅과 함께 중요하다.
오픈 모델 경제학: 구체적인 비용 비교
두 DeepSeek-V3.2 모델 모두 무료 오픈소스로 공개되어, GPU 인프라를 보유한 조직에게 명확한 비용 이점을 제공한다.
API 가격 비교: - GPT-5 Standard: 입력 토큰 백만 개당 $1.25, 출력 토큰 백만 개당 $10[^12] - Claude Opus 4.1: 입력 토큰 백만 개당 $15, 출력 토큰 백만 개당 $75[^13] - DeepSeek V3.2-Exp: 입력 토큰 백만 개당 $0.028[^14]
45배에서 500배에 달하는 가격 격차는 대량 추론 워크로드를 실행하는 조직이 독점 API 대신 DeepSeek을 자체 호스팅함으로써 막대한 비용 절감을 달성할 수 있음을 의미한다.
자체 호스팅 요구사항: 전체 6,850억 모델을 실행하려면 FP8 정밀도로 약 700GB VRAM이 필요하며, 8-10개의 NVIDIA H100(80GB) GPU로 달성 가능하다.[^15] 양자화된 4비트 버전은 이를 ~386GB로 줄여 5-6개의 H100 또는 동등한 구성에서 배포를 가능하게 한다.[^16]
다른 AI 워크로드를 위해 이미 GPU 클러스터를 운영하는 조직에게 DeepSeek 추론 추가는 독점 대안의 상당한 토큰당 수수료에 비해 한계 비용에 불과하다.
경쟁 지형의 변화
2025년 11월에는 주요 연구소들의 최첨단 모델 출시가 집중되었고, DeepSeek이 미국 중심 지형에 중국의 경쟁을 추가했다.
미국 최첨단 모델 출시
2025년 11월은 출시가 극도로 집중된 시기였다. GPT-5.1, Grok 4.1, Gemini 3 Pro, Claude Opus 4.5가 서로 6일 이내에 모두 출시되었다.[^17] Anthropic의 가장 지능적인 모델인 Claude Opus 4.5는 코딩과 에이전트 작업에서 뛰어나다.[^18] Gemini 3 Pro는 GPQA 86.4점으로 추론 벤치마크를 지배하며, Claude Opus 4.5는 SWE-bench에서 72.5%로 코딩 벤치마크를 선도한다.[^19]
DeepSeek의 12월 출시는 하드웨어 제한에도 불구하고 중국 연구소가 이러한 최첨단 개발 속도를 따라잡을 수 있음을 보여준다. 글로벌 AI 경쟁은 이제 배포 규모뿐 아니라 역량 면에서도 중국의 진정한 경쟁을 포함한다.
지정학적 함의
중국의 최첨단 AI 역량은 수출 규제, 컴퓨팅 주권, AI 리더십에 관한 미국 정책 논의에 영향을 미친다. 정책 입안자들은 하드웨어 규제가 중국 AI 개발을 늦출 것이라고 가정했지만, DeepSeek의 성과는 그 전략의 한계를 시사한다.
조직은 정부가 변화하는 경쟁 역학에 대응함에 따라 정책이 계속 진화할 것을 예상해야 한다. 수출 규제는 강화되거나, 새로운 범주로 확대되거나, 그 효과가 의문시되면서 재검토될 수 있다. 조달 계획은 정책 불확실성을 고려해야 한다.
의사결정 프레임워크: 구축, 구매, 또는 대기?
DeepSeek의 출시는 AI 역량에 대한 구축 대 구매 계산을 재편한다. 결정을 내리는 방법은 다음과 같다:
| 시나리오 | 권고사항 | 근거 |
|---|---|---|
| 월 API 지출 <$10K | API 계속 사용 | 자체 호스팅 오버헤드가 절감액 초과 |
| 월 $10K-50K, 가변 부하 | 하이브리드 접근 | 급증 시 API, 기본 부하는 자체 보유 |
| 월 >$50K, 안정적 부하 | 자체 호스팅 평가 | 6-12개월 내 ROI 달성 가능 |
| 커스텀 모델 학습 | 자체 인프라 보유 | 효율성 최적화에 대한 통제권 |
이 프레임워크는 현세대 GPU 가격을 가정한다. H100 가용성이 개선되고 H200/B200이 시장에 진입함에 따라, 자체 호스팅 경제성은 자체 보유 인프라에 더욱 유리하게 이동할 것이다.
인프라 계획에 대한 의미
DeepSeek의 성과는 AI 인프라를 계획하는 조직에게 여러 실행 가능한 시사점을 제공한다.
규모보다 효율성
AI 역량 달성에 있어 순수 GPU 수보다 학습 효율성이 더 중요하다. 조직은 하드웨어 조달과 함께 학습 인프라 최적화에 투자해야 한다. 좋은 하드웨어와 좋은 학습 접근 방식의 조합이 나이브한 학습을 하는 우수한 하드웨어를 능가한다.
실행 단계: 대규모 GPU 주문을 확정하기 전에 ML 엔지니어링 컨설턴트에게 학습 효율성 감사를 의뢰하라. 2-3배의 효율성 향상은 필요한 클러스터 규모를 비례적으로 줄일 수 있다.
연구 파트너십과 엔지니어링 인재 투자가 추가 GPU 조달보다 달러당 더 많은 역량을 제공할 수 있다. 조직은 AI 개발 전략에 따라 하드웨어와 인적 자본 투자의 균형을 맞춰야 한다.
오픈 모델 배포 인프라
무료 오픈 최첨단 모델은 인프라 요구사항을 변화시킨다. API 지연 시간 최적화와 토큰당 비용 관리보다는, 조직은 자체 호스팅 배포를 위한 추론 인프라를 고려해야 한다. 인프라 경제학이 운영 비용에서 자본 투자로 전환된다.
실행 단계: 현재 API 지출을 계산하라. 추론에 월 $50,000 이상을 지출한다면 자체 호스팅 경제성을 평가하라. 8-GPU H100 클러스터는 약 $250,000-300,000의 비용이 들지만 토큰당 수수료를 무기한 제거한다.
오픈 모델이 개선됨에 따라 학습보다 추론에 맞춰 규모를 조정한 GPU 클러스터가 더 가치 있어진다. 조직은 모델 제공업체에 API 마진을 지불하는 것보다 자체 보유 인프라에서 추론을 실행하는 것이 더 나은 경제성을 달성할 수 있다.
다변화 고려사항
단일 모델 제공업체에 대한 의존은 경쟁 역학이 진화함에 따라 위험을 초래한다. 조직은 여러 제공업체의 모델을 수용하는 시스템을 설계하여 새로운 역량의 빠른 도입을 가능하게 해야 한다. DeepSeek의 출시는 역량 리더십이 예측 불가능하게 이동함을 보여준다.
실행 단계: 애플리케이션 변경 없이 제공업체 간 전환을 가능하게 하는 모델 추상화 레이어(LiteLLM, OpenRouter, 또는 커스텀 라우팅)를 구현하라.
Introl의 550명의 현장 엔지니어는 경쟁 역학에 적응하는 유연한 AI 인프라를 구현하는 조직을 지원한다.[^20] 이 회사는 3년간 9,594% 성장으로 2025 Inc. 5000에서 14위를 기록했다.[^21]
257개 글로벌 위치에 걸친 인프라는 AI 환경이 진화함에 따라 적응성이 필요하다.[^22] 전문적인 지원은 모델 역량과 경제성이 변화함에 따라 인프라 투자가 가치를 유지하도록 보장한다.
핵심 요점
인프라 계획자를 위해: - DeepSeek은 Llama 3 405B보다 11배 적은 컴퓨팅으로 GPT-5 수준의 성능을 달성했다 - 최첨단 모델 자체 호스팅은 이제 8-10개의 H100(~$250-300K)이 필요하며, 이는 월 $50K+ API 수수료와 비교된다 - 학습 효율성은 GPU 수만큼 중요하다—