오픈소스 AI 모델이 격차를 좁히다: DeepSeek, Qwen3, Llama 4가 이제 GPT-5에 필적
요약
오픈소스와 독점 AI 모델 간의 성능 격차가 2025년 주요 벤치마크에서 17.5%포인트에서 단 0.3%로 축소되었습니다. DeepSeek V3.2, Qwen3-235B, Llama 4 Scout는 이제 GPT-5.2 및 Claude Opus 4.5와 비용의 일부로 경쟁하며, 완전한 셀프 호스팅 기능을 갖추고 있습니다. API 의존도와 인프라 투자를 저울질하는 기업들에게 계산이 근본적으로 바뀌었습니다.
무슨 일이 있었나
2025년 12월은 AI 모델 환경의 전환점입니다. 오픈소스 대규모 언어 모델이 가장 강력한 독점 시스템과 거의 동등한 수준에 도달하여, 수년간 이어진 폐쇄형 모델 지배 시대가 종료되었습니다.
숫자가 이야기합니다. 94개 주요 LLM 분석에 따르면 오픈소스 모델은 현재 MMLU에서 독점 시스템과 단 0.3%포인트 차이로 근접해 있습니다—1년 전 17.5포인트 격차에서 축소. 500만 이상의 사용자 투표로 운영되는 인간 선호도 순위 Chatbot Arena에서, 오픈 웨이트 모델은 2024년 1월과 2025년 2월 사이에 격차를 8%에서 1.7%로 축소했습니다. 이 격차는 계속 줄어들고 있습니다.
세 가지 모델 제품군이 오픈소스를 선도합니다:
DeepSeek V3.2는 2025년 12월 1일 출시되어 여러 추론 벤치마크에서 GPT-5와 동등을 달성했습니다. 중국 연구소의 Mixture-of-Experts 아키텍처는 토큰당 671B 파라미터 중 37B만 활성화하여 상품 수준 비용으로 최첨단 성능을 구현합니다.
Qwen3-235B-A22B는 Alibaba에서 제공하며, 235B 파라미터 중 22B만 활성화하면서 대부분의 공개 벤치마크에서 GPT-4o와 동등하거나 능가합니다. 2025년 7월 thinking 업데이트는 오픈소스 추론 모델 중 최첨단 결과를 달성했습니다.
Llama 4 Scout는 Meta에서 제공하며 1,000만 토큰 컨텍스트 창을 제공합니다—한 세션에서 7,500페이지를 처리하기에 충분—INT4 양자화로 단일 H100 GPU에서 실행됩니다.
오픈소스 모델은 현재 모델 수 기준 시장의 62.8%를 차지합니다. 변화는 빠르게 일어났습니다. 2년 전만 해도 독점 모델이 지배했습니다.
왜 중요한가
AI 인프라를 구축하는 기업에게 이러한 수렴은 구축 대 구매 계산을 재편합니다.
비용 구조가 역전되었습니다. DeepSeek V3.2는 입력 100만 토큰당 $0.26입니다—GPT-5.2 Pro보다 약 10배 저렴합니다. Mistral Medium 3는 100만 토큰당 $0.40으로 Claude Sonnet 3.7 성능의 90%를 제공하며, GPT-4보다 8배 저렴합니다. 조직들은 독점 전용 전략과 비교하여 오픈소스 접근 방식에서 25% 더 높은 ROI를 보고합니다.
데이터 제어가 가능해집니다. 셀프 호스팅은 민감한 정보를 조직 인프라 내에 완전히 보관합니다. 헬스케어 기업은 외부 전송으로 인한 HIPAA 위반 위험 없이 온프레미스에서 환자 데이터 쿼리를 실행할 수 있습니다. 금융 기관은 거래 알고리즘과 고객 데이터에 대한 완전한 제어권을 유지합니다.
배포 유연성이 확대됩니다. Mistral Medium 3는 단 4개의 GPU로 실행됩니다. Llama 4 Scout는 단일 H100에 맞습니다. 이러한 모델은 하이브리드 환경, 온프레미스 데이터 센터 또는 엣지 위치에 배포할 수 있습니다—API 전용 독점 서비스로는 불가능합니다.
벤더 종속이 해소됩니다. 셀프 호스팅 모델은 공급업체가 이전 버전을 폐기해도 구식이 되지 않습니다. 조직은 업그레이드 일정을 제어하고 모델 일관성을 유지하며, PPA 시장을 점점 더 판매자 유리하게 만든 사용량 기반 가격 변동성을 피합니다.
기술 세부 사항
모델 사양
| 모델 | 총 파라미터 | 활성 파라미터 | 컨텍스트 | 입력 비용/M | 출력 비용/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0.26 | $0.39 |
| Qwen3-235B | 235B | 22B | 256K | $0.20 | $1.20 |
| Llama 4 Scout | 109B | 17B | 10M | $0.08 | $0.30 |
| Mistral Medium 3 | — | — | 131K | $0.40 | $2.00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
벤치마크 성능
코딩: DeepSeek V3.2는 롱테일 에이전트 작업에서 탁월한 역량을 보여주며, 사고를 도구 사용에 직접 통합합니다. Qwen3-235B는 LiveCodeBench v6에서 74.8을 달성합니다. Llama 4 Scout는 LiveCodeBench에서 38.1%를 달성하여 GPT-4o의 32.3%를 능가했습니다.
추론: Qwen3-235B는 AIME'24에서 85.7, AIME'25에서 81.5를 기록합니다. thinking 모드에서는 AIME25에서 92.3에 도달합니다. DeepSeek V3.2-Speciale는 Gemini-3.0-Pro와 동등을 달성하고 IOI 2025, ICPC World Final 2025, IMO 2025, CMO 2025에서 금메달급 성과를 보였습니다.
롱 컨텍스트: Llama 4 Scout의 1,000만 컨텍스트 창은 전체 법률 문서, 연구 논문 컬렉션 또는 소프트웨어 저장소 처리를 단일 세션에서 가능하게 합니다.
아키텍처 혁신
DeepSeek V3.2는 DeepSeek Sparse Attention(DSA)을 도입하여 모델 출력 품질을 유지하면서 미세 입자 희소 어텐션으로 상당한 롱 컨텍스트 효율성 개선을 달성합니다.
DeepSeek V3.1의 하이브리드 thinking 모드는 채팅 템플릿 변경을 통해 chain-of-thought 추론과 직접 응답 사이를 전환합니다—하나의 모델이 범용과 추론 집약적 사용 사례를 모두 커버합니다.
Mistral 3의 Ministral 라인업은 3B, 8B, 14B 파라미터에 걸쳐 9개의 밀집 모델을 제공하며, 각각 Base, Instruct, Reasoning 변형이 있습니다. 14B 추론 모델은 AIME 2025에서 85%를 달성하며 단일 GPU에서 실행됩니다.
셀프 호스팅 요구 사항
| 모델 | 최소 하드웨어 | 권장 |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x 소비자 GPU | 1x A100 |
OpenLLM과 같은 도구를 사용하면 간단한 명령으로 모든 오픈소스 모델을 OpenAI 호환 API 엔드포인트로 실행할 수 있습니다. Ray Serve 및 Hugging Face TGI는 Kubernetes 배포를 간소화합니다.
다음은 무엇인가
오픈소스 모멘텀은 둔화 조짐을 보이지 않습니다. DeepSeek의 훈련 효율성—1조 토큰당 180K H800 GPU 시간—은 지속적인 빠른 반복을 시사합니다. Qwen3의 2025년 7월 thinking 업데이트는 사후 훈련 개선이 계속 확장됨을 보여주었습니다.
2026년 1분기에 예상되는 것: - Llama 4 Scout의 1,000만 토큰을 넘어서는 컨텍스트 창 확장 - 도구 사용이 성숙해짐에 따라 개선된 에이전트 기능 - 현재 최첨단 성능에 도달하는 더 작고 효율적인 모델
API 전용 전략을 여전히 평가하는 조직의 경우, 독점 종속의 창이 닫히고 있습니다. 89%의 조직이 현재 오픈소스 AI를 사용하는 상황에서, 질문은 "여부"에서 "어떤 모델을 얼마나 빨리"로 바뀌었습니다.
Introl 관점
최첨단 오픈소스 모델의 셀프 호스팅에는 상당한 GPU 인프라, 효율적인 냉각 시스템, 운영 전문 지식이 필요합니다. Introl의 550명의 HPC 전문 현장 엔지니어가 이러한 모델이 요구하는 가속기 클러스터를 배포하고 유지관리합니다. 커버리지 영역에 대해 자세히 알아보기.
게시일: 2025년 12월 18일