중국 AI 연구소 DeepSeek이 2025년에 V3.2를 출시했으며, 이 모델은 AIME 2025에서 96.0%의 점수를 기록하면서 입력 토큰 백만 개당 $0.028의 요금을 책정했습니다. 이는 GPT-5 비용의 약 10분의 1 수준입니다. 이 회사는 6,710억 개 매개변수를 가진 전체 모델을 MIT 라이선스 하에 오픈소스로 공개하여, 충분한 컴퓨팅 리소스를 보유한 누구나 최첨단 수준의 AI 성능을 사용할 수 있게 했습니다. OpenAI, Google, Anthropic은 이제 수학적 추론과 코딩에서 자사의 주력 제품과 동등한 성능을 보이면서도 가격은 한 자릿수 낮춘 모델과 직접적인 경쟁에 직면하게 되었습니다.
DeepSeek은 품질 저하 없이 컴퓨팅 오버헤드를 줄이는 아키텍처 혁신을 통해 이러한 경제성을 달성했습니다. 이 연구소는 긴 컨텍스트에서 중요한 부분을 식별하고 불필요한 연산을 건너뛰는 세밀한 인덱싱 시스템인 DeepSeek Sparse Attention (DSA)을 도입했습니다. DeepSeek은 또한 Mixture-of-Experts 아키텍처를 개선하여 레이어당 256개의 전문화된 전문가 네트워크를 사용하되 토큰당 8개만 활성화하고, 새로운 편향 항 라우팅 접근법을 통해 보조 손실을 제거했습니다. 이러한 기술적 선택을 통해 DeepSeek은 경쟁사가 지출하는 것으로 알려진 비용의 10분의 1 미만인 550만 달러로 V3를 훈련할 수 있었으며, V3.2는 이러한 효율적인 기반 위에 직접 구축되었습니다.
이번 출시는 폐쇄형 최첨단 모델들의 경쟁 우위와 오픈 대안이 훨씬 낮은 비용으로 비슷한 성능을 제공할 때 프리미엄 가격 책정이 생존할 수 있는지에 대한 근본적인 질문을 제기합니다.
## DeepSeek-V3.2 혁신
DeepSeek-V3.2는 총 6,710억 개의 파라미터를 보유하고 있지만, Mixture-of-Experts 아키텍처는 토큰당 370억 개만 활성화합니다. 회사는 2025년에 두 가지 변형 모델을 출시했습니다: 주류 배포용 V3.2와 고성능 추론 작업용 V3.2-Special입니다. V3.2-Special은 2025년 12월 15일까지 임시로 제공되었으며, V3.2가 주요 프로덕션 모델 역할을 합니다.
이 모델은 2025년 국제수학올림피아드(IMO), 중국수학올림피아드(CMO), 국제대학생프로그래밍경진대회(ICPC), 국제정보올림피아드(IOI) 등 여러 국제 경진대회에서 금메달 수준의 성과를 거두었습니다. DeepSeek-V3.2는 2025년 미국수학초청시험(AIME)에서 96.0%를 기록하여 GPT-5 High의 94.6%를 넘어서고 Gemini 3 Pro의 95.0%와 동등한 수준을 보였습니다. 또한 이 모델은 2025년 Harvard-MIT 수학 토너먼트(HMMT)에서 99.2%를 달성하여 Gemini 3 Pro의 97.5%를 상회했습니다.
가격 비교
모델캐시된 입력표준 입력출력
DeepSeek V3.2 $0.028/M tokens $0.28/M tokens $0.42/M tokens
GPT-5 — $1.25/M tokens $10/M tokens
100,000개의 입력 토큰을 처리하고 100,000개의 출력 토큰을 생성하는 일반적인 워크로드의 경우 DeepSeek는 약 $0.07, GPT-5는 $1.13의 비용이 소요됩니다.
DeepSeek은 V3.2를 MIT 라이선스로 출시하고 Hugging Face에 완전한 모델 가중치를 공개했습니다. 조직들은 제한 없이 상업적 목적으로 모델을 다운로드, 수정, 배포할 수 있어 데이터 주권 요구사항 충족이나 특화 도메인에서의 커스텀 파인튜닝을 위한 로컬 배포가 가능합니다.
## 아키텍처 심층 분석
DeepSeek-V3.2의 기술적 혁신은 세 가지 영역에 집중됩니다: 긴 맥락을 위한 희소 주의(sparse attention), 개선된 Mixture-of-Experts 설계, 그리고 보조 손실이 없는 부하 균형입니다. 이러한 아키텍처 선택은 계산 비용을 대폭 줄이면서도 최첨단 성능을 제공하기 위해 함께 작동합니다.
DeepSeek Sparse Attention
표준 트랜스포머 주의 메커니즘은 시퀀스 내 모든 토큰 쌍 간의 관계를 계산하므로, 맥락 길이가 증가함에 따라 이차적 계산 복잡도를 갖게 됩니다. 128,000토큰 맥락은 약 160억 번의 주의 계산(128,000²)을 필요로 하여, 최신 가속기를 사용하더라도 긴 맥락 처리를 비싸게 만듭니다. DeepSeek Sparse Attention은 실제로 주의가 필요한 토큰을 식별하고 덜 관련성 있는 쌍에 대한 계산을 건너뛰어 계산 병목을 해결합니다.
DSA 시스템은 맥락 창 전반에 걸쳐 의미적 중요도를 추적하는 세밀한 인덱스를 유지합니다. 새 토큰을 처리할 때, 주의 메커니즘은 인덱스를 쿼리하여 관련 정보를 포함할 가능성이 높은 고가치 토큰을 식별한 다음, 선택된 토큰에 대해서만 완전한 주의를 계산합니다. 이 접근법은 (10번째마다 토큰에 주의를 기울일 수 있는) 고정 희소 주의 패턴과 달리 위치 규칙보다는 의미적 내용을 기반으로 필요한 토큰을 동적으로 선택합니다.
DeepSeek는 2025년 9월 V3.2-Exp에서 DSA를 처음 도입했으며, 밀집 주의와 비교할 만한 품질 지표를 유지하면서 긴 맥락 작업의 계산 비용을 50% 감소시켰습니다. 프로덕션 V3.2 릴리스는 이러한 효율성 향상을 그대로 계승하여, 고볼륨 애플리케이션에서 128,000토큰 맥락을 경제적으로 실현 가능하게 만듭니다.
희소 주의 혁신은 특히 코드 이해, 문서 분석, 그리고 다중 턴 대화에서 중요한데, 여기서 관련 정보는 긴 히스토리의 어느 곳에서나 나타날 수 있습니다. 밀집 주의 모델은 관련성에 관계없이 토큰당 정확히 동일한 계산 비용을 발생시킵니다. 반면 DSA는 실제로 생성 품질에 영향을 미치는 토큰에 계산 자원을 할당합니다.
Mixture-of-Experts 기반
DeepSeek-V3.2는 레이어당 256개의 전문가 네트워크를 가진 Mixture-of-Experts 아키텍처를 구현하며, 이는 V2의 160개 전문가에서 증가한 것입니다. 모델은 토큰당 8개의 전문가를 활성화합니다: 모든 입력에 걸쳐 공통 패턴을 처리하는 1-2개의 공유 전문가와, 토큰의 내용에 따라 선택되는 6-7개의 라우팅된 전문가입니다. 총 파라미터 수는 6,710억 개에 달하지만, 단일 토큰에 대해서는 370억 개의 파라미터만 활성화되어 추론 비용을 관리 가능하게 유지하면서 특화할 수 있는 용량을 유지합니다.
각 전문가 네트워크는 훈련을 통해 특화되며, 서로 다른 전문가들이 수학적 추론, 코드 생성, 과학적 글쓰기, 또는 대화형 언어와 같은 도메인에서 역량을 개발합니다. 라우팅 메커니즘은 수학 토큰을 수학 특화 전문가에게, 코드 토큰을 프로그래밍 전문가에게 보내는 것을 학습하여, 6,710억 개의 파라미터를 모두 활성화하지 않고도 다양한 작업에서 전문가 수준의 성능을 달성할 수 있게 합니다.
이러한 아키텍처 선택은 언어 모델 설계의 근본적인 트레이드오프를 직접적으로 해결합니다. 밀집 모델은 모든 토큰에 대해 모든 파라미터를 활성화하여 일관된 계산을 제공하지만 주어진 추론 예산에 대한 총 용량을 제한합니다. 희소 MoE 모델은 파라미터의 일부만 활성화하면서 엄청난 총 용량을 유지하여, 비현실적으로 큰 밀집 모델이 필요한 도메인 간 특화를 가능하게 합니다.
DeepSeek의 구현은 레이어당 1-2개의 공유 전문가를 모든 입력 유형에 걸친 빈번한 패턴을 처리하는 데 할당합니다: 일반적인 단어, 기본 문법, 그리고 간단한 추론 단계들입니다. 공유 전문가는 라우팅 결정에 관계없이 모든 토큰에 대해 활성화되어, 특화된 전문가들이 출력을 개선하기 전에 모델이 기본적인 능력을 유지하도록 합니다. 공유 및 라우팅된 전문가의 조합은 어떤 전문가의 훈련 도메인에도 속하지 않을 수 있는 분포 외 입력에서 모델이 실패하는 것을 방지합니다.
보조 손실 없는 부하 균형
Mixture-of-Experts 아키텍처는 부하 균형 문제에 직면합니다: 라우팅 메커니즘이 대부분의 토큰을 소수의 전문가 집합에게 보낼 수 있어, 다른 전문가들이 충분히 활용되지 않고 특화된 용량의 목적을 무너뜨릴 수 있습니다. 시스템이 균형 잡힌 전문가 사용을 적극적으로 장려하지 않는 한, 훈련은 일반적으로 소수의 지배적인 전문가로 수렴합니다.
표준 MoE 구현은 불균형한 전문가 사용에 패널티를 주는 보조 손실 항을 훈련 목표에 추가합니다. 보조 손실은 각 전문가가 받는 토큰 수를 측정하고 사용이 편향될 때 패널티를 추가하여, 라우팅 메커니즘이 전문가들 간에 토큰을 더 균등하게 분산하도록 장려할 수 있습니다. 하지만 보조 손실은 다음 토큰을 올바르게 예측하는 주요 목표와 경쟁하여, 더 나은 부하 균형을 위해 모델 품질을 잠재적으로 저하시킬 수 있습니다.
DeepSeek-V3.2는 보조 손실을 완전히 제거하고 대신 라우팅 메커니즘의 바이어스 항을 통해 부하 균형을 구현합니다. 라우터는 각 토큰과 각 전문가 간의 친화도 점수를 계산한 다음, 최근에 많은 토큰을 받은 전문가에게 약간의 음의 바이어스를 추가합니다. 바이어스 항은 품질 목표와 충돌하는 별도의 손실 함수를 요구하지 않고도 과도하게 사용된 전문가를 향후 라우팅 결정에서 약간 덜 매력적으로 만듭니다.
이 접근법은 DeepSeek가 바이어스 메커니즘을 통해 합리적인 부하 균형을 유지하면서 순수하게 다음 토큰 예측을 위해 최적화할 수 있게 합니다. 또한 모델은 훈련 중 토큰 드롭을 제거하여(전문가 용량이 가득 찰 때 일부 토큰에 대한 계산을 건너뛰는 일반적인 기법), 모든 토큰이 선택된 전문가로부터 완전한 처리를 받도록 보장합니다.
## V3에서 V3.2까지: 효율성의 진화
DeepSeek의 효율성 혁신은 2024년 12월 V3부터 시작되었습니다. 당시 연구소는 288만 H800 GPU 시간을 사용하여 550만 달러로 경쟁력 있는 최첨단 모델을 훈련했습니다. 경쟁사들이 GPT-4와 같은 모델을 훈련하는 데 1억 달러 이상을 지출한 것으로 알려진 가운데, DeepSeek의 95% 비용 절감은 V3.2의 추가 최적화를 고려하기 전에도 주목할 만한 성과였습니다.
DeepSeek은 여러 기술적 선택을 통해 V3 훈련 효율성을 달성했습니다:
-
대부분의 경쟁사가 사용하는 FP16 또는 BF16 정밀도 대신 FP8 혼합 정밀도 훈련을 사용하여 메모리 대역폭 요구사항을 약 절반으로 줄이고 더 큰 배치 크기를 가능하게 함
-
표준 파이프라인 접근 방식 대비 GPU 활용률을 개선한 파이프라인 병렬 처리용 맞춤형 DualPipe 알고리즘
-
샘플 효율성을 개선하는 다중 토큰 예측 목표와 함께 14.8조 개의 훈련 토큰 (Llama 3.1 405B와 같은 모델에 사용된 15조+ 토큰보다 적음)
V3 기반 모델은 훈련 비용을 획기적으로 낮추면서도 경쟁력 있는 성능을 제공했지만, 긴 컨텍스트에서는 표준 조밀 어텐션을 사용했습니다. DeepSeek은 2025년 9월 V3.2-Exp를 실험적 변형으로 출시하여 DeepSeek Sparse Attention을 도입했습니다. 이 실험적 출시를 통해 희소 어텐션이 주요 벤치마크에서 측정 가능한 품질 저하 없이 긴 컨텍스트 처리 비용을 50% 줄일 수 있음을 검증했습니다.
DeepSeek은 2025년 V3.2-Exp 실험을 바탕으로 프로덕션 준비 모델인 V3.2와 V3.2-Special을 출시했습니다. V3.2는 API 및 자체 호스팅 시나리오에서의 주류 배포를 목표로 하며, V3.2-Specialized는 수학 경시 문제와 복잡한 코딩 과제와 같은 고연산 추론 작업에 중점을 둡니다.
V3에서 V3.2로의 진화는 순수한 벤치마크 최대화보다는 훈련 및 추론 효율성에 대한 DeepSeek의 집중을 보여줍니다. 연구소는 V3를 비교 가능한 모델 대비 1/20의 비용으로 훈련했고, 이후 V3.2에서 긴 컨텍스트 작업의 추론 비용을 약 절반으로 줄이는 아키텍처 개선을 도입했습니다. 이러한 복합적 효율성을 통해 DeepSeek은 상업적 API 서비스를 운영하기에 충분한 마진을 유지하면서도 경쟁사 가격을 한 자릿수 차이로 낮출 수 있게 되었습니다.
벤치마크 성능 분석
DeepSeek-V3.2는 수학적 추론과 코딩 벤치마크에서 강력한 결과를 달성하면서 일반 지식 작업에서는 경쟁력 있지만 선도적이지 않은 성능을 보여줍니다. 이러한 성능 프로파일은 V3.2를 기술 도메인에 특히 적합하게 만들지만, 광범위한 사실 회상에는 사용자들이 경쟁사를 선호할 수 있음을 시사합니다.
수학 및 추론
벤치마크DeepSeek V3.2GPT-5 HighGemini 3 Pro
AIME 2025 96.0% 94.6% 95.0%
HMMT 2025 99.2% — 97.5%
IMO 2025 Gold Medal — —
CMO 2025 Gold Medal — —
Putnam Gold Medal — —
DeepSeek-V3.2는 AIME 2025에서 96.0%를 기록하여 GPT-5 High의 94.6%를 넘어서고 Gemini 3 Pro의 95.0%와 맞먹었습니다. 이 모델은 미국 최고 수준의 고등학생들을 식별하기 위해 설계된 시험에서 거의 모든 문제를 정확히 해결했으며, 다단계 대수 및 기하학적 추론에서 강력한 성능을 보여주었습니다.
이 모델은 HMMT 2025에서 99.2%를 달성하여 Gemini 3 Pro의 97.5%를 넘어섰습니다. HMMT 문제들은 복소수 이론, 조합론, 증명 기반 추론을 포함하여 일반적인 고등학교 교육과정을 넘어선 고급 수학 기법을 요구합니다. DeepSeek-V3.2의 거의 완벽한 성능은 이 모델이 학부 수준의 수학을 안정적으로 처리할 수 있음을 시사합니다.
코딩 성능
벤치마크DeepSeek V3.2GPT-5Gemini 3 Pro
LiveCodeBench 83.3% 84.5% 90.7%
SWE Multilingual 70.2% 55.3% —
SWE Verified 73.1% — 76.2%
Codeforces Rating 2701 (Grandmaster) — —
DeepSeek-V3.2는 LiveCodeBench에서 83.3%를 달성했지만 GPT-5의 84.5%와 Gemini 3 Pro의 90.7%에는 뒤졌습니다. LiveCodeBench는 최근 발표된 프로그래밍 문제에 대한 코드 생성을 평가하며, 모델들이 일반적인 벤치마크 문제의 해답을 암기하는 것이 아니라 훈련을 새로운 도전에 적용할 수 있는지 테스트합니다.
DeepSeek-V3.2는 SWE Multilingual에서 70.2%를 기록하여 GPT-5의 55.3%를 크게 앞섰습니다. SWE Multilingual은 여러 프로그래밍 언어에 걸쳐 기존 코드베이스를 수정하는 모델의 능력을 테스트하며, 코드 구조, 언어별 관용구, 리팩토링 패턴에 대한 이해를 요구합니다. GPT-5 대비 DeepSeek의 15퍼센티지 포인트 우위는 코드 이해 및 수정 작업에서의 강력한 성능을 나타냅니다.
DeepSeek-V3.2는 Codeforces 레이팅 2701에 도달하여 Grandmaster 등급에 모델을 위치시켰습니다. 2701 레이팅은 인간 경쟁 프로그래머의 99.8%를 넘어서며 전문가 수준의 코딩 능력을 나타냅니다.
일반 지식 및 종합 평가
DeepSeek-V3.2는 Humanity's Last Exam에서 30.6%를 기록하여 Gemini 3 Pro의 37.7%에 뒤졌습니다. Humanity's Last Exam은 예술사, 클래식 음악, 전문 과학 지식과 같은 분야의 모호한 상식, 창의적 추론, 도메인 전문성을 아우르는 질문들로 현재 AI 능력의 한계를 의도적으로 테스트합니다. 7포인트 격차는 Gemini 3 Pro가 특히 비기술 도메인에서 더 광범위한 사실 지식을 유지하고 있음을 시사합니다.
벤치마크 전반의 성능 패턴은 DeepSeek-V3.2의 포지셔닝을 보여줍니다: 이 모델은 수학과 프로그래밍에서 정밀한 기술적 추론에 뛰어나지만 일반 지식 작업에서는 경쟁력 있지만 지배적이지 않은 성능을 보입니다.
## 경제성: 10-25배 비용 우위
DeepSeek-V3.2의 가격 구조는 경쟁 프론티어 모델 대비 극적인 비용 절감을 제공하며, 워크로드 특성과 캐시 활용도에 따라 우위가 달라집니다.
API 가격 비교
DeepSeek는 캐시에서 서비스할 때 백만 입력 토큰당 $0.028, 캐시 미스 시 백만 입력 토큰당 $0.28, 백만 출력 토큰당 $0.42를 청구합니다. 캐시된 입력 가격은 모델이 최근에 동일한 컨텍스트를 처리한 경우 적용되며, 이를 통해 DeepSeek는 토큰을 처음부터 처리하는 대신 이전 계산을 재사용할 수 있습니다.
OpenAI는 GPT-5에 대해 백만 입력 토큰당 $1.25, 백만 출력 토큰당 $10을 청구하며, 차별화된 캐시 가격은 없습니다.
예시: 10만 입력 + 10만 출력 토큰
| 모델 | 비용 |
|---|---|
| DeepSeek V3.2 (50% 캐시) | $0.070 |
| GPT-5 | $1.125 |
| GPT-5-mini | $0.225 |
| Gemini 3 Pro (추정) | $1.10–1.30 |
| Claude 4.5 Sonnet (추정) | $1.30–1.80 |
DeepSeek는 균형잡힌 읽기-쓰기 워크로드에서 GPT-5 대비 약 16배 비용 절감을 제공합니다.
예시: 캐시 집약적 워크로드 (100만 입력 @ 80% 캐시 + 20만 출력)
| 모델 | 비용 |
|---|---|
| DeepSeek V3.2 | $0.106 |
| GPT-5 | $3.25 |
| GPT-5-mini | $0.65 |
캐시 집약적 워크로드에서 DeepSeek의 31배 우위는 유사한 컨텍스트를 반복적으로 처리하는 애플리케이션에 특히 매력적입니다.
훈련 비용 혁신
DeepSeek는 278만 H800 GPU 시간을 사용하여 550만 달러로 V3를 훈련했으며, 이는 GPT-4와 같은 모델의 1억 달러를 초과하는 것으로 보고된 훈련 비용과 비교됩니다. 비용 계산은 H800 GPU 시간당 $2를 가정하며, 이는 대용량 예약 용량에 대한 일반적인 클라우드 가격을 반영합니다.
550만 달러의 훈련 비용은 모델 개발에 근본적으로 다른 경제성을 창출합니다. 1000만 달러 미만으로 경쟁력 있는 모델을 훈련하는 조직들은 빠르게 반복하고, 새로운 아키텍처를 실험하며, 실존적 재정 위험 없이 가끔씩 실패하는 훈련 실행을 흡수할 수 있습니다. 훈련 실행당 1억 달러 이상을 지출하는 연구소들은 첫 번째 시도에서 벤치마크 점수를 최대화해야 한다는 상당한 압력에 직면하며, 이는 아키텍처 실험을 방해할 수 있습니다.
배포 경제성 함의
10-25배 비용 우위는 대용량 애플리케이션의 배포 경제성을 변화시킵니다:
예시: 월 100억 토큰을 처리하는 고객 서비스 애플리케이션
| 모델 | 월 비용 | 연간 차이 |
|---|---|---|
| DeepSeek V3.2 | $2,800 | — |
| GPT-5 | $12,500–15,000 | $116,000–146,000 |
이 경제성은 또한 GPT-5 가격에서는 비경제적인 완전히 새로운 애플리케이션 카테고리를 가능하게 합니다: 대규모 저장소에서 지속적으로 실행되는 백그라운드 코드 분석, 지식 베이스를 위한 사전 예방적 문서 요약, 또는 추측적 쿼리 응답이 DeepSeek의 가격 수준에서 실현 가능해집니다. 비용 구조는 AI를 명시적 사용자 호출이 필요한 프리미엄 기능에서 백그라운드에서 지속적으로 실행되는 주변 기능으로 전환시킵니다.
## 오픈소스의 시사점
DeepSeek은 V3.2를 MIT 라이선스 하에 출시하여 모델 가중치에 대한 무제한 접근을 제공하고 상업적 사용, 수정 및 재배포를 허용했습니다. 이러한 라이선싱 결정은 충분한 추론 인프라를 갖춘 모든 조직에 최첨단급 AI 성능을 제공하여 AI 업계의 경쟁 역학을 근본적으로 바꾸고 있습니다.
라이선스 조건 및 가용성
MIT 라이선스는 최소한의 제약만 부과합니다: 사용자는 저작권 고지 및 면책 조항을 보존해야 하지만, 상업적 배포, 독점적 수정 또는 재배포에 대한 제한은 없습니다. 조직들은 Hugging Face에서 V3.2의 6,710억 매개변수 모델 가중치를 다운로드하고 지속적인 라이선스 수수료, 수익 공유 또는 사용 제한 없이 내부 인프라에 배포할 수 있습니다.
이 라이선스는 V3.2를 독점 데이터셋으로 파인튜닝하여 법률 분석, 의료 추론 또는 금융 모델링과 같은 도메인을 위한 전문화된 변형을 만드는 것을 허용합니다. 조직들은 파인튜닝된 가중치를 공개적으로 공개하기보다는 비공개로 유지할 수 있어, 도메인 적응을 통한 경쟁 차별화가 가능합니다.
최첨단 AI의 민주화
DeepSeek의 출시는 이전에 최첨단 AI 역량에서 배제되었던 조직들에게 GPT-5 수준의 경쟁력 있는 성능을 접근 가능하게 만듭니다:
-
스타트업: 자금이 충분한 스타트업은 월 약 $20,000–50,000로 임대 GPU 인프라에 V3.2를 배포할 수 있습니다
-
학술 연구자들: 대부분의 연구비 예산을 초과하는 토큰당 요금을 지불하는 대신 일회성 인프라 비용으로 V3.2를 로컬에서 실행할 수 있습니다
-
규제 산업: 의료 제공업체, 금융 기관 및 정부 기관은 완전히 온프레미스로 배포하여 외부 API로 데이터를 보내지 않고 민감한 정보를 처리할 수 있습니다
폐쇄형 모델 경제에 대한 압력
DeepSeek의 경쟁력 있는 오픈 출시는 폐쇄형 모델 제공업체들이 프리미엄 가격을 정당화하도록 강요합니다. OpenAI는 비교 가능한 성능에 대해 DeepSeek보다 10-25배 더 많이 청구하므로, 고객들이 순수 성능 지표 이상의 요소들을 가치 있게 여기도록 해야 합니다. 잠재적 정당화 요소로는 우수한 고객 지원, 더 나은 통합 도구, 더 성숙한 생태계 또는 더 강력한 안전 가드레일이 있지만, 비용 차이를 극복하려면 상당한 질적 장점이 필요합니다.
더 많은 조직이 오픈 모델 배포 및 운영에 대한 전문성을 얻으면서 가격 압박이 심화됩니다. 현재 인프라의 복잡성은 폐쇄형 API에 대한 해자 역할을 합니다. 많은 팀이 GPU 클러스터 관리, 모델 양자화 처리 및 추론 문제 디버깅을 피하기 위해 프리미엄을 지불하는 것을 선호합니다. 그러나 도구의 개선과 오픈 모델 배포에 대한 엔지니어링 친숙도 증가가 API 전용 서비스의 운영상 장점을 점진적으로 약화시키고 있습니다.
## 프로덕션 배포 장점
DeepSeek-V3.2의 기술적 특성과 오픈 가용성은 순수한 비용 절감을 넘어 프로덕션 배포에 여러 장점을 제공합니다.
긴 컨텍스트 효율성
DeepSeek-V3.2는 128,000토큰 컨텍스트를 지원하며 DeepSeek Sparse Attention을 통해 긴 입력을 효율적으로 처리합니다. 스파스 어텐션 메커니즘은 덴스 어텐션 대비 긴 컨텍스트에서 계산 비용을 약 50% 줄여, 고볼륨 애플리케이션에서도 128K토큰 처리를 경제적으로 실현 가능하게 만듭니다.
확장된 컨텍스트 용량은 더 짧은 윈도우를 제공하는 모델로는 비실용적인 애플리케이션을 가능하게 합니다:
-
코드 이해: 전체 레포지토리(중간 규모 프로젝트의 경우 종종 50,000–100,000토큰)가 단일 V3.2 컨텍스트에 들어맞음
-
문서 분석: 청킹 전략 없이 여러 전문 논문이나 보고서 처리
-
멀티턴 대화: 초기 대화 내용을 잘라내지 않고 완전한 이력 보존
비용 효과적인 확장
DeepSeek의 GPT-5 대비 10–25배 가격 우위는 애플리케이션이 비례적인 비용 증가 없이 더 큰 사용자 기반이나 사용자당 더 높은 볼륨으로 확장할 수 있게 합니다. 애플리케이션은 현재 가격으로 사용자당 하루 1,000회의 GPT-5 쿼리를 감당할 수 있지만, DeepSeek를 사용하면 동등한 비용으로 사용자당 하루 10,000–25,000회의 쿼리를 지원할 수 있습니다.
비용 효율성은 특히 에이전틱 워크플로우에 도움이 되는데, 여기서 언어 모델은 단일 사용자 요청에 대해 여러 도구 호출, 자가 비평, 반복적 개선을 실행합니다. 에이전트는 연구, 계획, 실행, 검증을 포함하여 복잡한 쿼리를 처리하는 데 100,000–500,000토큰을 소비할 수 있습니다. DeepSeek의 가격 정책은 정교한 에이전틱 시스템을 주류 애플리케이션에서 경제적으로 실현 가능하게 만듭니다.
셀프 호스팅 유연성
조직은 V3.2를 내부 인프라에 배포하여 데이터 처리, 모델 동작, 운영 비용에 대한 완전한 제어권을 얻을 수 있습니다. 셀프 호스팅은 서비스를 중단시킬 수 있는 API 공급자의 신뢰성, 속도 제한, 정책 변경에 대한 우려를 없앱니다.
셀프 호스팅 배포는 API 전용 서비스로는 불가능한 맞춤 수정을 가능하게 합니다:
-
독점 데이터셋으로 파인튜닝
-
내부 표준에 맞게 출력 포맷 조정
-
전문화된 컨텍스트에 맞게 안전 필터 수정
-
내부 시스템과의 긴밀한 통합
V3.2 배포를 위한 하드웨어 요구사항은 처리량 필요량과 양자화 허용 수준에 따라 달라집니다:
| 정밀도 | 메모리 요구량 | GPU 구성 |
|---|---|---|
| Full FP16 | ~1.3TB | 8–16 H100/A100 (80GB) |
| 8비트 양자화 | ~670GB | 4–8 H100/A100 (80GB) |
| 4비트 양자화 | ~335GB | 2–4 H100/A100 (80GB) |
| ## ## 장점 vs. 한계 | ||
| DeepSeek-V3.2의 성능 프로필을 이해하면 조직이 자신의 사용 사례에 적합한 모델을 선택하는 데 도움이 됩니다. |
DeepSeek이 뛰어난 분야
-
수학적 추론: 96.0% AIME, 99.2% HMMT, IMO/CMO/Putnam에서 금메달 획득으로 최고 수준의 역량 입증
-
코드 분석 및 리팩토링: 70.2% SWE Multilingual로 GPT-5의 55.3%를 크게 상회
-
경쟁 프로그래밍: 2701 Codeforces 레이팅 (그랜드마스터 티어, 인간의 99.8% 초과)
-
비용 효율성: 10-25배 가격 우위로 이전에는 실용적이지 않았던 사용 사례 가능
-
긴 컨텍스트: 128K 입력에 대해 sparse attention을 통해 50% 비용 절감
-
오픈 가용성: MIT 라이선스로 커스터마이징, 셀프 호스팅 및 완전한 데이터 제어 가능
현재 한계
-
일반 지식 폭: Humanity's Last Exam에서 30.6% vs. Gemini의 37.7%
-
새로운 코드 생성: Gemini 3 Pro의 90.7% LiveCodeBench가 V3.2의 83.3%를 초과
-
생태계 성숙도: GPT-4/5는 광범위한 도구, 프레임워크 및 서드파티 통합 보유
-
추론 최적화: 더 성숙한 대안들이 초기에 더 나은 처리량을 달성할 수 있음
-
셀프 호스팅 복잡성: GPU 인프라 전문지식과 운영 프로세스 필요
사용 사례 권장사항
다음의 경우 DeepSeek-V3.2 우선 고려:
-
높은 정확도가 요구되는 수학적 추론 애플리케이션
-
대규모 코드베이스에서의 코드 분석, 리팩토링 및 이해
-
비용이 아키텍처 결정을 좌우하는 대용량 API 배포
-
높은 캐시 적중률을 가진 배치 처리 워크로드
-
온프레미스 배포를 통한 데이터 주권이 필요한 애플리케이션
-
과도한 API 비용 없이 광범위한 모델 액세스가 필요한 연구 프로젝트
다음의 경우 대안 고려:
-
다양한 도메인에 걸친 광범위한 일반 지식이 애플리케이션 품질을 좌우하는 경우
-
생태계 성숙도와 광범위한 도구 통합이 프리미엄 가격을 정당화하는 경우
-
새로운 프로그래밍 과제에 대한 최대 코드 생성 품질이 비용보다 중요한 경우
-
운영 단순성과 벤더 지원이 비용 고려사항을 능가하는 경우
-
애플리케이션에 특화된 안전 속성이나 콘텐츠 필터링이 필요한 경우
## 경쟁 환경
DeepSeek-V3.2의 출시는 폐쇄적이고 프리미엄인 서비스에 대한 개방적이고 저비용인 대안을 제공함으로써 최첨단 AI 시장의 경쟁을 심화시킵니다.
DeepSeek vs. GPT-5
차원DeepSeek V3.2GPT-5
AIME 2025 96.0% 94.6%
LiveCodeBench 83.3% 84.5%
비용 10–25배 저렴 프리미엄
가용성 오픈 웨이트, MIT API 전용
생태계 성장 중 성숙함
조직은 생태계 통합, 벤더 지원, 운영 단순성이 10–25배 높은 비용을 정당화할 때 GPT-5를 선택해야 합니다. 조직은 비용 효율성, 커스터마이징 유연성, 또는 데이터 주권 요구사항이 GPT-5의 생태계 장점을 능가할 때 DeepSeek-V3.2를 선택해야 합니다.
DeepSeek vs. Gemini 3 Pro
차원DeepSeek V3.2Gemini 3 Pro
AIME 2025 96.0% 95.0%
HMMT 2025 99.2% 97.5%
LiveCodeBench 83.3% 90.7%
Humanity's Last Exam 30.6% 37.7%
비용 10–20배 저렴 프리미엄
수학적 정확성, 기술적 추론, 또는 코드 이해를 강조하는 애플리케이션은 DeepSeek의 강점과 일치하는 반면, 광범위한 일반 지식이나 최첨단 코드 생성이 필요한 애플리케이션은 Gemini로 더 나은 결과를 얻을 수 있습니다.
DeepSeek vs. Claude 4
차원DeepSeek V3.2Claude 4.5 Sonnet
컨텍스트 윈도우 128K 200K
추론 비슷함 비슷함
비용 13–18배 저렴 프리미엄
대화 품질 좋음 도움이 되도록 최적화됨
출력 품질과 자연스러운 대화 흐름을 우선시하는 조직은 도움이 되고, 무해하며, 정직한 상호작용을 위한 Claude의 세심한 훈련을 선호할 수 있습니다. 기술적 정확성과 비용 효율성을 우선시하는 조직은 DeepSeek이 극적으로 낮은 가격에 비슷한 추론 능력을 제공한다는 것을 알게 될 것입니다.
시장 포지셔닝 요약
DeepSeek-V3.2는 최첨단 AI 시장에서 가치 지향적 포지션을 확립합니다: 폐쇄형 대안 대비 10–25배 저렴한 비용으로 경쟁력 있는 성능을 제공합니다. 이 포지셔닝은 폐쇄형 공급업체들이 생태계 장점, 지원 품질, 또는 의미 있는 성능 격차를 통해 프리미엄 가격을 정당화하도록 강요함으로써 전체 시장에 압력을 가하고 있습니다.
시장은 품질과 사용 편의성으로 경쟁하는 폐쇄형 프리미엄 서비스와 비용과 유연성으로 경쟁하는 오픈 대안으로 더 큰 세분화를 향해 나아가고 있는 것으로 보입니다.
## 인프라 고려사항
DeepSeek-V3.2를 효과적으로 배포하려면 하드웨어 요구사항, 운영 방식, 통합 패턴을 신중히 고려해야 합니다.
배포 옵션
DeepSeek API는 가장 간단한 배포 경로를 제공합니다. 조직은 인프라 관리 없이 표준 REST API를 통해 V3.2를 통합할 수 있습니다. GPU 전문 지식이 부족한 팀이나 사용량이 적은 조직의 경우, 공식 API가 최적의 경제성과 운영 단순성을 제공하는 경우가 많습니다.
셀프 호스팅 클라우드 배포는 제어권과 관리형 인프라 간의 균형을 맞춥니다. 조직은 AWS, Google Cloud, 또는 Azure의 클라우드 GPU 인스턴스에 V3.2를 배포할 수 있습니다. 클라우드 배포는 일반적으로 월 $20,000–50,000의 비용이 들며, 월 1,000억–3,000억 토큰에서 DeepSeek API와 비용 경쟁력을 갖게 됩니다.
온프레미스 배포는 최대한의 제어권과 데이터 주권을 제공합니다. 상당한 초기 자본 투자($300,000–800,000의 프로덕션 준비 GPU 클러스터 비용)와 지속적인 운영 비용이 필요합니다. 기존 GPU 인프라가 있거나 규제 요구사항이 있거나 사용량이 매우 많은 조직에게 경제적으로 타당합니다.
하이브리드 접근법은 여러 전략을 결합하여—일반 트래픽은 API를 사용하고 민감한 데이터는 온프레미스 추론을 실행합니다.
통합 패턴
-
API 우선 통합: 백엔드 개발자에게 친숙한 요청-응답 패턴을 사용하는 표준 REST API
-
민감한 데이터를 위한 로컬 배포: 외부 API 호출 없이 기밀 정보 처리
-
배치 처리 최적화: 캐시 적중률을 최대화하도록 워크로드 구조화
-
캐시 활용 전략: 일반적으로 사용되는 컨텍스트를 식별하고 캐싱을 활용하도록 요청 구조화 (비용을 50–70% 절감 가능)
운영 전문성
프로덕션 규모의 GPU 인프라 배포는 고성능 컴퓨팅, 모델 최적화, 추론 시스템 디버깅에 대한 전문 지식이 필요합니다. 조직은 드라이버 업데이트, 열 관리, 하드웨어 장애, 모델 양자화, 배치 처리 최적화, 성능 모니터링을 처리해야 합니다.
대규모 배포를 고려하는 조직의 경우, 전문 인프라 제공업체와의 파트너십을 통해 셀프 호스팅의 비용 이점을 확보하면서 운영 복잡성을 처리할 수 있습니다.
## 전망
DeepSeek-V3.2의 출시는 AI 업계 진화에 있어 중요한 순간이지만, 기술은 계속해서 빠르게 발전하고 있습니다.
모델 진화
DeepSeek은 계속해서 V3.2를 개선하고 향후 버전을 개발하고 있습니다. V3가 보여준 훈련 비용의 돌파구(경쟁사들의 1억 달러 이상 대비 550만 달러)는 지속적인 효율성 개선에 상당한 여지가 있음을 시사합니다. 각 효율성 향상은 이전 개선사항과 복합적으로 작용하여, DeepSeek이 폐쇄형 경쟁사들 대비 비용 우위를 더욱 넓힐 가능성이 있습니다.
커뮤니티 파인튜닝을 통해 의료, 법률, 과학 또는 코드 저장소와 같은 특정 도메인에 최적화된 전문 V3.2 변형 모델들이 제작될 것으로 보이며, 이는 범용 제공업체에서는 제공하지 않는 전문가 모델을 생성할 것입니다.
가격에 대한 업계 영향
DeepSeek의 10-25배 가격 우위는 폐쇄형 제공업체들이 프리미엄 포지셔닝을 정당화하거나 가격을 인하하도록 압박합니다. 폐쇄형 제공업체들은 다음과 같은 방법을 택할 수 있습니다:
-
Premium 대 저비용 계층으로 시장을 더욱 명확하게 세분화
-
생태계, 안전성, 지원 등 정성적 차별화 요소 강조
-
성능 격차를 유지하기 위한 역량 개발 가속화
가격 압박은 불가피해 보입니다. 10-25배 낮은 비용의 신뢰할 수 있는 오픈 대안의 존재는 약간의 품질 개선에 대해 프리미엄 가격을 지불하려는 고객 의향을 근본적으로 변화시킵니다.
오픈소스 발전 가속화
DeepSeek의 최첨단급 오픈 릴리스는 오픈 개발이 역량과 효율성 모두에서 폐쇄형 연구와 경쟁할 수 있음을 보여줍니다. 이러한 검증은 오픈 AI 연구에 대한 추가 투자를 장려합니다.
MIT 라이선스는 DeepSeek의 내부 개발 속도를 넘어서는 진전을 가속화하는 커뮤니티 기여를 가능하게 합니다. 최적화된 추론 엔진, 양자화 기술, 파인튜닝 프레임워크, 배포 도구들이 분산된 커뮤니티 노력을 통해 등장합니다.
오픈 최첨단 모델은 폐쇄형 대안으로는 불가능한 안전성 연구도 가능하게 합니다. 과학자들은 API 접근에 의존하지 않고 내부 표현을 연구하고, 안전성 속성을 철저히 테스트하며, 편향을 체계적으로 측정하고, 실패 모드를 분석할 수 있습니다.
AI 인프라에 대한 시사점
DeepSeek의 효율성 돌파구는 AI 배포를 위한 인프라 계획을 변화시킵니다. 이전에 최첨단 AI가 독점적으로 API 접근이 필요하다고 가정했던 조직들이 이제 실행 가능한 자체 호스팅 옵션에 직면하게 되었습니다.
하드웨어 제조업체들은 추론 최적화 가속기에 대한 수요 증가에 직면하고 있습니다. 더 많은 조직이 자체 호스팅 전략을 추구함에 따라 프로덕션 AI 인프라를 배포하는 데 필요한 전문성이 점점 더 가치 있게 되고 있습니다.
## 결론
DeepSeek-V3.2는 아키텍처 혁신과 훈련 효율성 혁신의 결합으로 폐쇄형 대안 대비 10-25배 저렴한 비용으로 최첨단급 AI 성능을 제공합니다. 이 모델은 수학적 추론 벤치마크에서 GPT-5와 Gemini 3 Pro와 동등하거나 이를 능가하는 성능을 보이면서도 API 가격을 한 자릿수 단위로 절감하며, MIT 라이선스 하에 완전한 오픈 가용성을 유지합니다.
주요 기술적 성과:
-
효율적인 긴 컨텍스트 처리를 위한 DeepSeek Sparse Attention (50% 비용 절감)
-
256개의 라우팅 전문가를 갖춘 개선된 Mixture-of-Experts 아키텍처 (총 671B, 토큰당 37B 활성)
-
순수하게 생성 품질을 최적화하는 보조 손실 없는 부하 분산
-
FP8 혼합 정밀도와 새로운 병렬화 기법을 사용하여 550만 달러로 훈련된 V3
성능 하이라이트:
-
96.0% AIME 2025 (GPT-5 High의 94.6%를 초과)
-
99.2% HMMT 2025 (Gemini 3 Pro의 97.5%를 초과)
-
IMO, CMO, Putnam에서 금메달
-
2701 Codeforces Grandmaster 등급
-
70.2% SWE Multilingual (GPT-5의 55.3%를 15포인트 초과)
오픈 MIT 라이선스는 자체 호스팅 배포, 파인튜닝, 완전한 데이터 제어를 가능하게 하며, 이는 폐쇄형 대안으로는 불가능한 기능들입니다. 조직들은 데이터 주권 요구사항을 충족하기 위해 내부 인프라에 V3.2를 배포하거나, 전문 도메인을 위해 모델을 수정하거나, 모델 내부에 대한 완전한 액세스로 안전성 연구를 수행할 수 있습니다.
폐쇄형 공급업체들은 생태계 우위, 우수한 지원, 또는 의미 있는 성능 격차를 통해 프리미엄 가격을 정당화해야 하는 압박에 직면하고 있으며, 필요한 차별화 요소들은 10-25배 비용 불리함을 극복해야 합니다. DeepSeek-V3.2는 오픈 개발이 능력과 효율성 모두에서 폐쇄형 연구와 경쟁할 수 있음을 입증하며, 오픈 최첨단 AI의 실행 가능성을 검증하고 투명한 모델 개발에 대한 투자를 가속화할 것으로 보입니다.
References
DeepSeek 기술 문서
DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, December 2024.https://arxiv.org/abs/2412.19437
DeepSeek-AI. "DeepSeek-V3.2 Technical Report and Model Release." DeepSeek Research, 2025.https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek-V3.2 Model Weights." Hugging Face Model Hub, 2025.https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek Platform and API Documentation." Accessed December 1, 2025.https://platform.deepseek.com/docs
DeepSeek-AI. "DeepSeek-V3.2-Exp and V3.2-Speciale Release Announcement." DeepSeek Blog, September 2025.https://www.deepseek.com/news
API 가격 및 문서
DeepSeek. "API 가격 문서." 2025년 12월 1일 접속.https://platform.deepseek.com/pricing
OpenAI. "API 가격." 2025년 12월 1일 접속.https://openai.com/api/pricing
OpenAI. "OpenAI 서비스 약관." 2025년 12월 1일 접속.https://openai.com/policies/terms-of-use
Google Cloud. "Vertex AI 가격: Gemini 모델." 2025년 12월 1일 접속.https://cloud.google.com/vertex-ai/generative-ai/pricing
Anthropic. "API 가격." 2025년 12월 1일 접속.https://www.anthropic.com/pricing
Anthropic. "Claude API 문서." 2025년 12월 1일 접속.https://docs.anthropic.com/en/api
벤치마크 기관 및 경쟁 결과
Mathematical Association of America. "American Invitational Mathematics Examination (AIME)." 2025년 12월 1일 접속.https://maa.org/math-competitions/invitational-competitions/aime
Harvard-MIT Mathematics Tournament. "About HMMT." 2025년 12월 1일 접속.https://www.hmmt.org
International Mathematical Olympiad. "About the IMO." 2025년 12월 1일 접속.https://www.imo-official.org/year_info.aspx?year=2025
Chinese Mathematical Olympiad Committee. "Chinese Mathematical Olympiad (CMO)." China Mathematical Society, 2025.
Mathematical Association of America. "William Lowell Putnam Mathematical Competition." 2025년 12월 1일 접속.https://maa.org/math-competitions/putnam-competition
Codeforces. "Competitive Programming Platform and Rating System." 2025년 12월 1일 접속.https://codeforces.com/ratings
"LiveCodeBench: Holistic and Contamination-Free Evaluation of Large Language Models for Code." 2025년 12월 1일 접속.https://livecodebench.github.io/leaderboard.html
Jimenez, Carlos E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" 2025년 12월 1일 접속.https://www.swebench.com
Center for AI Safety. "Humanity's Last Exam: A Controversial and Adversarial Benchmark." Research benchmark project, 2025.
아키텍처 및 훈련 참고문헌
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." Advances in Neural Information Processing Systems 30 (2017): 5998–6008.https://arxiv.org/abs/1706.03762
Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23, no. 120 (2022): 1–39.https://jmlr.org/papers/v23/21-0998.html
Zoph, Barret, et al. "Designing Effective Sparse Expert Models." arXiv:2202.08906, February 2022.https://arxiv.org/abs/2202.08906
GPU 인프라 및 하드웨어
NVIDIA. "NVIDIA H100 Tensor Core GPU Architecture." NVIDIA Data Center Documentation, 2023.https://www.nvidia.com/en-us/data-center/h100
NVIDIA. "H100 Tensor Core GPU Datasheet." Accessed December 1, 2025.https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Amazon Web Services. "Amazon EC2 P5 Instances (H100)." Accessed December 1, 2025.https://aws.amazon.com/ec2/instance-types/p5
Google Cloud. "GPU Pricing Calculator." Accessed December 1, 2025.https://cloud.google.com/products/calculator
Microsoft Azure. "GPU-optimized Virtual Machine Sizes." Accessed December 1, 2025.https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux
오픈 소스 라이선싱
Open Source Initiative. "The MIT License." Accessed December 1, 2025.https://opensource.org/license/mit
모델 비교 및 산업 분석
OpenAI. "GPT-5 소개: 우리의 가장 뛰어난 모델." OpenAI Research Blog, 2025.https://openai.com/research/gpt-5
OpenAI. "GPT-5 시스템 카드: 안전성과 성능." 2025년 12월 1일 접근.https://openai.com/research/gpt-5-system-card
Google DeepMind. "Gemini 3: 우리의 가장 뛰어난 AI 모델 패밀리." Google AI Blog, 2025.https://blog.google/technology/ai/google-gemini-ai-update
Google DeepMind. "Gemini 3 기술 보고서." 2025년 12월 1일 접근.https://deepmind.google/technologies/gemini
Anthropic. "Claude 4.5 Sonnet: 향상된 지능과 확장된 컨텍스트." Anthropic News, 2025.https://www.anthropic.com/news/claude-4-5-sonnet
Anthropic. "Claude 모델 카드: Claude 4.5 Sonnet." 2025년 12월 1일 접근.https://www.anthropic.com/claude
Meta AI. "Llama 3 모델 군집." arXiv:2407.21783, 2024년 7월.https://arxiv.org/abs/2407.21783
산업 훈련 비용 분석
Vance, Alyssa, and Sam Manning. "Estimating Training Costs for Frontier Language Models." AI Economics Research Group, 2024. 공개된 GPU 시간 사용량, 클라우드 가격 데이터, 벤더 발표를 기반으로 한 산업 분석.
"Large Language Model Training Costs Database." Epoch AI Research, 2024. 2025년 12월 1일 접속.https://epochai.org/blog/training-compute-of-frontier-ai-models-grows-by-4-5x-per-year
출처에 대한 참고사항
성능 벤치마크는 MAA (AIME), HMMT Organization, International Mathematical Olympiad, Codeforces, 그리고 학술 연구 벤치마크(LiveCodeBench, SWE-bench)에서 실시한 표준화된 테스트의 공식 모델 평가를 반영합니다. API 가격은 2025년 12월 기준 벤더 문서의 공개 요금을 반영합니다. 훈련 비용 추정치(DeepSeek V3의 경우 550만 달러 vs. 경쟁하는 프런티어 모델의 1억 달러 이상)는 DeepSeek의 공개된 GPU 시간 사용량(2.788M H800 시간)과 클라우드 GPU 가격을 사용한 산업 분석가 계산을 기반으로 합니다. 기술 아키텍처 사양은 arXiv 기술 보고서와 공식 모델 문서에서 발췌했습니다. 비용 계산 예시는 API 제공업체 가이드라인과 캐시 동작 분석에 문서화된 일반적인 애플리케이션 워크로드 패턴을 가정합니다.