DeepSeek V3.2がIMO金メダルレベルの推論を達成:中国AIがフロンティア性能に匹敵
2025年12月11日
2025年12月アップデート: DeepSeekは2025年12月1日にV3.2とV3.2-Specialeをリリースしました。Speciale版はIMO 2025ベンチマーク問題で35/42を獲得し、70%低い推論コストでGemini 3 Proの推論能力に匹敵しました。
DeepSeekは2025年12月1日に2つのモデルをリリースしました:DeepSeek-V3.2とDeepSeek-V3.2-Speciale。1 Speciale版はIMO 2025ベンチマーク問題で42点中35点を獲得し、金メダル相当のステータスを獲得し、世界トップのAIシステムに匹敵する数学的推論能力を実証しました。2
米国の輸出規制はDeepSeekの最先端NVIDIA GPUへのアクセスを制限しています。これらの制約にもかかわらず、同社は西洋の代替品と競争するか、劇的に低いコストで上回るモデルを生産し続けています。3 このリリースは中国の効率第一のAI開発アプローチを検証しました。
技術仕様
両方のV3.2モデルは、MITライセンスの下でオープンウェイトを持つ6850億の総パラメータを特徴としています。4 完全なモデルウェイトには約690GBのストレージが必要です。モデルの実行には以下のいずれかが必要です:
- マルチGPUデプロイメント:テンソル並列処理を使用した8x H100 80GB GPU
- 量子化推論:INT4量子化により要件を4x A100 80GBに削減
- クラウドAPI:DeepSeekは$0.70/Mトークンでホステッド推論を提供
モデルは128,000トークンのコンテキストウィンドウをサポートし、長い文書、コードベース、研究論文を単一のプロンプトで分析できます。
V3.2-Specialeはツール使用内で統合推論を導入しています。モデルはツール呼び出しの「思考」モードと「非思考」モードの両方をサポートし、アクションを実行する前にマルチステップのエージェンティックワークフローを通じて推論できます。5 例えば、データベースをクエリする際、Specialeは複数のAPI呼び出しを必要とせずに、単一の推論チェーン内でクエリ最適化と結果解釈について推論できます。
トレーニングプロセスは、1,800以上の環境と85,000以上の複雑な指示をカバーする合成データ生成パイプラインを使用しました。6 合成データは高価な人間のアノテーションへの依存を減らしながら、有機的に収集することが困難なシナリオでのトレーニングを可能にします。
ベンチマーク性能
DeepSeek-V3.2-Specialeは複数のコンペティションベンチマークでゴールドレベルの結果を達成しました:7
| ベンチマーク | スコア | コンテキスト |
|---|---|---|
| IMO 2025問題 | 35/42点 | 金メダル閾値 |
| 中国数学オリンピック | ゴールドレベル | トップパフォーマーカテゴリ |
| IOI 2025問題 | 492/600点 | 金、10位相当 |
| Terminal Bench 2.0 | 46.4% | GPT-5-High(35.2%)を上回る |
Terminal Bench 2.0の結果は、マルチファイルリファクタリング、デバッグ、テスト生成を含む複雑なコーディングワークフローを測定しています。8 DeepSeekは実用的なソフトウェアエンジニアリングタスクでGPT-5-Highを11パーセントポイント上回りました。
注:これらのスコアは公式コンペティションのスタイルに沿ったベンチマーク問題を反映しており、2025年の実際のコンペティションイベントでの性能ではありません。
コスト経済学
DeepSeek V3.2の価格は以前のV3.1-Terminusモデルから70%の削減を表しています:9
| モデル | 入力トークン | 出力トークン |
|---|---|---|
| DeepSeek V3.2 | $0.14/M | $0.70/M |
| V3.1-Terminus(以前) | $0.48/M | $2.40/M |
比較のため、現在の西洋プロバイダーの価格:10
| プロバイダー | 入力 | 出力 |
|---|---|---|
| Claude Sonnet 4 | $3.00/M | $15.00/M |
| GPT-4.5 | $2.50/M | $10.00/M |
| Gemini 3 Pro | $1.25/M | $5.00/M |
| DeepSeek V3.2 | $0.14/M | $0.70/M |
月間100億の出力トークンを処理する組織は、DeepSeekで年間約700万ドルを費やすのに対し、西洋の代替品では5000万〜1億5000万ドルを費やすことになります。11 コード生成やロングフォームコンテンツなどの出力集約型ワークロードではコストギャップがさらに拡大します。
インフラストラクチャへの影響
DeepSeekはH800 GPU(メモリ帯域幅が削減された中国固有のバリアント、H100の3.35TB/sに対して2.0TB/s)でV3.2をトレーニングしました。12 この成果は、ソフトウェア最適化がハードウェアの制限を補償できることを実証しています。
主要な効率化技術:13
Mixture-of-Experts(MoE)アーキテクチャ: 6850億の総パラメータにもかかわらず、推論リクエストごとに370億のパラメータのみがアクティブ化されます。MoEは同等の密なモデルと比較して計算を約30%削減します。
Multi-head Latent Attention(MLA): キー・バリューキャッシュ要件を圧縮し、帯域幅制限のあるH800ハードウェアでのメモリ帯域幅ボトルネックを削減します。
FP8混合精度トレーニング: メモリ要件を削減し、HopperアーキテクチャGPUでのトレーニングを加速します。
AIインフラストラクチャを評価する組織は、DeepSeekの成功がフロンティア能力のための計算要件についての前提に挑戦していることを認識すべきです。多くのワークロードでは、ソフトウェア最適化が生のGPU蓄積よりも優れたROIを提供する可能性があります。14
エンタープライズデプロイメント
AWS、Azure、Google CloudはすべてDeepSeekモデルのデプロイメントを提供しており、エンタープライズグレードの信頼性を検証しています。15 ハイパースケーラーでの利用可能性は、中国発モデルの採用を制限する可能性のあるデプロイメントの摩擦を取り除きます。
DeepSeekのデプロイメントを検討する組織は以下を評価すべきです:
- データ主権:モデルウェイトはオープンですが、API使用はDeepSeekインフラストラクチャを通じてデータをルーティングします
- コンプライアンス要件:一部の規制産業は中国モデルの使用を制限する可能性があります
- 性能特性:DeepSeekは推論とコーディングに優れていますが、クリエイティブまたはニュアンスのあるタスクでは性能が劣る可能性があります
競争環境
V3.2のリリースは、トランプ政権がH200輸出規制の緩和を発表する1週間前に行われました。16 このタイミングは政策のパラドックスを浮き彫りにしています:中国のAI開発を遅らせることを目的とした輸出規制は、効率改善を強制することで革新を加速させた可能性があります。
中国のオープンソースモデルは、2024年後半のグローバル使用量の1.2%から2025年の約30%に成長しました。17 この変化は、規制障壁が競争優位を保護すると想定していた米国企業にとっての技術的成果と市場の混乱の両方を表しています。
西洋のAI企業は、DeepSeekの効率に匹敵するか、優れた能力を通じてプレミアム価格を正当化するプレッシャーに直面しています。2025年11月のリリースクラスター(GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、Grok 4.1)は継続的なフロンティアの進歩を示しましたが、大幅に高いコストポイントでした。18
Claude Opus 4.5はSWE-benchの72.5%の性能でコーディングベンチマークをリードし、Gemini 3 Proは1501という過去最高のLMArena Eloスコアを達成しました。19 DeepSeekが汎用ギャップを埋める中でも、西洋モデルは特定の能力で優位性を維持しています。
主要なポイント
MLエンジニア向け: - V3.2-SpecialeはIMOゴールドレベルを達成(ベンチマーク問題で35/42) - 6850億パラメータ、128Kコンテキスト、MITライセンスのオープンウェイト - 8x H100 80GBまたは4x A100 80GBでの量子化デプロイメントが必要
インフラストラクチャプランナー向け: - 中国モデルは輸出制限ハードウェア(H800)でフロンティア能力を実証 - ソフトウェア最適化(MoE、MLA、FP8)がハードウェアの制約を補償 - ハイブリッドデプロイメントを検討:最大能力には西洋モデル、コスト最適化にはDeepSeek
戦略計画向け: - 中国のオープンソースモデルは2025年にグローバル使用量の30%に到達 - ハイパースケーラーでの利用可能性(AWS、Azure、GCP)がエンタープライズデプロイメントを検証 - 輸出規制は中国のAI進歩を防止するのではなく加速させた可能性
参考文献
AIインフラストラクチャデプロイメントサポートについては、Introlにお問い合わせください。
-
DeepSeek API Docs. "DeepSeek-V3.2 Release Notes." 2025年12月1日。 ↩
-
UNU Campus Computing Centre. "Inside DeepSeek End-of-Year AI Breakthrough." 2025年12月。 ↩
-
Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 2025年12月1日。 ↩
-
Simon Willison. "DeepSeek-V3.2 Technical Analysis." 2025年12月1日。 ↩
-
DeepSeek API Docs. "V3.2 Tool Use with Thinking Mode." 2025年12月。 ↩
-
Semiconductor Engineering. "DeepSeek New AI Models: V3.2 and V3.2-Speciale." 2025年12月。 ↩
-
WinBuzzer. "New DeepSeek V3.2 Speciale Model Claims Reasoning Parity with Gemini 3 Pro." 2025年12月1日。 ↩
-
VentureBeat. "DeepSeek drops two AI models that rival GPT-5 on coding benchmarks." 2025年12月。 ↩
-
DeepSeek API Docs. "Pricing: V3.2 vs V3.1-Terminus." 2025年12月。 ↩
-
Artificial Analysis. "LLM Pricing Comparison December 2025." 2025年12月。 ↩
-
Sebastian Raschka. "A Technical Tour of the DeepSeek Models from V3 to V3.2." 2025年12月。 ↩
-
DEV Community. "DeepSeek-V3.2 Complete Technical Analysis." 2025年12月。 ↩
-
DeepSeek. "V3.2 Technical Report: Architecture and Training." 2025年12月。 ↩
-
CSIS. "Chinese AI Efficiency and Infrastructure Economics." 2025年12月。 ↩
-
AWS, Azure, Google Cloud. "DeepSeek Model Availability." 2025年12月。 ↩
-
Semafor. "Trump allows H200 exports to China with 25% surcharge." 2025年12月8日。 ↩
-
Stanford HAI. "2025 AI Index Report." 2025年。 ↩
-
Shakudo. "Top 9 Large Language Models as of December 2025." 2025年12月。 ↩
-
OverChat. "Best AI Models 2025: Claude, Gemini, GPT Compared." 2025年12月。 ↩