TL;DR
DeepSeekのV4モデルが2026年2月中旬に1兆パラメータ、100万トークンコンテキストウィンドウで発表予定。3つのアーキテクチャ革新—Manifold-Constrained Hyper-Connections(mHC)、Engram条件付きメモリ、Sparse Attention—がAI経済学を再定義する可能性がある。内部ベンチマークではSWE-benchパフォーマンス80%以上を、西側競合他社の10-40倍低い推論コストで実現すると主張。デュアルRTX 4090で動作し、Apache 2.0ライセンスでオープンソース化されるウェイトは、オリジナルDeepSeekショック以来、中国による西側AI支配への最も信頼性の高い挑戦を表している。
560万ドル。
これがDeepSeekがV3の訓練に費やしたとされる金額だ—ほとんどのベンチマークでGPT-4oやClaude 3.5 Sonnetと同等の性能を持つモデルである。OpenAIはGPT-4の訓練に1億ドル以上を費やしたと報告されている。このギャップは、AI経済学を再構築する根本的な疑問を明らかにする:フロンティア性能には数十億ドルの計算資源が必要なのか、それともアーキテクチャ革新がより安価な道を提供するのか?
DeepSeekの答えは2月中旬にV4として登場する。これは1兆パラメータモデルで、3つのアーキテクチャ革新を組み込み、アナリストが「驚くべき突破口」と呼ぶ訓練効率を実現する可能性がある。このモデルは自律コーディングを標的にしている—単純なスニペット生成ではなく、100万トークンコンテキストウィンドウにわたって人間レベルの推論でソフトウェアリポジトリ全体を管理することだ。
GPUインフラを展開するデータセンターオペレーターにとって、その意味はベンチマークスコアを超えて広がる。DeepSeekの効率優先アプローチが成功裏にスケールすれば、AI展開の経済学—そしてそれをサポートするために必要なハードウェア—は大きな混乱に直面する。
3つのアーキテクチャ革新
DeepSeek V4は、2025年後期から2026年初期にかけて発表された研究論文で公開された3つの画期的技術を組み合わせる:Manifold-Constrained Hyper-Connections、Engram条件付きメモリ、そしてDeepSeek Sparse Attentionだ。
Manifold-Constrained Hyper-Connections(mHC)
DeepSeekの2025年12月31日の論文でmHCが紹介された。これは大規模言語モデルのスケーリングにおける根本的問題を解決するフレームワークである。従来のハイパーコネクションは残差ストリーム幅を拡張し接続パターンを改善できるが、同時に残差ネットワークを訓練可能にするアイデンティティマッピング原理を損ない、大規模訓練実行をクラッシュさせる数値不安定性を引き起こす。
mHCソリューションは、Sinkhorn-Knoppアルゴリズムを使用して接続行列を数学的多様体に投影し、制約なし手法の3000倍に対して1.6倍に信号増幅を制御する。
| ベンチマーク | ベースライン | HC(制約なし) | mHC | 改善 |
|---|---|---|---|---|
| BBH | 43.8 | 48.9 | 51.0 | +7.2ポイント |
| DROP | 62.1 | 65.4 | 67.8 | +5.7ポイント |
| GSM8K | 71.2 | 74.8 | 77.3 | +6.1ポイント |
| MMLU | 68.4 | 71.2 | 73.6 | +5.2ポイント |
実用的な結果:4倍広い残差ストリームでも訓練時間オーバーヘッドは6.7%のみ。創設者の梁文峰氏との共著によるmHCは、GPUメモリ制約を迂回することで「積極的なパラメータ拡張」を可能にし、通常であれば容量を制限するハードウェア上でより大きなモデルを訓練できる。
IBMの主任研究科学者Kaoutar El Maghraoui氏は、DeepSeekのmHCアーキテクチャがモデル事前訓練に革命をもたらす可能性があると強調した:「単に大きくするのではなく、より賢くAIをスケーリングしている」。
Engram条件付きメモリ
2026年1月13日に公開されたEngramは、静的パターンストレージを動的推論から分離することで定時間知識検索を実現する条件付きメモリモジュールを導入する。この技術は古典的なN-gram埋め込みを現代化し、ニューラルバックボーンと並んでO(1)ルックアップを実行する。
Engramは、DeepSeekが「サイレントLLM無駄」と呼ぶ問題—アクティブ推論を必要としない静的ルックアップで失われるGPUサイクル—に対処する。このシステムはマルチヘッドハッシュを使用して圧縮されたコンテキストを決定的関数を介して埋め込みテーブルにマッピングし、密なテーブルのメモリ爆発を回避しながら衝突を緩和する。
Context-Aware Gatingが「条件付き」側面を提供する。検索された埋め込みは盲目的に残差ストリームに追加されるのではなく、現在の隠れ状態によってゲート制御される。検索されたメモリがグローバルコンテキストと矛盾する場合、ゲートがノイズを抑制する。
DeepSeekの主要な発見:最適な分割は計算75-80%、メモリ20-25%。純粋なMoE(100%計算)は最適ではないことが証明された。
| メトリック | Engramなし | Engramあり | 変化 |
|---|---|---|---|
| 複雑推論 | 70% | 74% | +4ポイント |
| 知識検索 | 57% | 61% | +4ポイント |
| Needle-in-Haystack | 84.2% | 97.0% | +12.8ポイント |
| 訓練時間影響 | ベースライン | +6.7% | 最小 |
研究者らは、1000億パラメータ埋め込みテーブルをシステムDRAMにオフロードし、スループットペナルティを3%未満に抑えることを実証した。推論インフラにとって、これはハードウェア計算を変える—高帯域幅システムメモリが生のGPU FLOPSと同じくらい価値を持つようになる。
DeepSeek Sparse Attention(DSA)
3つ目の革新であるDeepSeek Sparse Attentionは、標準Transformerと比較して計算オーバーヘッドを50%削減しながら100万トークンコンテキストウィンドウを実現する。
このシステムは、コンテキストウィンドウから特定の抜粋を優先する「ライトニングインデクサー」を使用し、続いて「細粒度トークン選択システム」がそれらの抜粋から特定のトークンを選択してモデルの限られたアテンションウィンドウに読み込む。これにより、比較的小さなサーバー負荷で長いコンテキスト部分にわたって動作できる。
従来のトランスフォーマーアテンションはシーケンス長に対して二次的にスケールする—コンテキスト長を2倍にすると計算量は4倍になる。DeepSeekのスパースアテンションはこれをほぼ線形スケーリングに削減し、100万トークンコンテキストにおいて「理論的に可能」と「経済的に実行可能」の違いを作る。
V4モデル仕様
DeepSeek V4はスパースアーキテクチャの技術的驚異を表し、1兆の総パラメータを利用しながら任意のトークンに対して約320億を活性化する。
| 仕様 | DeepSeek V4 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| 総パラメータ | 1兆 | 〜2兆(推定) | 非開示 |
| アクティブパラメータ | 32B | フルモデル | 非開示 |
| コンテキストウィンドウ | 1Mトークン | 256Kトークン | 200Kトークン |
| アーキテクチャ | MoE + mHC + Engram | Dense Transformer | Dense Transformer |
| 訓練コスト | 〜1000万ドル(推定) | 〜5億ドル(推定) | 非開示 |
| API入力コスト | $0.27/1Mトークン | $15/1Mトークン | $15/1Mトークン |
この「Top-16」ルーテッドMoE戦略により、V4は通常1兆パラメータモデルに関連する壊滅的なレイテンシやハードウェア要件なしに、巨大クラスシステムの専門知識を維持できる。実用的な影響:100万トークンを超えるコンテキストからの効率的検索。
コーディングタスクにとって、これはV4が中規模コードベース全体を取り込み、数十のファイルにわたるインポート・エクスポート関係を理解し、自律的リファクタリングを実行できることを意味する。初期テスターは、モデルがコンポーネント間の関係を理解し、依存関係を追跡し、大規模リファクタリング操作にわたって一貫性を維持する真のマルチファイル推論を報告している。
SWE-Bench:決定的ベンチマーク
SWE-bench Verifiedは、実際のGitHubイシューを解決するモデルの能力を測定する—実際のリポジトリコンテキストにわたってコード理解、デバッグ、実装を要求する。Claude Opus 4.5が現在80.9%でリードしている。
DeepSeekの内部テストでは、V4がSWE-bench Verifiedで80%を超える性能を示し、特に極めて長いコードプロンプトでClaude 3.5 SonnetやGPT-4oを上回ったと報告されている。これらの主張は独立テストによる検証を受けていない。
| モデル | SWE-bench Verified | コンテキストウィンドウ | API コスト(入力) |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 200Kトークン | $15/1Mトークン |
| GPT-5.2 | 78.2% | 256Kトークン | $15/1Mトークン |
| DeepSeek V4(主張) | 80%+ | 1Mトークン | $0.27/1Mトークン |
| DeepSeek V3.2 | 72.4% | 256Kトークン | $0.14/1Mトークン |
V4が主張する性能を主張するコストで実現すれば、価値提案は明確になる:10-40倍低い推論コストで同等のコーディング能力。
コンシューマーハードウェア展開
インフラトレンドからの注目すべき転換として、DeepSeek V4はコンシューマーハードウェアで動作する:
- コンシューマー層:デュアルRTX 4090またはシングルRTX 5090
- プロフェッショナル層:シングルワークステーションクラスGPU(RTX 6000 Ada)
- エンタープライズ層:標準データセンター構成
MLA圧縮によりシングルRTX 4090での推論(24GB GDDR6X)が可能になる。共有KVキャッシュで4つのリクエストをバッチ処理することで、リクエストあたりの実効メモリフットプリントは5GB未満に下がり、バッチサイズ4で約毎秒550トークンのスループットを達成する。
| ハードウェア構成 | モデル容量 | トークン/秒 | 必要メモリ |
|---|---|---|---|
| シングルRTX 4090(24GB) | V4 32B distilled | 30-35 | 24GB VRAM + 64GB RAM |
| デュアルRTX 4090(48GB) | V4 70B distilled | 25-30 | 48GB VRAM + 128GB RAM |
| RTX 5090(32GB) | V4 70B quantized | 40-50 | 32GB VRAM + 64GB RAM |
| 4x RTX 4090(96GB) | V4フルウェイト | 15-20 | 96GB VRAM + 256GB RAM |
比較として、GPT-4クラスモデルをローカルで実行するには通常5万ドル以上の専門インフラが必要だった。V4の効率革新は、1兆パラメータ能力へのアクセスを民主化する可能性がある。
予想される32GBのGDDR7を搭載したRTX 5090がギャップをさらに縮める。フルモデルにはまだオフロードが必要だが、より高速なメモリ帯域幅とBlackwellアーキテクチャにより、シングルコンシューマーカードでのほぼリアルタイム推論が可能になるはずだ。
オープンソース戦略
DeepSeekはApache 2.0ライセンス下でV4ウェイトをオープンソース化し、フロンティア能力を公開するという戦略を継続している。これは西側競合他社とは鋭い対照をなす—GPT-5、Claude Opus、Geminiはクローズドソースのままだ。
| モデル | ウェイト利用可能 | ライセンス | セルフホスティング |
|---|---|---|---|
| DeepSeek V4 | あり | Apache 2.0 | 完全サポート |
| GPT-5.2 | なし | プロプライエタリ | APIのみ |
| Claude Opus 4.5 | なし | プロプライエタリ | APIのみ |
| Gemini Ultra | なし | プロプライエタリ | APIのみ |
| Llama 4 | あり | カスタムライセンス | 商用制限 |
オープンウェイトは展開経済学を変革する:
- オンプレミス展開:エアギャップ環境、データ主権コンプライアンス
- 量子化:コンシューマーハードウェアでの削減精度版実行
- ファインチューニング:特定企業ニーズ向けカスタムモデル
- コスト最適化:大量アプリケーションでのトークンあたり課金回避
厳格なデータガバナンスを持つ組織は、V4を完全にインフラ内で実行できる。金融、ヘルスケア、防衛などの業界では、これにより独自コードを外部APIに送信することに関する懸念が解消される。
API価格破壊
DeepSeekの価格設定はすでに競合他社を大幅に下回っている。現在のV3価格:100万入力トークンあたり0.27ドル対GPT-4.5とClaude Opusの約15ドル/100万。
| プロバイダー | モデル | 入力(100万あたり) | 出力(100万あたり) | コンテキスト |
|---|---|---|---|---|
| DeepSeek | V4 | $0.27 | $1.10 | 1Mトークン |
| DeepSeek | V3.2 | $0.14 | $0.55 | 256Kトークン |
| OpenAI | GPT-5.2 | $15.00 | $60.00 | 256Kトークン |
| Anthropic | Opus 4.5 | $15.00 | $75.00 | 200Kトークン |
| Gemini Pro | $3.50 | $10.50 | 128Kトークン |
実用例:10万トークンコンテキストがGPT-4で5.50ドル対DeepSeek V3.2-Expで0.90ドル。V4の100万トークンコンテキストが0.27ドル/100万入力トークンで、以前は不可能だった使用ケースを経済的に実行可能にする。
あるコスト分析では、抽出にDeepSeek、監査にClaudeを使用するハイブリッドアプローチにより、純粋なGPT-5と比較してAPI支出を72%削減し、事実精度を12%改善したことが示された。
訓練インフラの現実確認
効率の主張にもかかわらず、DeepSeekの訓練インフラは依然として実質的である。同社はR1を50,000基のHopperシリーズGPUで訓練したと報告されている—30,000のHGX H20ユニット、10,000のH800、10,000のH100—投資家High-Flyer Capital Managementを通じて供給された。
中国当局はDeepSeekに対し、R2訓練でHuawei Ascendハードウェアを使用するよう要請した。この動きは不安定な性能、遅いチップ間接続、HuaweiのCANNソフトウェアツールキットの制限に遭遇した。Huaweiが現地にエンジニアを配置したにもかかわらず、DeepSeekは成功した訓練実行を完了できなかった。
結果:DeepSeekは推論にHuaweiハードウェアを維持しながら、R2訓練でNVIDIAアクセラレーターに復帰した。これは中国国産チップの現在の限界と、DeepSeekの実用主義的アプローチ—政治的圧力に関係なく、機能するものを何でも使用する—の両方を明らかにする。
Huawei CEO任正非氏は「米国はHuaweiの成果を誇張した」とし、彼らの最良チップは依然として一世代遅れていることを認めた。しかし業界観測者は、いくつかの大規模言語モデルが2026年末までに中国チップで訓練され、2027年にこの傾向がより明白になると予想している。
地政学的含意
DeepSeekの急速な台頭は、グローバルAI競争の大きな変化を示している。同社のR1ローンチは2025年1月27日に1兆ドルのテック株売却を引き起こし—NVIDIAだけで6000億ドルを含む。
トランプ大統領はこれを米国企業への「警鐘」と呼んだ。OpenAIとAnthropicに多額投資をしたMicrosoft、Amazonなどのクラウドプロバイダーは、現在価格危機に直面している。
地域採用パターンは大きく分岐している:
| 地域 | 採用レベル | 主要推進要因 |
|---|---|---|
| 中国 | 89%市場シェア | コスト、性能、ローカル開発 |
| グローバルサウス | 高/成長中 | オープンソース、低計算要件 |
| 西側企業 | 低/中程度 | コスト節約、オンプレミス展開 |
| 西側政府 | 禁止 | セキュリティ懸念、データ主権 |
2025年8月以降、中国AIモデルの累計オープンソースダウンロードが西側競合他社を上回り、グローバルAI使用パターンの大きな変化を示している。中国では、DeepSeekがAIユーザーのほぼ89%の市場シェアを占めると報告されている。
西側政府の採用は最小限にとどまる。オーストラリアと同盟国は公式デバイスからDeepSeekを禁止し、オーストラリア企業の最大70%がデータセキュリティ懸念によりアクセスを積極的にブロックしている。
競合対応
西側競合他社はDeepSeek圧力に対応して価格設定と製品を調整している:
- Google:2024年と2025年を通じてGemini APIコストを削減
- OpenAI:レートを下げ、効率性で競争するために2026年1月にo3-miniをリリース
- Anthropic:価格設定を維持しつつ、規制業界向けVerifiable Safety Stackを強調
隠れたコスト要因がある:検証オーバーヘッド。安価モデルの使用では、出力を検証するために高価モデルにトークンを費やすことが多い。監査により、「安価モデル + 高級監査者」設定が中複雑度タスクでGPT-5のみ使用より15%高くつく場合があることが示されている。
規制業界の企業にとって、ClaudeのVerifiable Safety Stackはプレミアム価格を正当化する監査証跡を提供する。EU AI法の施行により、コンプライアンス文書が生の性能と同じくらい価値を持つようになった。
インフラへの含意
DeepSeekの効率革新は現在のGPU需要を無効化するものではない。ハイパースケーラーCapExは継続成長し、2026年には6000億ドル以上が予測される。しかし支出の構成—何が構築され、どう使用されるか—は変化する可能性がある。
Engramのコンテキスト処理アプローチは、生計算よりもメモリ階層を重視する。将来の訓練インフラはピークFLOPSより高帯域幅メモリと効率的キャッシングを優先するかもしれない。
データセンターオペレーターにとって、いくつかのトレンドが浮上する:
- メモリ帯域幅が重要になる:EngramのDRAMオフロード技術がワークロードをGPUメモリからシステムRAMにシフト
- 推論インフラが多様化:コンシューマーグレード展開によりエッジとオンプレミス設置が可能に
- 訓練は集中化を維持:効率向上にもかかわらず、フロンティアモデル訓練には依然として大規模GPUクラスターが必要
- ハイブリッドアーキテクチャが注目:DeepSeek抽出 + 西側モデル検証がコンプライアンスを維持しつつコストを削減
重要なポイント
AIインフラチーム向け:
- DeepSeek V4のコンシューマーハードウェア展開(デュアルRTX 4090)がオンプレミスAI経済学を変革
- Engramのメモリアーキテクチャがハードウェア優先度を高帯域幅DRAMにシフト
- オープンウェイトがAPI依存なしでファインチューニングと展開を可能に
企業意思決定者向け:
- 10-40倍のコスト削減により以前は非経済的だったAIアプリケーションが実行可能に
- セキュリティ懸念により中国モデル使用に関する明確な方針が必要
- ハイブリッド展開(DeepSeek抽出 + 西側検証)がコスト・性能バランスを提供
データセンターオペレーター向け:
- 100万トークンコンテキストがワークロードプロファイルとメモリ要件を変更
- コンシューマーGPU展開により小規模で分散された推論インフラの需要が創出
- 効率向上は需要を排除せず—経済的に可能な範囲を拡大
Introlについて
Introlは、AIデータセンター向けの特化GPUインフラ展開を提供する。257のグローバル拠点に550名のHPC専門フィールドエンジニアを擁し、Introlは10万基以上のGPUを展開—ハイパースケール訓練クラスターからエッジ推論インフラまで、あらゆるものをサポートしている。組織がDeepSeek、独自モデル、ハイブリッドアーキテクチャのいずれを展開する場合でも、Introlの専門知識が信頼性の高い、高性能なAIインフラを保証する。