オープンソースAIモデルが差を縮める:DeepSeek、Qwen3、Llama 4がGPT-5に匹敵
要約
オープンソースとプロプライエタリAIモデル間の性能差は、2025年の主要ベンチマークで17.5ポイントからわずか0.3%まで縮小しました。DeepSeek V3.2、Qwen3-235B、Llama 4 Scoutは現在、GPT-5.2やClaude Opus 4.5にコストの一部で匹敵し、完全なセルフホスティング機能を備えています。API依存とインフラ投資を比較検討する企業にとって、計算式は根本的に変化しました。
何が起きたか
2025年12月は、AIモデルの状況における転換点となります。オープンソースの大規模言語モデルは、最も高性能なプロプライエタリシステムとほぼ同等を達成し、数年間続いたクローズドモデルの優位性に終止符を打ちました。
数字が物語っています。94の主要LLMの分析によると、オープンソースモデルは現在、MMLUでプロプライエタリシステムとわずか0.3ポイント差まで迫っています—1年前の17.5ポイント差から縮小。500万以上のユーザー投票による人間の好みランキングであるChatbot Arenaでは、オープンウェイトモデルが2024年1月から2025年2月の間に差を8%から1.7%に縮小しました。その差はさらに縮小し続けています。
オープンソースの先頭を走る3つのモデルファミリー:
DeepSeek V3.2は2025年12月1日にローンチされ、複数の推論ベンチマークでGPT-5と同等を達成しました。中国のラボによるMixture-of-Expertsアーキテクチャは、671Bパラメータのうち37Bのみをトークンごとにアクティブ化し、コモディティコストでフロンティア性能を実現します。
Qwen3-235B-A22BはAlibabaから、ほとんどの公開ベンチマークでGPT-4oに匹敵または上回りながら、235Bパラメータのうち22Bのみをアクティブ化します。2025年7月のthinkingアップデートは、オープンソース推論モデルの中で最先端の結果を達成しました。
Llama 4 ScoutはMetaから、1000万トークンのコンテキストウィンドウを提供—1回のセッションで7,500ページを処理するのに十分—INT4量子化で単一のH100 GPUで動作します。
オープンソースモデルは現在モデル数で市場の62.8%を占めています。変化は急速でした。2年前はプロプライエタリモデルが支配的でした。
なぜ重要か
AIインフラストラクチャを構築する企業にとって、この収束は構築対購入の計算を再形成しています。
コスト構造が逆転しました。 DeepSeek V3.2は入力100万トークンあたり0.26ドル—GPT-5.2 Proの約10分の1の価格です。Mistral Medium 3は100万トークンあたり0.40ドルでClaude Sonnet 3.7の90%の性能を提供し、GPT-4の8分の1の価格です。組織は、プロプライエタリのみの戦略と比較して、オープンソースアプローチで25%高いROIを報告しています。
データ制御が可能になります。 セルフホスティングは機密情報を組織インフラストラクチャ内に完全に保持します。ヘルスケア企業は、外部送信によるHIPAA違反リスクなしにオンプレミスで患者データクエリを実行できます。金融機関は取引アルゴリズムと顧客データを完全に制御できます。
デプロイメントの柔軟性が拡大します。 Mistral Medium 3はわずか4つのGPUで動作します。Llama 4 Scoutは単一のH100に収まります。これらのモデルはハイブリッド環境、オンプレミスデータセンター、またはエッジロケーションにデプロイできます—APIのみのプロプライエタリサービスでは不可能です。
ベンダーロックインが解消されます。 セルフホストモデルは、プロバイダーが古いバージョンを廃止しても陳腐化しません。組織はアップグレードのタイムラインを制御し、モデルの一貫性を維持し、PPAマーケットをますます売り手有利にしている使用量ベースの価格変動を回避できます。
技術詳細
モデル仕様
| モデル | 総パラメータ | アクティブパラメータ | コンテキスト | 入力コスト/M | 出力コスト/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0.26 | $0.39 |
| Qwen3-235B | 235B | 22B | 256K | $0.20 | $1.20 |
| Llama 4 Scout | 109B | 17B | 10M | $0.08 | $0.30 |
| Mistral Medium 3 | — | — | 131K | $0.40 | $2.00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
ベンチマーク性能
コーディング: DeepSeek V3.2はロングテールエージェントタスクで卓越した能力を示し、思考をツール使用に直接統合しています。Qwen3-235BはLiveCodeBench v6で74.8を達成。Llama 4 ScoutはLiveCodeBenchで38.1%を達成し、GPT-4oの32.3%を上回りました。
推論: Qwen3-235BはAIME'24で85.7、AIME'25で81.5を達成。thinkingモードでは、AIME25で92.3に達します。DeepSeek V3.2-SpecialeはGemini-3.0-Proと同等を達成し、IOI 2025、ICPC World Final 2025、IMO 2025、CMO 2025で金メダル級のパフォーマンスを記録しました。
ロングコンテキスト: Llama 4 Scoutの1000万コンテキストウィンドウにより、法的文書全体、研究論文コレクション、またはソフトウェアリポジトリの処理が単一セッションで可能になります。
アーキテクチャの革新
DeepSeek V3.2はDeepSeek Sparse Attention(DSA)を導入し、モデル出力品質を維持しながらきめ細かいスパースアテンションで大幅なロングコンテキスト効率の向上を実現しています。
DeepSeek V3.1のハイブリッドthinkingモードは、チャットテンプレートの変更を通じてchain-of-thought推論と直接回答を切り替えます—1つのモデルで汎用と推論集約型の両方のユースケースをカバーします。
Mistral 3のMinistralラインナップは、3B、8B、14Bパラメータで9つの密なモデルを提供し、それぞれBase、Instruct、Reasoningバリアントがあります。14B推論モデルはAIME 2025で85%を達成し、単一GPUで動作します。
セルフホスティング要件
| モデル | 最小ハードウェア | 推奨 |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x コンシューマーGPU | 1x A100 |
OpenLLMなどのツールにより、任意のオープンソースモデルを単純なコマンドでOpenAI互換APIエンドポイントとして実行できます。Ray ServeとHugging Face TGIはKubernetesデプロイメントを簡素化します。
次に来るもの
オープンソースの勢いは衰える兆しを見せていません。DeepSeekのトレーニング効率—1兆トークンあたり180K H800 GPU時間—は継続的な急速な反復を示唆しています。Qwen3の2025年7月のthinkingアップデートは、ポストトレーニングの改善が引き続きスケールすることを実証しました。
2026年第1四半期に期待されること: - Llama 4 Scoutの1000万トークンを超えるコンテキストウィンドウのさらなる拡大 - ツール使用の成熟に伴うエージェント機能の向上 - 現在のフロンティア性能に達する、より小型で効率的なモデル
APIのみの戦略をまだ評価している組織にとって、プロプライエタリロックインの窓口は閉じつつあります。89%の組織がオープンソースAIを使用している今、問題は「するかどうか」から「どのモデルをどれだけ早く」に移行しています。
Introlの視点
フロンティアクラスのオープンソースモデルのセルフホスティングには、相当なGPUインフラストラクチャ、効率的な冷却システム、運用の専門知識が必要です。IntrolのHPC専門フィールドエンジニア550名が、これらのモデルに必要なアクセラレータクラスターをデプロイおよびメンテナンスしています。カバレッジエリアの詳細はこちら。
公開日:2025年12月18日