オープンソースAIモデルが差を縮める:DeepSeek、Qwen3、Llama 4がGPT-5に匹敵
要約
オープンソースとプロプライエタリAIモデルの性能差は、2025年の主要ベンチマークにおいて17.5ポイントからわずか0.3%にまで縮小しました。DeepSeek V3.2、Qwen3-235B、Llama 4 Scoutは、GPT-5.2やClaude Opus 4.5に大幅に低いコストで匹敵し、完全なセルフホスティングも可能です。APIへの依存とインフラ投資を天秤にかける企業にとって、その判断基準は根本的に変わりました。
何が起きたのか
2025年12月は、AIモデルの勢力図における転換点となりました。オープンソースの大規模言語モデルが最も高性能なプロプライエタリシステムとほぼ同等の性能を達成し、クローズドモデルが支配していた数年間に終止符を打ちました。
数字がすべてを物語っています。94の主要LLMの分析によると、オープンソースモデルはMMLUにおいてプロプライエタリシステムと0.3ポイント差にまで迫りました。これは1年前の17.5ポイント差から大幅な縮小です。500万件以上のユーザー投票による人間の好みを反映したリーダーボードであるChatbot Arenaでは、オープンウェイトモデルが2024年1月から2025年2月の間に8%から1.7%に差を縮めました。その差はさらに縮小し続けています。
オープンソースをリードする3つのモデルファミリーがあります:
DeepSeek V3.2は2025年12月1日にローンチされ、複数の推論ベンチマークでGPT-5と同等の性能を達成しました。この中国のラボが開発したMixture-of-Expertsアーキテクチャは、671Bのパラメータのうちトークンあたりわずか37Bしか活性化せず、一般的なコストでフロンティア級の性能を実現しています。
Qwen3-235B-A22BはAlibabaが開発し、235Bのパラメータのうち22Bのみを活性化しながら、ほとんどの公開ベンチマークでGPT-4oと同等かそれ以上の性能を発揮します。2025年7月のthinkingアップデートでは、オープンソース推論モデルの中で最先端の結果を達成しました。
Llama 4 ScoutはMetaが開発し、1000万トークンのコンテキストウィンドウを提供します。これは1回のセッションで7,500ページを処理できる量であり、INT4量子化を使用すれば単一のH100 GPUで動作します。
オープンソースモデルは現在、モデル数で市場の62.8%を占めています。この変化は急速に起こりました。2年前はプロプライエタリモデルが支配的でした。
なぜ重要なのか
AIインフラを構築する企業にとって、この収束は「作る」か「買う」かの判断を大きく変えます。
コスト構造が逆転しました。 DeepSeek V3.2は100万入力トークンあたり0.26ドルで、GPT-5.2 Proの約10分の1のコストです。Mistral Medium 3はClaude Sonnet 3.7の90%の性能を100万トークンあたり0.40ドルで提供し、GPT-4の8分の1の価格です。組織はプロプライエタリのみの戦略と比較して、オープンソースアプローチで25%高いROIを報告しています。
データ管理が可能になりました。 セルフホスティングにより、機密情報を組織のインフラ内に完全に保持できます。医療機関は、外部送信によるHIPAAコンプライアンス違反リスクなしに、患者データのクエリをオンプレミスで実行できます。金融機関は取引アルゴリズムや顧客データを完全に管理できます。
デプロイメントの柔軟性が向上しました。 Mistral Medium 3はわずか4基のGPUで動作します。Llama 4 Scoutは単一のH100に収まります。これらのモデルはハイブリッド環境、オンプレミスデータセンター、エッジロケーションにデプロイできます。これはAPIのみのプロプライエタリサービスでは不可能なことです。
ベンダーロックインが解消されました。 セルフホストモデルは、プロバイダーが旧バージョンを廃止しても陳腐化しません。組織はアップグレードのタイミングを自ら管理し、モデルの一貫性を維持し、PPAマーケットをますます売り手有利にしてきた従量課金制の価格変動を回避できます。
技術的詳細
モデル仕様
| モデル | 総パラメータ | 活性パラメータ | コンテキスト | 入力コスト/M | 出力コスト/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0.26 | $0.39 |
| Qwen3-235B | 235B | 22B | 256K | $0.20 | $1.20 |
| Llama 4 Scout | 109B | 17B | 10M | $0.08 | $0.30 |
| Mistral Medium 3 | — | — | 131K | $0.40 | $2.00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
ベンチマーク性能
コーディング: DeepSeek V3.2は長期的なエージェントタスクで卓越した能力を示し、思考をツール使用に直接統合しています。Qwen3-235BはLiveCodeBench v6で74.8を達成。Llama 4 ScoutはLiveCodeBenchで38.1%を記録し、GPT-4oの32.3%を上回りました。
推論: Qwen3-235BはAIME'24で85.7、AIME'25で81.5のスコアを獲得。thinkingモードではAIME25で92.3に到達します。DeepSeek V3.2-SpecialeはGemini-3.0-Proと同等を達成し、IOI 2025、ICPC World Final 2025、IMO 2025、CMO 2025で金メダル級の成績を収めました。
長コンテキスト: Llama 4 Scoutの1000万トークンコンテキストウィンドウにより、法律文書全体、研究論文コレクション、またはソフトウェアリポジトリを単一セッションで処理できます。
アーキテクチャの革新
DeepSeek V3.2はDeepSeek Sparse Attention (DSA)を導入し、モデル出力品質を維持しながらきめ細かいスパースアテンションで長コンテキスト効率を大幅に改善しました。
DeepSeek V3.1のハイブリッドthinkingモードは、チャットテンプレートの変更で思考連鎖推論と直接回答を切り替えます。1つのモデルで汎用と推論重視の両方のユースケースに対応できます。
Mistral 3のMinistralシリーズは、3B、8B、14Bの各パラメータサイズにBase、Instruct、Reasoningのバリエーションを持つ9つの密なモデルを提供します。14B推論モデルはAIME 2025で85%を達成し、単一GPUで動作します。
セルフホスティング要件
| モデル | 最小ハードウェア | 推奨構成 |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x コンシューマーGPU | 1x A100 |
OpenLLMなどのツールを使用すると、任意のオープンソースモデルをシングルコマンドでOpenAI互換APIエンドポイントとして実行できます。Ray ServeとHugging Face TGIはKubernetesデプロイメントを簡素化します。
今後の展望
オープンソースの勢いは衰える気配がありません。DeepSeekのトレーニング効率—1兆トークンあたり180K H800 GPU時間—は、継続的な急速な反復を示唆しています。Qwen3の2025年7月のthinkingアップデートは、ポストトレーニングの改善がスケールし続けることを実証しました。
2026年第1四半期には以下が予想されます: - Llama 4 Scoutの1000万トークンを超えるコンテキストウィンドウのさらなる拡大 - ツール使用の成熟に伴うエージェント機能の向上 - 現在のフロンティア性能に到達する、より小型で効率的なモデル
APIのみの戦略をまだ評価中の組織にとって、プロプライエタリロックインの機会は閉じつつあります。89%の組織がすでにオープンソースAIを使用している今、問題は「導入するかどうか」から「どのモデルを、どれだけ早く」にシフトしています。
Introlの視点
フロンティア級のオープンソースモデルをセルフホストするには、大規模なGPUインフラ、効率的な冷却システム、運用の専門知識が必要です。Introlの550名のHPC専門フィールドエンジニアが、これらのモデルが求めるアクセラレータクラスタのデプロイと保守を行います。対応地域の詳細はこちら。
公開日: 2025年12月18日