推論ユニットエコノミクス:100万トークンあたりの真のコスト
2025年12月8日更新
2025年12月アップデート: LLM推論コストは年間10倍のペースで下落し、PCコンピューティングやドットコム時代の帯域幅よりも急速に低下している。GPT-4相当の性能は、2022年後半の20ドルに対し、現在は100万トークンあたり0.40ドルで利用可能。クラウドH100の価格はピークから64-75%下落した後、2.85-3.50ドル/時間で安定。DeepSeekは既存事業者より90%低い価格設定で市場を破壊。セルフホスト型の損益分岐点は7Bモデルで50%以上、13Bモデルで10%以上のGPU稼働率が必要。量子化により運用コストが60-70%削減。投機的デコーディングでレイテンシーが2-3倍改善。
LLM推論市場は従来のテクノロジー経済学を覆している。価格はマイクロプロセッサ革命時のPCコンピューティングやドットコムブーム時の帯域幅よりも急速に下落し、同等性能のコストは毎年10分の1になっている。¹ 2022年後半に100万トークンあたり20ドルだった機能が、現在は0.40ドルで利用できる。² しかし、トークン単位の価格設定がインフラの実態を曖昧にし、GPU稼働率が実際のユニットエコノミクスを決定し、最適化技術がコスト効率に桁違いの差をもたらすため、組織は依然として真の推論コストを把握することに苦労している。推論エコノミクスを習得することが、AIデプロイメントが価値を生み出すか資本を流出させるかを決定する。
2025年12月の推論価格環境
API価格は、モデルの能力、プロバイダー、最適化に応じて3桁の幅がある。現在の環境を理解することが、経済的な意思決定の文脈を提供する。
バジェット層モデルは現在、100万トークンあたり1セントの何分の1かのコストで利用可能。GoogleのGemini Flash-Liteは100万入力トークンあたり0.075ドル、100万出力トークンあたり0.30ドルでリードしている。³ Together.aiやHyperbolicなどのプロバイダーを通じたオープンソースモデルはさらに低価格で、Llama 3.2 3Bは100万トークンあたり0.06ドルで動作し、3年前の1000分の1のコストでMMLUスコア42を達成している。⁴
ミッドティア本番モデルは能力とコストのバランスを取る。Claude Sonnet 4は100万入力トークンあたり3ドル、100万出力トークンあたり15ドルの価格設定。⁵ DeepSeekのR1モデルは入力0.55ドル、出力100万トークンあたり2.19ドルで市場を破壊し、同等の推論能力で西側競合他社より90%低い価格を実現した。⁶ 中国のプロバイダーは一貫して西側既存事業者を下回り、すべての購入者に恩恵をもたらす価格圧力をかけている。
フロンティア能力モデルはプレミアム価格を維持。Claude Opus 4は100万入力トークンあたり15ドル、100万出力トークンあたり75ドル。⁷ GPT-4および同様のフロンティアモデルも同様の価格設定で、コスト最適化に関係なく小型モデルでは再現できない能力によって正当化されている。
プロバイダー間の差異が複雑さを加える。同一モデルでも、最安値と最高値のプロバイダー間で価格が10倍異なる。⁸ あるモデルは最安プロバイダーで100万トークンあたり0.90ドル、中央値で3.50ドル、最高値で9.50ドルになることがある。技術的な最適化を行う前に、プロバイダー間で比較検討することが経済性に大きく影響する。
出力トークンの価格非対称性は実際のコストを反映している。OpenAI、Anthropic、Googleは出力トークンを入力トークンの3-5倍の価格に設定している。これは、入力処理が効率的に並列化される一方、出力生成は逐次処理を必要とするためである。⁹ 長い出力を生成するアプリケーションは、短い応答で長い入力を処理するものとは異なる経済性に直面する。
真のGPUインフラコストを理解する
API価格の背後には、独自のコスト構造を持つGPUインフラがある。これらの経済性を理解することで、構築対購入の意思決定が可能になる。
ハードウェア取得コストは高額から始まり、蓄積し続ける。NVIDIA H100 GPUはカードあたり25,000-40,000ドルで、インフラを含む8-GPU完全サーバーシステムは200,000-400,000ドルに達する。¹⁰ NVIDIAの製造コストはH100あたり約3,320ドルで、生産コストと販売価格の差は、最近になってようやく緩和し始めた需要主導のマージンを反映している。
クラウドGPUレンタル料金は大幅な下落後に安定した。H100 SXMインスタンスは1.49ドル/時間(Hyperbolic)から6.98ドル/時間(Azure)まで幅があり、ほとんどのプロバイダーはピーク価格から64-75%下落した後、2.85-3.50ドル/時間に集中している。¹¹ 予約容量はさらに料金を下げ、Lambda Labsは1.85ドル/時間、Hyperstackはコミットメントで1.90ドル/時間から提供している。
電力と冷却コストがハードウェア費用に上乗せされる。各H100は負荷時に最大700Wを消費する。マルチGPUクラスターは専用の電力配分ユニットを必要とし、施設のアップグレードに10,000-50,000ドルかかる可能性がある。¹² 液体冷却インフラまたは強化されたHVACシステムは、規模に応じて15,000-100,000ドルが追加される。これらのコストはGPU時間にわたって償却されるが、総所有コストの経済性に大きく影響する。
運用オーバーヘッドがハードウェアレンタルと実際のコストの間のギャップを埋める。冷却、施設、メンテナンスを考慮すると、生のGPUレンタル料金に1時間あたり約2-7ドルが追加され、適切に償却すると8×H100の真の運用コストは8-15ドル/時間になる。¹³ クラウドレンタルとAPI価格を比較する組織は、有効な比較を行うためにこれらの隠れたコストを含める必要がある。
実現可能性を決定する稼働率の方程式
GPU稼働率が、セルフホスト推論が経済的に意味を持つかどうかを決定する。10%の負荷で稼働するGPUに支払うと、1000トークンあたり0.013ドルが0.13ドルに変わり、プレミアムAPIよりも高くなる。¹⁴
損益分岐点分析はモデルサイズと目標稼働率に依存する。7Bモデルをホスティングするには、GPT-3.5 Turboよりも低コストにするために約50%の稼働率が必要。¹⁵ 13Bモデルはわずか10%の稼働率でGPT-4-turboとのコスト均衡を達成する。これは、大型モデルの能力プレミアムがより高いインフラ投資を正当化するためである。重要な洞察:大型モデルはより低い稼働率で損益分岐点に達する。なぜなら、より高価なAPI代替品を置き換えるからである。
トラフィックパターンが達成可能な稼働率を決定する。一貫した予測可能なワークロードを持つ組織は、散発的な需要を持つ組織よりも高い稼働率を達成する。日次トラフィックサイクルを持つ消費者向けアプリケーションは、ワークロードをシフトするかインフラを動的にスケーリングしない限り、オフピーク時にGPU容量を無駄にする。
リクエスト量の閾値が最小実現可能規模を確立する。分析によると、セルフホストインフラがマネージドソリューションよりも低コストになるには、1日あたり8,000以上の会話が必要。¹⁶ この閾値未満では、セルフホスティングの運用複雑性と固定費が潜在的な節約を上回る。
バッチ処理の機会が稼働率経済を改善する。延期可能なワークロード(オフライン分析、バッチ埋め込み、データセット処理)を持つ組織は、需要を高稼働率の時間帯に集約でき、変動するリアルタイムトラフィックがあっても実効稼働率を改善できる。共有インフラ上でリアルタイムとバッチのワークロードを混合することで、資本効率を最適化する。
本番デプロイメントのコスト構造内訳
本番推論コストは、最適化で個別に対処できるコンポーネントに分解される。
モデルロードとメモリは、トラフィックに関係なく固定リソースを消費する。FP16の70Bパラメータモデルは約140GBのGPUメモリを必要とし、単一GPU容量を超え、マルチGPU構成が必須となる。¹⁷ メモリコストは使用量ではなくモデルサイズに比例し、トラフィック量に関係なく最小インフラ閾値を作成する。
トークンあたりの計算が推論中の限界コストを駆動する。フォワードパス計算はモデルアーキテクチャに比例してスケールし、特に長いコンテキストではアテンションメカニズムが影響する。計算コストはバッチングで低下する。なぜなら、行列演算は大きなバッチサイズでより効率的になり、オーバーヘッドがより多くのトークンに分散されるからである。
KVキャッシュメモリはコンテキスト長と同時リクエスト数に応じて増加する。各アクティブリクエストは、コンテキスト長に比例してメモリを消費するキー・バリューキャッシュを維持する。長いコンテキストを扱うアプリケーションは、同時リクエストを制限するメモリ圧力に直面し、スループットを低下させ、トークンあたりのコストを増加させる。KVキャッシュ管理は主要な最適化ターゲットである。
ネットワークとストレージI/OがマルチGPUおよび分散デプロイメントに影響する。テンソル並列処理のためのGPU間通信、ストレージからのモデル重みのロード、結果の送信はすべてリソースを消費する。高帯域幅ネットワーキング(NVLink、InfiniBand)はI/Oボトルネックを軽減するが、インフラ投資を増加させる。
運用オーバーヘッドには、監視、ロギング、セキュリティ、管理が含まれる。本番システムには、可観測性インフラ、オンコール要員、継続的な最適化作業が必要。組織はセルフホストとAPI代替品を比較する際に、これらの「ソフト」コストを過小評価することが多い。
経済性を変革する最適化技術
技術的な最適化により、推論コストを60-70%以上削減でき、限界的な経済性を持続可能な優位性に変えることができる。¹⁸
量子化は、モデル重みの精度を32ビット浮動小数点から8ビットまたは4ビット表現に削減する。この技術は、許容可能な精度を維持しながらモデルサイズを4-8倍縮小する。¹⁹ 8ビット量子化は約1%の精度損失でメモリ使用量を50%削減する。4ビット量子化は75%のサイズ削減を達成しながら、多くのアプリケーションで競争力のあるパフォーマンスを維持する。Blackwell GPUのFP4サポートにより、量子化だけで4倍のパフォーマンス向上が可能。
継続的バッチングは、固定バッチ完了を待つのではなく、リクエストを動的にグループ化する。従来のバッチングは、新しいリクエストを処理する前に最長シーケンスの完了を待つ。継続的バッチングは、完了したシーケンスを即座に排出し、他のシーケンスが進行中でも新しいリクエストを開始する。²⁰ この技術は、シーケンス長が可変のワークロードに対してGPU稼働率を劇的に改善する。これはまさにほとんどの本番デプロイメントが示すパターンである。
投機的デコーディングは、小さな「ドラフト」モデルを使用して複数のトークンを予測し、大きな「検証」モデルが並列でチェックする。²¹ 予測が正しければ、標準の単一トークンではなく、フォワードパスごとに複数のトークンが生成される。この技術は、小さなモデルが大きなモデルの出力を正確に予測できるアプリケーションでレイテンシーを2-3倍削減する。特に制約されたドメインや構造化された出力に効果的である。
KVキャッシュ最適化(PagedAttentionを含む)は、仮想メモリのようにキャッシュメモリを管理し、断片化を減らし、より高い同時実行を可能にする。²² キャッシュ圧縮技術はメモリフットプリントをさらに削減する。プレフィックスキャッシングは、リクエストが共通のプレフィックスを共有する場合の再計算を回避する。これは構造化されたプロンプトやシステム指示を持つアプリケーションに価値がある。
モデル蒸留は、特定のドメインで大きなモデルの動作を近似する小さなモデルを作成する。ターゲットタスクでGPT-4のパフォーマンスに匹敵する蒸留された7Bモデルは、アプリケーションに関連する品質を維持しながら、インフラコストの何分の1かで動作する。²³ 蒸留はトレーニングへの先行投資を必要とするが、継続的な推論節約をもたらす。
これらの技術を組み合わせると複利効果がある。量子化(4倍)、継続的バッチング(2倍)、投機的デコーディング(2倍)を適用する組織は、ナイーブなデプロイメントと比較して16倍の実効コスト削減を達成する可能性があり、限界的に見えた経済性を大きな優位性に変える。
APIとセルフホストの意思決定フレームワーク
構築対購入の決定は、単純なコスト比較を超える要因に依存する。
API推論を選択すべき場合: - トラフィックが散発的または予測不能 - 量が1日あたり8,000会話未満 - エンジニアリング能力が限られている - モデル選択の迅速な反復に価値がある - コンプライアンス要件がプロバイダー認証で満たされる - レイテンシー要件がプロバイダーSLAに適合する
セルフホストを選択すべき場合: - トラフィックが一貫して大量 - GPU稼働率が持続的に50%を超えられる - データ主権によりクラウドAPIの使用が不可 - カスタムモデルが専門的なサービングを必要とする - レイテンシー要件がプロバイダーの能力を超える - コスト最適化がエンジニアリング投資を正当化する
ハイブリッドアプローチが最適であることが多い。組織はベースライン