Inference-Stückökonomie: Die wahren Kosten pro Million Token

Die Kosten für LLM-Inferenz sanken jährlich um das 10-fache – schneller als PC-Rechenleistung oder Dotcom-Bandbreite. GPT-4-äquivalente Leistung kostet jetzt 0,40 $/Million Token gegenüber 20 $ Ende 2022. Cloud-H100-Preise stabilisierten sich...

Blake Crosley

Feb 09, 2026 8 min read Disclaimer

Inference-Stückökonomie: Die wahren Kosten pro Million Token

Aktualisiert am 8. Dezember 2025

Dezember 2025 Update: Die Kosten für LLM-Inferenz sanken jährlich um das 10-fache – schneller als PC-Rechenleistung oder Dotcom-Bandbreite. GPT-4-äquivalente Leistung kostet jetzt 0,40 $/Million Token gegenüber 20 $ Ende 2022. Cloud-H100-Preise stabilisierten sich bei 2,85-3,50 $/Stunde nach einem Rückgang von 64-75% gegenüber den Höchstständen. DeepSeek störte den Markt mit 90% niedrigeren Preisen als etablierte Anbieter. Self-Hosted-Breakeven erfordert 50%+ GPU-Auslastung für 7B-Modelle, 10%+ für 13B-Modelle. Quantisierung reduziert Betriebskosten um 60-70%. Speculative Decoding senkt die Latenz um das 2-3-fache.

Der LLM-Inferenz-Markt widerspricht konventioneller Technologie-Ökonomie. Die Preise sanken schneller als PC-Rechenleistung während der Mikroprozessor-Revolution oder Bandbreite während des Dotcom-Booms – äquivalente Leistung kostet jedes Jahr 10-mal weniger.¹ Eine Fähigkeit, die Ende 2022 noch 20 $ pro Million Token kostete, kostet jetzt 0,40 $.² Dennoch haben Organisationen weiterhin Schwierigkeiten, ihre tatsächlichen Inferenz-Kosten zu verstehen, weil Token-basierte Preisgestaltung Infrastruktur-Realitäten verschleiert, GPU-Auslastung die tatsächliche Stückökonomie bestimmt und Optimierungstechniken zu Größenordnungsunterschieden in der Kosteneffizienz führen. Die Beherrschung der Inferenz-Ökonomie entscheidet darüber, ob KI-Deployments Wert generieren oder Kapital verbrennen.

Die Inference-Preislandschaft im Dezember 2025

API-Preise erstrecken sich über drei Größenordnungen, abhängig von Modellfähigkeit, Anbieter und Optimierung. Das Verständnis der aktuellen Landschaft bietet Kontext für wirtschaftliche Entscheidungen.

Budget-Tier-Modelle kosten jetzt Bruchteile eines Cents pro Million Token. Googles Gemini Flash-Lite führt mit 0,075 $ pro Million Input-Token und 0,30 $ pro Million Output-Token.³ Open-Source-Modelle über Anbieter wie Together.ai oder Hyperbolic erreichen noch niedrigere Werte – Llama 3.2 3B läuft bei 0,06 $ pro Million Token und erreicht MMLU-Scores von 42 bei 1/1000 der Kosten von vor drei Jahren.⁴

Mittelklasse-Produktionsmodelle balancieren Fähigkeit gegen Kosten. Claude Sonnet 4 kostet 3 $ pro Million Input-Token und 15 $ pro Million Output-Token.⁵ DeepSeeks R1-Modell störte den Markt mit 0,55 $ Input und 2,19 $ Output pro Million Token – 90% unter westlichen Wettbewerbern bei vergleichbarer Reasoning-Fähigkeit.⁶ Chinesische Anbieter unterbieten konsequent westliche Platzhirsche und führen Preisdruck ein, der allen Käufern zugutekommt.

Frontier-Capability-Modelle verlangen Premium-Preise. Claude Opus 4 kostet 15 $ pro Million Input-Token und 75 $ pro Million Output-Token.⁷ GPT-4 und ähnliche Frontier-Modelle haben ähnliche Preise, gerechtfertigt durch Fähigkeiten, die kleinere Modelle unabhängig von Kostenoptimierung nicht replizieren können.

Anbietervariation erhöht die Komplexität. Für identische Modelle variieren die Preise um das 10-fache zwischen günstigstem und teuerstem Anbieter.⁸ Ein Modell könnte 0,90 $ pro Million Token beim günstigsten Anbieter kosten, 3,50 $ im Median und 9,50 $ beim teuersten. Der Vergleich verschiedener Anbieter beeinflusst die Wirtschaftlichkeit erheblich, noch bevor technische Optimierung beginnt.

Asymmetrie bei Output-Token-Preisen spiegelt die tatsächlichen Kosten wider. OpenAI, Anthropic und Google berechnen Output-Token 3-5x höher als Input-Token, weil die Output-Generierung sequenzielle Verarbeitung erfordert, während die Input-Verarbeitung effizient parallelisiert.⁹ Anwendungen, die lange Outputs generieren, haben andere wirtschaftliche Rahmenbedingungen als solche, die lange Inputs mit kurzen Antworten verarbeiten.

Die wahren GPU-Infrastrukturkosten verstehen

Hinter der API-Preisgestaltung liegt GPU-Infrastruktur mit eigener Kostenstruktur. Das Verständnis dieser Ökonomie ermöglicht fundierte Build-versus-Buy-Entscheidungen.

Hardware-Anschaffungskosten beginnen hoch und akkumulieren weiter. NVIDIA H100-GPUs kosten 25.000-40.000 $ pro Karte, wobei komplette 8-GPU-Serversysteme inklusive Infrastruktur 200.000-400.000 $ erreichen.¹⁰ NVIDIAs Herstellungskosten liegen bei etwa 3.320 $ pro H100 – die Differenz zwischen Produktionskosten und Verkaufspreis spiegelt nachfragegetriebene Margen wider, die erst kürzlich zu moderieren begannen.

Cloud-GPU-Mietpreise haben sich nach dramatischen Rückgängen stabilisiert. H100-SXM-Instanzen reichen von 1,49 $/Stunde (Hyperbolic) bis 6,98 $/Stunde (Azure), wobei die meisten Anbieter nach 64-75% Rückgang von Höchstpreisen bei etwa 2,85-3,50 $/Stunde liegen.¹¹ Reservierte Kapazität reduziert die Raten weiter – Lambda Labs bietet 1,85 $/Stunde und Hyperstack beginnt bei 1,90 $/Stunde mit Bindung.

Strom- und Kühlungskosten potenzieren die Hardware-Ausgaben. Jede H100 verbraucht unter Last bis zu 700W. Multi-GPU-Cluster erfordern dedizierte Stromverteilungseinheiten, die potenziell 10.000-50.000 $ für Facility-Upgrades kosten.¹² Flüssigkühlungsinfrastruktur oder erweiterte HVAC-Systeme addieren 15.000-100.000 $ je nach Größenordnung. Diese Kosten amortisieren sich über GPU-Stunden, beeinflussen aber erheblich die Gesamtbetriebsökonomie.

Betrieblicher Overhead überbrückt die Lücke zwischen Hardware-Miete und tatsächlichen Kosten. Unter Berücksichtigung von Kühlung, Einrichtungen und Wartung kommen etwa 2-7 $ pro Stunde zu den reinen GPU-Mietpreisen hinzu, wodurch die wahren Betriebskosten für 8×H100 bei ordnungsgemäßer Amortisation auf 8-15 $/Stunde steigen.¹³ Organisationen, die Cloud-Miete mit API-Preisen vergleichen, müssen diese versteckten Kosten einbeziehen, um valide Vergleiche anzustellen.

Die Auslastungsgleichung, die über die Wirtschaftlichkeit entscheidet

GPU-Auslastung bestimmt, ob selbst gehostete Inferenz wirtschaftlich sinnvoll ist. Für eine GPU zu bezahlen, die mit 10% Last läuft, verwandelt 0,013 $ pro tausend Token in 0,13 $ – teurer als Premium-APIs.¹⁴

Breakeven-Analyse hängt von Modellgröße und Auslastungszielen ab. Das Hosting eines 7B-Modells erfordert etwa 50% Auslastung, um weniger als GPT-3.5 Turbo zu kosten.¹⁵ Ein 13B-Modell erreicht Kostenparität mit GPT-4-turbo bei nur 10% Auslastung, weil das Premium für die Fähigkeiten des größeren Modells die höhere Infrastrukturinvestition rechtfertigt. Die entscheidende Erkenntnis: Größere Modelle erreichen den Breakeven bei niedrigerer Auslastung, weil sie teurere API-Alternativen ersetzen.

Traffic-Muster bestimmen die erreichbare Auslastung. Organisationen mit konsistenten, vorhersehbaren Workloads erreichen höhere Auslastung als solche mit sporadischer Nachfrage. Verbraucherorientierte Anwendungen mit täglichen Traffic-Zyklen verschwenden GPU-Kapazität in Schwachlastzeiten, es sei denn, Workloads können verschoben oder die Infrastruktur dynamisch skaliert werden.

Anfragevolumen-Schwellenwerte etablieren die minimale wirtschaftliche Größenordnung. Analysen deuten darauf hin, dass mehr als 8.000 Gespräche pro Tag benötigt werden, bevor selbst gehostete Infrastruktur weniger kostet als verwaltete Lösungen.¹⁶ Unterhalb dieser Schwelle überwiegen die betriebliche Komplexität und die Fixkosten des Self-Hostings die potenziellen Einsparungen.

Batch-Verarbeitungsmöglichkeiten verbessern die Auslastungsökonomie. Organisationen mit aufschiebbaren Workloads – Offline-Analyse, Batch-Embeddings, Dataset-Verarbeitung – können die Nachfrage in Fenster mit hoher Auslastung aggregieren und so die effektive Auslastung auch bei variablem Echtzeit-Traffic verbessern. Die Mischung von Echtzeit- und Batch-Workloads auf gemeinsamer Infrastruktur optimiert die Kapitaleffizienz.

Kostenstruktur-Aufschlüsselung für Produktions-Deployments

Produktions-Inferenz-Kosten zerlegen sich in Komponenten, die einzeln optimiert werden können.

Modellladen und Speicher verbrauchen feste Ressourcen unabhängig vom Traffic. Ein 70B-Parameter-Modell in FP16 benötigt etwa 140GB GPU-Speicher – überschreitet die Kapazität einer einzelnen GPU und erfordert Multi-GPU-Konfigurationen.¹⁷ Speicherkosten skalieren mit der Modellgröße, nicht mit der Nutzung, was minimale Infrastrukturschwellen unabhängig vom Traffic-Volumen schafft.

Compute pro Token treibt die Grenzkosten während der Inferenz. Forward-Pass-Berechnung skaliert mit der Modellarchitektur – insbesondere Attention-Mechanismen bei langen Kontexten. Compute-Kosten sinken mit Batching, weil Matrixoperationen bei größeren Batch-Größen effizienter werden und den Overhead über mehr Token amortisieren.

KV-Cache-Speicher wächst mit Kontextlänge und gleichzeitigen Anfragen. Jede aktive Anfrage unterhält Key-Value-Caches, die Speicher proportional zur Kontextlänge verbrauchen. Anwendungen mit langem Kontext stehen vor Speicherdruck, der gleichzeitige Anfragen limitiert, den Durchsatz verschlechtert und die Kosten pro Token erhöht. KV-Cache-Management stellt ein primäres Optimierungsziel dar.

Netzwerk- und Speicher-I/O beeinflussen Multi-GPU- und verteilte Deployments. Inter-GPU-Kommunikation für Tensor-Parallelismus, das Laden von Modellgewichten aus dem Speicher und die Übertragung von Ergebnissen verbrauchen alle Ressourcen. Hochbandbreiten-Netzwerke (NVLink, InfiniBand) reduzieren I/O-Engpässe, erhöhen aber die Infrastrukturinvestition.

Betrieblicher Overhead umfasst Monitoring, Logging, Sicherheit und Management. Produktionssysteme erfordern Observability-Infrastruktur, Bereitschaftspersonal und kontinuierlichen Optimierungsaufwand. Organisationen unterschätzen diese "weichen" Kosten oft beim Vergleich von Self-Hosted mit API-Alternativen.

Optimierungstechniken, die die Wirtschaftlichkeit transformieren

Technische Optimierungen können die Inferenz-Kosten um 60-70% oder mehr senken und marginale Wirtschaftlichkeit in nachhaltige Vorteile verwandeln.¹⁸

Quantisierung reduziert die Präzision der Modellgewichte von 32-Bit-Gleitkomma auf 8-Bit- oder 4-Bit-Darstellungen. Die Technik schrumpft die Modellgröße um das 4-8-fache bei Beibehaltung akzeptabler Genauigkeit.¹⁹ 8-Bit-Quantisierung reduziert den Speicherverbrauch um 50% bei etwa 1% Genauigkeitsverlust. 4-Bit-Quantisierung erreicht 75% Größenreduktion bei wettbewerbsfähiger Leistung für viele Anwendungen. Die FP4-Unterstützung der Blackwell-GPUs ermöglicht 4-fache Leistungssteigerungen allein durch Quantisierung.

Continuous Batching gruppiert Anfragen dynamisch, anstatt auf den Abschluss fester Batches zu warten. Traditionelles Batching wartet, bis die längste Sequenz beendet ist, bevor neue Anfragen verarbeitet werden. Continuous Batching entfernt abgeschlossene Sequenzen sofort und beginnt mit neuen Anfragen, während andere noch in Bearbeitung sind.²⁰ Die Technik verbessert die GPU-Auslastung dramatisch für Workloads mit variabler Sequenzlänge – genau das Muster, das die meisten Produktions-Deployments aufweisen.

Speculative Decoding verwendet ein kleines "Draft"-Modell, um mehrere Token vorherzusagen, die ein größeres "Verification"-Modell parallel überprüft.²¹ Wenn Vorhersagen korrekt sind, werden mehrere Token pro Forward-Pass generiert statt des standardmäßigen einzelnen Tokens. Die Technik reduziert die Latenz um das 2-3-fache für Anwendungen, bei denen ein kleines Modell die Outputs des größeren Modells genau vorhersagen kann – besonders effektiv für eingeschränkte Domänen oder strukturierte Outputs.

KV-Cache-Optimierung einschließlich PagedAttention verwaltet Cache-Speicher wie virtuellen Speicher, reduziert Fragmentierung und ermöglicht höhere Parallelität.²² Cache-Kompressionstechniken reduzieren den Speicherbedarf weiter. Prefix-Caching vermeidet Neuberechnung, wenn Anfragen gemeinsame Präfixe teilen – wertvoll für Anwendungen mit strukturierten Prompts oder Systemanweisungen.

Modelldestillation erstellt kleinere Modelle, die das Verhalten größerer Modelle für spezifische Domänen approximieren. Ein destilliertes 7B-Modell, das GPT-4-Leistung bei gezielten Aufgaben erreicht, läuft bei einem Bruchteil der Infrastrukturkosten bei Beibehaltung anwendungsrelevanter Qualität.²³ Destillation erfordert Vorabinvestitionen in Training, produziert aber kontinuierliche Inferenz-Einsparungen.

Kombiniert potenzieren sich diese Techniken. Eine Organisation, die Quantisierung (4x), Continuous Batching (2x) und Speculative Decoding (2x) anwendet, könnte eine 16-fache effektive Kostenreduktion im Vergleich zu naivem Deployment erreichen – und transformiert Wirtschaftlichkeit, die marginal erschien, in substanzielle Vorteile.

API versus Self-Hosted Entscheidungsframework

Die Build-versus-Buy-Entscheidung hängt von Faktoren ab, die über den einfachen Kostenvergleich hinausgehen.

Wählen Sie API-Inferenz, wenn: - Traffic sporadisch oder unvorhersehbar ist - Volumen unter 8.000 Gesprächen pro Tag liegt - Engineering-Kapazität begrenzt ist - Schnelle Iteration bei der Modellauswahl wertvoll ist - Compliance-Anforderungen durch Anbieter-Zertifizierungen erfüllt werden - Latenzanforderungen den Anbieter-SLAs entsprechen

Wählen Sie Self-Hosted, wenn: - Traffic konsistent und hochvolumig ist - GPU-Auslastung nachhaltig 50% überschreiten kann - Datenhoheit die Nutzung von Cloud-APIs verhindert - Benutzerdefinierte Modelle spezialisiertes Serving erfordern - Latenzanforderungen die Anbieter-Fähigkeiten überschreiten - Kostenoptimierung die Engineering-Investition rechtfertigt

Hybride Ansätze erweisen sich oft als optimal. Organisationen routen Baseline

[Inhalt für Übersetzung gekürzt]

Inference-Stückökonomie: Die wahren Kosten pro Million Token

Die Inference-Preislandschaft im Dezember 2025

Die wahren GPU-Infrastrukturkosten verstehen

Die Auslastungsgleichung, die über die Wirtschaftlichkeit entscheidet

Kostenstruktur-Aufschlüsselung für Produktions-Deployments

Optimierungstechniken, die die Wirtschaftlichkeit transformieren

API versus Self-Hosted Entscheidungsframework

You Might Also Like

ROI-Rechner für Immersionskühlung: 2-4 Jahre Amortisation be...

UK AI Corridor: Londons aufstrebender Compute-Hub

vLLM-Produktionsbereitstellung: Aufbau einer Hochdurchsatz-I...

Angebot anfordern_

Anfrage erhalten_