Das chinesische AI-Labor DeepSeek veröffentlichte V3.2 im Jahr 2025, und das Modell erreichte 96,0% beim AIME 2025, während es $0,028 pro Million Input-Token kostete—etwa ein Zehntel der Kosten von GPT-5. Das Unternehmen stellte das gesamte 671-Milliarden-Parameter-Modell unter einer MIT-Lizenz als Open Source zur Verfügung und machte damit AI-Leistung der Spitzenklasse für jeden mit ausreichenden Rechenressourcen zugänglich. OpenAI, Google und Anthropic sehen sich nun direkter Konkurrenz durch ein Modell gegenüber, das ihre Flaggschiff-Produkte bei mathematischem Denken und Programmierung erreicht, während es ihre Preise um eine Größenordnung unterbietet.
DeepSeek erreichte diese Wirtschaftlichkeit durch architektonische Innovationen, die den rechnerischen Aufwand reduzieren, ohne die Qualität zu beeinträchtigen. Das Labor führte DeepSeek Sparse Attention (DSA) ein, ein feinkörniges Indexierungssystem, das bedeutende Teile langer Kontexte identifiziert und unnötige Berechnungen überspringt. DeepSeek verfeinerte auch seine Mixture-of-Experts-Architektur, um 256 spezialisierte Expert-Netzwerke pro Schicht zu verwenden, wobei nur 8 pro Token aktiviert werden, und eliminierte auxiliary losses durch einen neuartigen Bias-Term-Routing-Ansatz. Diese technischen Entscheidungen ermöglichten es DeepSeek, V3 für $5,5 Millionen zu trainieren—weniger als ein Zehntel dessen, was Konkurrenten berichten zufolge ausgeben—, und V3.2 baut direkt auf dieser effizienten Grundlage auf.
Die Veröffentlichung wirft grundlegende Fragen über den Wettbewerbsvorteil geschlossener Frontier-Modelle auf und ob Premium-Preise überleben können, wenn offene Alternativen vergleichbare Leistung zu dramatisch niedrigeren Kosten liefern.
Der DeepSeek-V3.2 Durchbruch
DeepSeek-V3.2 hat insgesamt 671 Milliarden Parameter, aber die Mixture-of-Experts-Architektur aktiviert nur 37 Milliarden pro Token. Das Unternehmen veröffentlichte 2025 zwei Varianten: V3.2 für den Mainstream-Einsatz und V3.2-Special für rechenintensive Reasoning-Aufgaben. V3.2-Special blieb vorübergehend bis zum 15. Dezember 2025 verfügbar, während V3.2 als primäres Produktionsmodell dient.
Das Modell erzielte 2025 goldmedaillenreife Leistungen in mehreren internationalen Wettbewerben, darunter die Internationale Mathematik-Olympiade (IMO), Chinesische Mathematik-Olympiade (CMO), International Collegiate Programming Contest (ICPC) und Internationale Informatik-Olympiade (IOI). DeepSeek-V3.2 erreichte 96,0% bei der American Invitational Mathematics Examination (AIME) 2025 und übertraf damit GPT-5 High's 94,6% und erreichte Gemini 3 Pro's 95,0%. Das Modell erzielte auch 99,2% beim Harvard-MIT Mathematics Tournament (HMMT) 2025, verglichen mit Gemini 3 Pro's 97,5%.
Preisvergleich
ModellCached InputStandard InputOutput
DeepSeek V3.2 $0.028/M tokens $0.28/M tokens $0.42/M tokens
GPT-5 — $1.25/M tokens $10/M tokens
Eine typische Arbeitsbelastung, die 100.000 Input-Token verarbeitet und 100.000 Output-Token generiert, kostet etwa $0.07 mit DeepSeek verglichen mit $1.13 mit GPT-5.
DeepSeek veröffentlichte V3.2 unter einer MIT-Lizenz und publizierte vollständige Modellgewichte auf Hugging Face. Organisationen können das Modell für kommerzielle Zwecke ohne Einschränkungen herunterladen, modifizieren und einsetzen, was lokale Bereitstellung zur Erfüllung von Datensouveränitätsanforderungen oder für individuelles Fine-Tuning in spezialisierten Bereichen ermöglicht.
## Architecture Deep Dive
Die technischen Innovationen von DeepSeek-V3.2 konzentrieren sich auf drei Bereiche: Sparse Attention für lange Kontexte, ein verfeinertes Mixture-of-Experts-Design und auxiliary-loss-freie Load-Balancing. Diese architektonischen Entscheidungen arbeiten zusammen, um Spitzenleistung zu liefern und gleichzeitig die Rechenkosten drastisch zu reduzieren.
DeepSeek Sparse Attention
Standard-Transformer-Attention-Mechanismen berechnen Beziehungen zwischen allen Token-Paaren in einer Sequenz, was zu quadratischer Rechenkomplexität führt, wenn die Kontextlänge zunimmt. Ein 128.000-Token-Kontext erfordert etwa 16 Milliarden Attention-Berechnungen (128.000²), was die Verarbeitung langer Kontexte selbst mit modernen Beschleunigern teuer macht. DeepSeek Sparse Attention adressiert den rechnerischen Engpass, indem es identifiziert, welche Tokens tatsächlich Attention benötigen und Berechnungen für weniger relevante Paare überspringt.
Das DSA-System führt einen fein granularen Index, der die semantische Wichtigkeit über das gesamte Kontextfenster verfolgt. Bei der Verarbeitung eines neuen Tokens fragt der Attention-Mechanismus den Index ab, um wertvolle Tokens zu identifizieren, die wahrscheinlich relevante Informationen enthalten, und berechnet dann vollständige Attention nur für diese ausgewählten Tokens. Der Ansatz unterscheidet sich von festen Sparse-Attention-Mustern (die möglicherweise auf jeden 10. Token achten) durch die dynamische Auswahl notwendiger Tokens basierend auf semantischem Inhalt anstatt positioneller Regeln.
DeepSeek führte DSA erstmals in V3.2-Exp im September 2025 ein und erreichte eine 50%ige Reduktion der Rechenkosten für Long-Context-Aufgaben bei gleichzeitiger Beibehaltung von Qualitätsmetriken, die mit denen der Dense Attention vergleichbar sind. Die Produktions-V3.2-Version erbt diese Effizienzgewinne und macht 128.000-Token-Kontexte für Hochvolumen-Anwendungen wirtschaftlich rentabel.
Die Sparse-Attention-Innovation ist besonders wichtig für Code-Verständnis, Dokumentenanalyse und mehrteilige Unterhaltungen, bei denen relevante Informationen überall in einer langen Historie auftreten können. Dense-Attention-Modelle verursachen exakt die gleichen Rechenkosten pro Token unabhängig von der Relevanz; DSA allokiert Rechenressourcen zu Tokens, die tatsächlich die Generierungsqualität beeinflussen.
Mixture-of-Experts-Grundlage
DeepSeek-V3.2 implementiert eine Mixture-of-Experts-Architektur mit 256 Expert-Netzwerken pro Schicht, gegenüber 160 Experten in V2. Das Modell aktiviert acht Experten pro Token: 1–2 geteilte Experten, die gemeinsame Muster über alle Eingaben hinweg behandeln, plus 6–7 geroutete Experten, die basierend auf dem Inhalt des Tokens ausgewählt werden. Die Gesamtparameteranzahl erreicht 671 Milliarden, aber nur 37 Milliarden Parameter aktivieren für jeden einzelnen Token, wodurch die Inference-Kosten handhabbar bleiben und gleichzeitig die Kapazität zur Spezialisierung erhalten bleibt.
Jedes Expert-Netzwerk spezialisiert sich durch Training, wobei verschiedene Experten Kompetenzen in Bereichen wie mathematisches Denken, Code-Generierung, wissenschaftliches Schreiben oder Konversationssprache entwickeln. Der Routing-Mechanismus lernt, mathematische Tokens zu mathematisch spezialisierten Experten zu senden, Code-Tokens zu Programmier-Experten und so weiter, wodurch das Modell Expert-Level-Performance über diverse Aufgaben erreichen kann, ohne alle 671 Milliarden Parameter zu aktivieren.
Die architektonische Entscheidung adressiert direkt einen fundamentalen Tradeoff im Sprachmodell-Design. Dense Modelle aktivieren alle Parameter für jeden Token, bieten konsistente Rechenleistung, begrenzen aber die Gesamtkapazität für ein gegebenes Inference-Budget. Sparse MoE-Modelle behalten enorme Gesamtkapazität bei, während sie nur eine Teilmenge der Parameter aktivieren, wodurch Spezialisierung über Domänen ermöglicht wird, die unplausibel große Dense Modelle erfordern würden.
DeepSeeks Implementierung widmet 1–2 geteilte Experten pro Schicht der Behandlung häufiger Muster über alle Eingabetypen: häufige Wörter, grundlegende Grammatik und einfache Denkschritte. Die geteilten Experten aktivieren für jeden Token unabhängig von Routing-Entscheidungen und stellen sicher, dass das Modell Grund-Kompetenz beibehält, bevor die spezialisierten Experten die Ausgabe verfeinern. Die Kombination aus geteilten und gerouteten Experten verhindert, dass das Modell bei Out-of-Distribution-Eingaben versagt, die möglicherweise nicht in die Trainingsdomäne irgendeines Experten fallen.
Auxiliary-Loss-Free Load Balancing
Mixture-of-Experts-Architekturen stehen vor einer Load-Balancing-Herausforderung: Routing-Mechanismen könnten die meisten Tokens an eine kleine Teilmenge von Experten senden, andere Experten unterausgelastet lassen und den Zweck spezialisierter Kapazität zunichtemachen. Training konvergiert typischerweise auf wenige dominante Experten, es sei denn, das System ermutigt aktiv zu ausgewogener Expert-Nutzung.
Standard-MoE-Implementierungen fügen auxiliary Loss-Terme zum Trainingsziel hinzu, die unausgewogene Expert-Nutzung bestrafen. Ein auxiliary Loss könnte messen, wie viele Tokens jeder Experte erhält und eine Strafe hinzufügen, wenn die Nutzung schief wird, wodurch der Routing-Mechanismus ermutigt wird, Tokens gleichmäßiger über Experten zu verteilen. Jedoch konkurrieren auxiliary Losses mit dem primären Ziel, das nächste Token korrekt vorherzusagen, wodurch möglicherweise die Modellqualität zugunsten besserer Load-Balance verschlechtert wird.
DeepSeek-V3.2 eliminiert auxiliary Losses vollständig und implementiert stattdessen Load-Balancing durch einen Bias-Term im Routing-Mechanismus. Der Router berechnet Affinitäts-Scores zwischen jedem Token und jedem Experten und fügt dann einen leichten negativen Bias zu Experten hinzu, die kürzlich viele Tokens erhalten haben. Der Bias-Term macht übernutzte Experten für zukünftige Routing-Entscheidungen etwas weniger attraktiv, ohne eine separate Loss-Funktion zu benötigen, die mit dem Qualitätsziel kollidiert.
Der Ansatz ermöglicht es DeepSeek, rein für Next-Token-Prediction zu optimieren, während durch den Bias-Mechanismus vernünftige Load-Balance aufrechterhalten wird. Das Modell eliminiert auch Token-Dropping während des Trainings (eine gängige Technik, bei der Modelle Berechnungen für manche Tokens überspringen, wenn die Expert-Kapazität voll ist), wodurch sichergestellt wird, dass jeder Token vollständige Verarbeitung von seinen ausgewählten Experten erhält.
Von V3 zu V3.2: Evolution der Effizienz
DeepSeeks Effizienz-Durchbruch begann mit V3 im Dezember 2024, als das Labor ein wettbewerbsfähiges Frontier-Modell für 5,5 Millionen Dollar mit 2,788 Millionen H800 GPU-Stunden trainierte. Konkurrenten sollen Berichten zufolge 100 Millionen Dollar oder mehr für das Training von Modellen wie GPT-4 ausgegeben haben, was DeepSeeks 95%ige Kostenreduzierung bereits vor den zusätzlichen Optimierungen von V3.2 bemerkenswert macht.
DeepSeek erreichte die V3-Trainingseffizienz durch mehrere technische Entscheidungen:
-
FP8 Mixed-Precision-Training anstelle der FP16- oder BF16-Präzision, die die meisten Konkurrenten verwendeten, wodurch die Speicherbandbreitenanforderungen etwa halbiert und größere Batch-Größen ermöglicht wurden
-
Custom DualPipe-Algorithmus für Pipeline-Parallelismus, der die GPU-Auslastung im Vergleich zu Standard-Pipeline-Ansätzen verbesserte
-
14,8 Billionen Trainings-Token (weniger als die 15+ Billionen Token, die für Modelle wie Llama 3.1 405B verwendet wurden) mit einem Multi-Token-Vorhersageziel, das die Sample-Effizienz verbesserte
Die V3-Grundlage lieferte wettbewerbsfähige Leistung bei drastisch niedrigeren Trainingskosten, aber das Modell verwendete standardmäßige dichte Attention für lange Kontexte. DeepSeek veröffentlichte V3.2-Exp im September 2025 als experimentelle Variante, die DeepSeek Sparse Attention einführte. Die experimentelle Veröffentlichung validierte, dass Sparse Attention die Verarbeitungskosten für lange Kontexte um 50% reduzieren konnte, ohne messbare Qualitätsverschlechterung bei wichtigen Benchmarks.
DeepSeek lancierte V3.2 und V3.2-Special im Jahr 2025 als produktionsreife Modelle, aufbauend auf den V3.2-Exp-Experimenten. V3.2 zielt auf den Mainstream-Einsatz in API- und Self-Hosted-Szenarien ab, während V3.2-Specialized High-Compute-Reasoning-Aufgaben wie mathematische Wettbewerbsprobleme und komplexe Coding-Herausforderungen betont.
Die Evolution von V3 zu V3.2 demonstriert DeepSeeks Fokus auf Trainings- und Inferenz-Effizienz anstatt auf reine Benchmark-Maximierung. Das Labor trainierte V3 für ein Zwanzigstel der Kosten vergleichbarer Modelle und führte dann architektonische Verfeinerungen in V3.2 ein, die die Inferenz-Kosten für Long-Context-Aufgaben etwa halbierten. Die sich verstärkenden Effizienzen ermöglichen es DeepSeek, die Preise der Konkurrenz um eine Größenordnung zu unterbieten und dabei ausreichende Margen für den Betrieb eines kommerziellen API-Dienstes aufrechtzuerhalten.
Benchmark Performance Analyse
DeepSeek-V3.2 erzielt starke Ergebnisse bei mathematischen Reasoning- und Coding-Benchmarks und zeigt wettbewerbsfähige, aber nicht führende Leistungen bei allgemeinen Wissensaufgaben. Das Leistungsprofil macht V3.2 besonders geeignet für technische Domänen, deutet aber darauf hin, dass Nutzer bei umfassendem Faktenabruf Konkurrenten bevorzugen.
Mathematik und Reasoning
BenchmarkDeepSeek V3.2GPT-5 HighGemini 3 Pro
AIME 2025 96.0% 94.6% 95.0%
HMMT 2025 99.2% — 97.5%
IMO 2025 Gold Medal — —
CMO 2025 Gold Medal — —
Putnam Gold Medal — —
DeepSeek-V3.2 erzielte 96.0% bei AIME 2025 und übertraf damit GPT-5 Highs 94.6% und erreichte Gemini 3 Pros 95.0%. Das Modell löste nahezu alle Probleme einer Prüfung korrekt, die darauf ausgelegt ist, die besten Mathematikschüler der Vereinigten Staaten zu identifizieren, und demonstrierte starke Leistungen bei mehrstufigem algebraischen und geometrischen Reasoning.
Das Modell erreichte 99.2% bei HMMT 2025 und übertraf damit Gemini 3 Pros 97.5%. HMMT-Probleme erfordern fortgeschrittene mathematische Techniken jenseits typischer Highschool-Lehrpläne, einschließlich komplexer Zahlentheorie, Kombinatorik und beweisbasiertem Reasoning. DeepSeek-V3.2s nahezu perfekte Leistung deutet darauf hin, dass das Modell Mathematik auf Universitätsniveau zuverlässig bewältigt.
Coding Performance
BenchmarkDeepSeek V3.2GPT-5Gemini 3 Pro
LiveCodeBench 83.3% 84.5% 90.7%
SWE Multilingual 70.2% 55.3% —
SWE Verified 73.1% — 76.2%
Codeforces Rating 2701 (Grandmaster) — —
DeepSeek-V3.2 erreichte 83.3% bei LiveCodeBench und lag damit hinter GPT-5s 84.5% und Gemini 3 Pros 90.7%. LiveCodeBench evaluiert Code-Generierung bei kürzlich veröffentlichten Programmierproblemen und testet, ob Modelle ihr Training auf neuartige Herausforderungen anwenden können, anstatt Lösungen für gängige Benchmark-Probleme auswendig zu lernen.
DeepSeek-V3.2 erzielte 70.2% bei SWE Multilingual und übertraf damit GPT-5s 55.3% erheblich. SWE Multilingual testet die Fähigkeit des Modells, bestehende Codebasen in mehreren Programmiersprachen zu modifizieren, und erfordert das Verständnis von Code-Struktur, sprachspezifischen Idiomen und Refactoring-Patterns. DeepSeeks 15-Prozentpunkt-Vorsprung gegenüber GPT-5 zeigt starke Leistungen bei Code-Verständnis- und Modifikationsaufgaben an.
DeepSeek-V3.2 erreichte ein Codeforces-Rating von 2701 und platzierte das Modell in der Grandmaster-Kategorie. Das 2701-Rating übertrifft 99.8% der menschlichen Competitive Programmer und zeigt Coding-Fähigkeiten auf Expertenebene an.
Allgemeinwissen und umfassende Bewertung
DeepSeek-V3.2 erzielte 30.6% bei Humanity's Last Exam und lag damit hinter Gemini 3 Pros 37.7%. Humanity's Last Exam testet bewusst die Grenzen aktueller AI-Fähigkeiten mit Fragen zu obskuren Trivia, kreativem Reasoning und Domänenexpertise in Bereichen wie Kunstgeschichte, klassischer Musik und spezialisiertem wissenschaftlichen Wissen. Die 7-Punkt-Lücke deutet darauf hin, dass Gemini 3 Pro umfassenderes faktisches Wissen bewahrt, insbesondere in nicht-technischen Domänen.
Das Leistungsmuster über die Benchmarks hinweg zeigt DeepSeek-V3.2s Positionierung: Das Modell glänzt bei präzisem technischen Reasoning in Mathematik und Programmierung, während es bei allgemeinen Wissensaufgaben wettbewerbsfähige, aber nicht dominante Leistungen zeigt.
## Die Wirtschaftlichkeit: 10–25× Kostenvorteil
DeepSeek-V3.2's Preisstruktur liefert dramatische Kosteneinsparungen im Vergleich zu konkurrierenden Frontier-Modellen, wobei der Vorteil je nach Workload-Eigenschaften und Cache-Nutzung variiert.
API-Preisvergleich
DeepSeek berechnet $0,028 pro Million Input-Token bei der Bereitstellung aus dem Cache, $0,28 pro Million Input-Token bei einem Cache-Miss und $0,42 pro Million Output-Token. Die Cache-Eingabepreise gelten, wenn das Modell kürzlich identischen Kontext verarbeitet hat, wodurch DeepSeek vorherige Berechnungen wiederverwenden kann, anstatt Token von Grund auf zu verarbeiten.
OpenAI berechnet $1,25 pro Million Input-Token und $10 pro Million Output-Token für GPT-5, ohne differenzierte Cache-Preise.
Beispiel: 100K Input + 100K Output Token
ModellKosten
DeepSeek V3.2 (50% Cache) $0,070
GPT-5 $1,125
GPT-5-mini $0,225
Gemini 3 Pro (Schätzung) $1,10–1,30
Claude 4.5 Sonnet (Schätzung) $1,30–1,80
DeepSeek liefert etwa 16× Kosteneinsparungen im Vergleich zu GPT-5 für ausgewogene Lese-Schreib-Workloads.
Beispiel: Cache-intensiver Workload (1M Input @ 80% Cache + 200K Output)
ModellKosten
DeepSeek V3.2 $0,106
GPT-5 $3,25
GPT-5-mini $0,65
DeepSeeks 31× Vorteil gegenüber GPT-5 bei cache-intensiven Workloads macht das Modell besonders attraktiv für Anwendungen, die wiederholt ähnliche Kontexte verarbeiten.
Innovation bei Trainingskosten
DeepSeek trainierte V3 für $5,5 Millionen unter Verwendung von 2.788 Millionen H800 GPU-Stunden, verglichen mit berichteten Trainingskosten von über $100 Millionen für Modelle wie GPT-4. Die Kostenberechnung geht von $2 pro H800 GPU-Stunde aus, was typische Cloud-Preise für hochvolumige reservierte Kapazitäten widerspiegelt.
Die $5,5 Millionen Trainingskosten schaffen grundlegend andere Wirtschaftlichkeit für die Modellentwicklung. Organisationen, die wettbewerbsfähige Modelle für unter $10 Millionen trainieren, können schnell iterieren, mit neuartigen Architekturen experimentieren und gelegentliche fehlgeschlagene Trainingsläufe ohne existenzielles finanzielles Risiko verkraften. Labs, die $100+ Millionen pro Trainingslauf ausgeben, stehen unter erheblichem Druck, Benchmark-Ergebnisse beim ersten Versuch zu maximieren, was möglicherweise architektonische Experimente abschreckt.
Wirtschaftliche Auswirkungen für die Bereitstellung
Der 10–25× Kostenvorteil verändert die Bereitstellungsökonomie für hochvolumige Anwendungen:
Beispiel: Kundenservice-Anwendung, die 10 Milliarden Token/Monat verarbeitet
Modell Monatliche Kosten Jährlicher Unterschied
DeepSeek V3.2 $2.800 —
GPT-5 $12.500–15.000 $116.000–146.000
Die Wirtschaftlichkeit ermöglicht auch völlig neue Anwendungskategorien, die bei GPT-5-Preisen unwirtschaftlich bleiben: Hintergrund-Code-Analyse, die kontinuierlich über große Repositories läuft, proaktive Dokumentzusammenfassung für Wissensbasen oder spekulative Abfragenbeantwortung werden bei DeepSeeks Preispunkt rentabel. Die Kostenstruktur verschiebt AI von einem Premium-Feature, das explizite Benutzeraktivierung erfordert, zu einer Hintergrundfähigkeit, die kontinuierlich im Hintergrund läuft.
## Open Source Implikationen
DeepSeek veröffentlichte V3.2 unter einer MIT-Lizenz und bietet damit uneingeschränkten Zugang zu Modellgewichten sowie die Erlaubnis für kommerzielle Nutzung, Modifikation und Weiterverbreitung. Diese Lizenzentscheidung macht KI-Performance auf Frontier-Niveau für jede Organisation mit ausreichender Inferenz-Infrastruktur verfügbar und verändert die Wettbewerbsdynamik in der KI-Branche grundlegend.
Lizenzbedingungen und Verfügbarkeit
Die MIT-Lizenz stellt minimale Einschränkungen auf: Nutzer müssen Copyright-Hinweise und Haftungsausschlüsse beibehalten, aber unterliegen keinen Beschränkungen bei kommerzieller Bereitstellung, proprietären Modifikationen oder Weiterverbreitung. Organisationen können V3.2s 671-Milliarden-Parameter-Modellgewichte von Hugging Face herunterladen und auf interner Infrastruktur ohne laufende Lizenzgebühren, Umsatzbeteiligung oder Nutzungseinschränkungen bereitstellen.
Die Lizenz erlaubt Fine-Tuning von V3.2 auf proprietären Datensätzen zur Erstellung spezialisierter Varianten für Domänen wie Rechtsanalyse, medizinische Schlussfolgerungen oder Finanzmodellierung. Organisationen können fine-getunete Gewichte privat halten anstatt sie öffentlich freizugeben, was Wettbewerbsdifferenzierung durch Domänenanpassung ermöglicht.
Demokratisierung von Frontier AI
DeepSeeks Veröffentlichung macht GPT-5-konkurrierende Performance für Organisationen zugänglich, die zuvor von Frontier-KI-Fähigkeiten ausgeschlossen waren:
-
Startups: Ein gut finanziertes Startup kann V3.2 auf gemieteter GPU-Infrastruktur für etwa 20.000–50.000 Dollar monatlich bereitstellen
-
Akademische Forscher: Können V3.2 lokal für einmalige Infrastrukturkosten betreiben anstatt pro Token zu zahlen, was die meisten Förderbudgets übersteigen würde
-
Regulierte Branchen: Gesundheitsdienstleister, Finanzinstitutionen und Regierungsbehörden können vollständig vor Ort bereitstellen und sensible Informationen verarbeiten, ohne Daten an externe APIs zu senden
Druck auf Closed Model Economics
DeepSeeks wettbewerbsfähige Open Release zwingt Anbieter geschlossener Modelle, ihre Premium-Preise zu rechtfertigen. OpenAI verlangt 10–25× mehr als DeepSeek für vergleichbare Performance, was Kunden dazu zwingt, Faktoren jenseits reiner Leistungsmetriken zu bewerten. Potenzielle Rechtfertigungen umfassen überlegenen Kundensupport, bessere Integrations-Tools, reifere Ökosysteme oder stärkere Sicherheitsleitplanken—aber der Kostendifferenz erfordert erhebliche qualitative Vorteile zur Überwindung.
Der Preisdruck verstärkt sich, da mehr Organisationen Expertise in der Bereitstellung und dem Betrieb offener Modelle gewinnen. Die Infrastrukturkomplexität bietet derzeit einen Schutzgraben für geschlossene APIs; viele Teams zahlen lieber einen Aufpreis, um die Verwaltung von GPU-Clustern, den Umgang mit Modellquantisierung und das Debugging von Inferenz-Problemen zu vermeiden. Jedoch erodieren Verbesserungen im Tooling und wachsende Engineering-Vertrautheit mit Open Model Deployment allmählich die operationellen Vorteile von API-only Services.
Produktionsbereitstellung Vorteile
DeepSeek-V3.2s technische Eigenschaften und offene Verfügbarkeit schaffen mehrere Vorteile für die Produktionsbereitstellung über reine Kosteneinsparungen hinaus.
Effizienz bei langen Kontexten
DeepSeek-V3.2 unterstützt 128.000-Token-Kontexte und verarbeitet lange Eingaben effizient durch DeepSeek Sparse Attention. Der Sparse Attention Mechanismus reduziert die Rechenkosten um etwa 50% bei langen Kontexten im Vergleich zu Dense Attention, wodurch die Verarbeitung von 128K-Token auch für hochvolumige Anwendungen wirtschaftlich machbar wird.
Die erweiterte Kontextkapazität ermöglicht Anwendungen, die mit Modellen mit kürzeren Fenstern unpraktisch bleiben:
-
Code-Verständnis: Ganze Repositories (oft 50.000–100.000 Token für mittelgroße Projekte) passen in einen einzigen V3.2-Kontext
-
Dokumentenanalyse: Mehrere vollständige Artikel oder Berichte ohne Chunking-Strategien
-
Mehrstufige Gespräche: Vollständige Historienbewahrung ohne Kürzung früher Austausche
Kosteneffiziente Skalierung
DeepSeeks 10–25× Preisvorteil im Vergleich zu GPT-5 ermöglicht es Anwendungen, auf größere Nutzerbasen oder höhere Pro-Nutzer-Volumen zu skalieren, ohne proportionale Kostenanstiege. Eine Anwendung könnte sich 1.000 GPT-5-Abfragen pro Nutzer pro Tag bei aktuellen Preisen leisten, aber könnte 10.000–25.000 Abfragen pro Nutzer pro Tag zu gleichwertigen Kosten mit DeepSeek unterstützen.
Kosteneffizienz kommt besonders agentic workflows zugute, bei denen Sprachmodelle mehrere Tool-Aufrufe, Selbstkritik und iterative Verfeinerungen für eine einzelne Nutzeranfrage ausführen. Ein Agent könnte 100.000–500.000 Token verbrauchen, um eine komplexe Abfrage zu verarbeiten, einschließlich Recherche, Planung, Ausführung und Verifikation. DeepSeeks Preisgestaltung macht ausgeklügelte agentic Systeme wirtschaftlich machbar für Mainstream-Anwendungen.
Self-Hosting Flexibilität
Organisationen können V3.2 auf interner Infrastruktur bereitstellen und erhalten so vollständige Kontrolle über Datenverarbeitung, Modellverhalten und Betriebskosten. Self-Hosting eliminiert Bedenken bezüglich API-Provider-Zuverlässigkeit, Rate Limiting oder Richtlinienänderungen, die den Service stören könnten.
Self-hosted Bereitstellung ermöglicht benutzerdefinierte Modifikationen, die mit API-only Services unmöglich sind:
-
Fine-Tuning auf proprietären Datensätzen
-
Anpassung der Ausgabeformatierung an interne Standards
-
Modifikation von Sicherheitsfiltern für spezialisierte Kontexte
-
Enge Integration mit internen Systemen
Hardwareanforderungen für V3.2-Bereitstellung hängen von Durchsatzanforderungen und Quantisierungstoleranz ab:
| Präzision | Speicherbedarf | GPU-Konfiguration |
|---|---|---|
| Full FP16 | ~1.3TB | 8–16 H100/A100 (80GB) |
| 8-bit quantized | ~670GB | 4–8 H100/A100 (80GB) |
| 4-bit quantized | ~335GB | 2–4 H100/A100 (80GB) |
| ## ## Stärken vs. Einschränkungen | ||
| Das Verständnis von DeepSeek-V3.2's Leistungsprofil hilft Organisationen dabei, geeignete Modelle für ihre Anwendungsfälle auszuwählen. |
Wo DeepSeek Excellt
-
Mathematisches Schlussfolgern: 96,0% AIME, 99,2% HMMT, Goldmedaillen bei IMO/CMO/Putnam demonstrieren erstklassige Fähigkeiten
-
Code-Analyse und Refactoring: 70,2% SWE Multilingual übertrifft GPT-5's 55,3% erheblich
-
Competitive Programming: 2701 Codeforces Rating (Grandmaster-Level, übertrifft 99,8% aller Menschen)
-
Kosteneffizienz: 10–25× Preisvorteil ermöglicht zuvor unpraktische Anwendungsfälle
-
Langer Kontext: 50% Kostenreduzierung durch sparse attention für 128K Eingaben
-
Offene Verfügbarkeit: MIT-Lizenz ermöglicht Anpassung, Self-Hosting und vollständige Datenkontrolle
Aktuelle Einschränkungen
-
Breite des Allgemeinwissens: 30,6% bei Humanity's Last Exam vs. Gemini's 37,7%
-
Neue Code-Generierung: Gemini 3 Pro's 90,7% LiveCodeBench übertrifft V3.2's 83,3%
-
Ecosystem-Reife: GPT-4/5 hat umfangreiche Tooling, Frameworks und Drittanbieter-Integrationen
-
Inference-Optimierung: Reifere Alternativen können anfangs besseren Durchsatz erzielen
-
Self-Hosting-Komplexität: Erfordert GPU-Infrastruktur-Expertise und operative Prozesse
Anwendungsfall-Empfehlungen
Priorisieren Sie DeepSeek-V3.2 für:
-
Mathematische Schlussfolgern-Anwendungen, die hohe Genauigkeit erfordern
-
Code-Analyse, Refactoring und Verständnis über große Codebasen hinweg
-
Hochvolumige API-Deployments, bei denen Kosten architektonische Entscheidungen bestimmen
-
Batch-Processing-Workloads mit hohen Cache-Hit-Raten
-
Anwendungen, die Datensouveränität durch On-Premises-Deployment erfordern
-
Forschungsprojekte, die umfangreichen Modellzugriff ohne prohibitive API-Kosten benötigen
Erwägen Sie Alternativen, wenn:
-
Breites Allgemeinwissen über verschiedene Domänen hinweg die Anwendungsqualität bestimmt.
-
Ecosystem-Reife und umfangreiche Tooling-Integration Premium-Preise rechtfertigen.
-
Maximale Code-Generierungsqualität für neue Programmierherausforderungen wichtiger als Kosten ist.
-
Operative Einfachheit und Vendor-Support Kostenüberlegungen überwiegen.
-
Anwendungen spezielle Sicherheitseigenschaften oder Content-Filterung erfordern.
Die Wettbewerbslandschaft
Die Veröffentlichung von DeepSeek-V3.2 verschärft die Konkurrenz im Frontier-AI-Markt, indem sie eine offene, kostengünstige Alternative zu geschlossenen Premium-Services bietet.
DeepSeek vs. GPT-5
DimensionDeepSeek V3.2GPT-5
AIME 2025 96,0% 94,6%
LiveCodeBench 83,3% 84,5%
Kosten 10–25× günstiger Premium
Verfügbarkeit Offene Gewichte, MIT Nur API
Ökosystem Wachsend Ausgereift
Organisationen sollten GPT-5 wählen, wenn Ökosystem-Integration, Anbieter-Support und betriebliche Einfachheit 10–25× höhere Kosten rechtfertigen. Organisationen sollten DeepSeek-V3.2 wählen, wenn Kosteneffizienz, Anpassungsflexibilität oder Datensouveränitätsanforderungen die Ökosystem-Vorteile von GPT-5 überwiegen.
DeepSeek vs. Gemini 3 Pro
DimensionDeepSeek V3.2Gemini 3 Pro
AIME 2025 96,0% 95,0%
HMMT 2025 99,2% 97,5%
LiveCodeBench 83,3% 90,7%
Humanity's Last Exam 30,6% 37,7%
Kosten 10–20× günstiger Premium
Anwendungen, die mathematische Korrektheit, technisches Reasoning oder Code-Verständnis betonen, entsprechen DeepSeeks Stärken, während solche, die umfangreiches Allgemeinwissen oder hochmoderne Code-Generierung erfordern, möglicherweise bessere Ergebnisse mit Gemini erzielen.
DeepSeek vs. Claude 4
DimensionDeepSeek V3.2Claude 4.5 Sonnet
Context Window 128K 200K
Reasoning Vergleichbar Vergleichbar
Kosten 13–18× günstiger Premium
Gesprächsqualität Gut Optimiert für Hilfsbereitschaft
Organisationen, die Output-Qualität und natürlichen Gesprächsfluss priorisieren, könnten Claudes sorgfältiges Training für hilfreiche, unschädliche und ehrliche Interaktionen bevorzugen. Organisationen, die technische Korrektheit und Kosteneffizienz priorisieren, werden feststellen, dass DeepSeek vergleichbares Reasoning zu einem dramatisch niedrigeren Preis liefert.
Marktpositionierungs-Zusammenfassung
DeepSeek-V3.2 etabliert eine wertorientierte Position im Frontier-AI-Markt: wettbewerbsfähige Performance bei 10–25× niedrigeren Kosten als geschlossene Alternativen. Die Positionierung erzeugt Druck im gesamten Markt, indem sie geschlossene Anbieter dazu zwingt, Premium-Preise durch Ökosystem-Vorteile, Support-Qualität oder bedeutsame Performance-Unterschiede zu rechtfertigen.
Der Markt scheint auf eine stärkere Segmentierung zuzusteuern, bei der geschlossene Premium-Services um Qualität und Benutzerfreundlichkeit konkurrieren, während offene Alternativen um Kosten und Flexibilität konkurrieren.
## Infrastruktur-Überlegungen
Die effektive Bereitstellung von DeepSeek-V3.2 erfordert eine sorgfältige Betrachtung der Hardware-Anforderungen, Betriebsansätze und Integrationsmuster.
Bereitstellungsoptionen
DeepSeek API bietet den einfachsten Bereitstellungsweg. Organisationen können V3.2 über Standard-REST-APIs integrieren, ohne die Infrastruktur verwalten zu müssen. Teams ohne GPU-Expertise oder Organisationen mit geringen Nutzungsvolumen stellen oft fest, dass die offizielle API optimale Wirtschaftlichkeit und operative Einfachheit bietet.
Selbst gehostete Cloud-Bereitstellung bietet ein Gleichgewicht zwischen Kontrolle und verwalteter Infrastruktur. Organisationen können V3.2 auf Cloud-GPU-Instanzen von AWS, Google Cloud oder Azure bereitstellen. Cloud-Bereitstellung kostet typischerweise $20.000–50.000 pro Monat und wird kostenkonkurrenzfähig mit DeepSeeks API bei 100–300 Milliarden monatlichen Tokens.
On-Premises-Bereitstellung bietet maximale Kontrolle und Datensouveränität. Erfordert erhebliche Vorabkapitalinvestitionen ($300.000–800.000 für einen produktionsbereiten GPU-Cluster) plus laufende Betriebskosten. Macht wirtschaftlich Sinn für Organisationen mit bestehender GPU-Infrastruktur, regulatorischen Anforderungen oder extrem hohen Nutzungsvolumen.
Hybride Ansätze kombinieren mehrere Strategien – Nutzung der API für Standard-Traffic während On-Premises-Inferenz für sensible Daten läuft.
Integrationsmuster
-
API-first Integration: Standard-REST-APIs mit Request-Response-Mustern, die Backend-Entwicklern vertraut sind
-
Lokale Bereitstellung für sensible Daten: Verarbeitung vertraulicher Informationen ohne externe API-Aufrufe
-
Batch-Processing-Optimierung: Strukturierung von Arbeitslasten zur Maximierung der Cache-Trefferquoten
-
Cache-Nutzungsstrategien: Identifizierung häufig verwendeter Kontexte und Strukturierung von Anfragen zur Nutzung des Cachings (kann Kosten um 50–70% reduzieren)
Operative Expertise
Die Bereitstellung produktionsmaßstäblicher GPU-Infrastruktur erfordert spezialisierte Expertise in Hochleistungsrechnen, Modelloptimierung und Inferenzsystem-Debugging. Organisationen müssen Treiber-Updates, Wärmeverwaltung, Hardware-Ausfälle, Modellquantisierung, Batch-Processing-Optimierung und Leistungsüberwachung handhaben.
Für Organisationen, die großmaßstäbliche Bereitstellungen erwägen, kann die Partnerschaft mit spezialisierten Infrastrukturanbietern die operative Komplexität bewältigen und gleichzeitig die Kostenvorteile des Self-Hostings nutzen.
## Ausblick
Die Veröffentlichung von DeepSeek-V3.2 markiert einen bedeutsamen Moment in der Entwicklung der AI-Branche, aber die Technologie entwickelt sich weiterhin rasant.
Modellentwicklung
DeepSeek verfeinert weiterhin V3.2 und entwickelt zukünftige Versionen. Der von V3 demonstrierte Durchbruch bei den Trainingskosten ($5,5 Millionen vs. $100+ Millionen bei Konkurrenten) deutet auf erheblichen Spielraum für weitere Effizienzverbesserungen hin. Jeder Effizienzgewinn potenziert sich mit vorherigen Verbesserungen und könnte DeepSeeks Kostenvorteil gegenüber geschlossenen Konkurrenten vergrößern.
Community Fine-Tuning wird wahrscheinlich spezialisierte V3.2-Varianten hervorbringen, die für spezifische Bereiche optimiert sind—medizinisch, juristisch, wissenschaftlich oder Code-Repositories—und Expertenmodelle schaffen, die von allgemeinen Anbietern nicht verfügbar sind.
Branchenauswirkungen auf die Preisgestaltung
DeepSeeks 10–25× Preisvorteil zwingt geschlossene Anbieter dazu, ihre Premium-Positionierung zu rechtfertigen oder Preise zu senken. Geschlossene Anbieter könnten:
-
Märkte expliziter segmentieren mit Premium- vs. günstigeren Tarifen.
-
Qualitative Unterscheidungsmerkmale betonen (Ökosystem, Sicherheit, Support)
-
Fähigkeitsentwicklung beschleunigen, um Leistungsunterschiede aufrechtzuerhalten.
Preisdruck scheint unvermeidlich. Die Existenz glaubwürdiger offener Alternativen zu 10–25× niedrigeren Kosten verändert grundlegend die Bereitschaft der Kunden, Premium-Preise für bescheidene Qualitätsverbesserungen zu zahlen.
Beschleunigung des Open Source-Fortschritts
DeepSeeks offene Veröffentlichung auf Spitzenniveau demonstriert, dass offene Entwicklung sowohl in Fähigkeiten als auch in Effizienz mit geschlossener Forschung mithalten kann. Diese Validierung ermutigt zu zusätzlichen Investitionen in offene AI-Forschung.
Die MIT-Lizenz ermöglicht Community-Beiträge, die den Fortschritt über DeepSeeks interne Entwicklungsgeschwindigkeit hinaus beschleunigen. Optimierte Inferenz-Engines, Quantisierungstechniken, Fine-Tuning-Frameworks und Deployment-Tools entstehen durch verteilte Community-Anstrengungen.
Offene Frontier-Modelle ermöglichen auch Sicherheitsforschung, die mit geschlossenen Alternativen unmöglich ist. Wissenschaftler können interne Repräsentationen studieren, Sicherheitseigenschaften erschöpfend testen, Bias systematisch messen und Fehlermodi analysieren, ohne auf API-Zugang angewiesen zu sein.
Auswirkungen auf die AI-Infrastruktur
DeepSeeks Effizienz-Durchbruch verändert die Infrastrukturplanung für AI-Deployment. Organisationen, die zuvor annahmen, dass Frontier-AI ausschließlich API-Zugang erfordert, stehen nun vor praktikablen Self-Hosting-Optionen.
Hardwarehersteller sehen sich steigender Nachfrage nach inferenz-optimierten Beschleunigern gegenüber. Die Expertise, die für das Deployment produktiver AI-Infrastruktur erforderlich ist, wird zunehmend wertvoll, da mehr Organisationen Self-Hosting-Strategien verfolgen.
Fazit
DeepSeek-V3.2 liefert KI-Leistung auf Spitzenniveau zu 10–25× geringeren Kosten als geschlossene Alternativen, ermöglicht durch eine Kombination aus architektonischen Innovationen und Durchbrüchen bei der Trainingseffizienz. Das Modell erreicht oder übertrifft GPT-5 und Gemini 3 Pro bei mathematischen Reasoning-Benchmarks, während es deren API-Preise um eine Größenordnung unterbietet – alles bei vollständiger offener Verfügbarkeit unter einer MIT-Lizenz.
Wichtige technische Errungenschaften:
-
DeepSeek Sparse Attention für effiziente Long-Context-Verarbeitung (50% Kostenreduktion)
-
Verfeinerte Mixture-of-Experts-Architektur mit 256 gerouteten Experten (671B gesamt, 37B aktiv pro Token)
-
Auxiliary-loss-freie Load-Balancing-Optimierung ausschließlich für Generierungsqualität
-
V3 trainiert für 5,5 Millionen $ unter Verwendung von FP8 Mixed Precision und neuartigen Parallelismus-Techniken
Performance-Highlights:
-
96,0% AIME 2025 (übertrifft GPT-5 Highs 94,6%)
-
99,2% HMMT 2025 (übertrifft Gemini 3 Pros 97,5%)
-
Goldmedaillen bei IMO, CMO und Putnam
-
2701 Codeforces Grandmaster Rating
-
70,2% SWE Multilingual (übertrifft GPT-5s 55,3% um 15 Punkte)
Die offene MIT-Lizenz ermöglicht Self-Hosted-Deployment, Fine-Tuning und vollständige Datenkontrolle – Features, die mit geschlossenen Alternativen unmöglich sind. Organisationen können V3.2 auf interner Infrastruktur deployen, um Datensouveränitätsanforderungen zu erfüllen, das Modell für spezialisierte Domänen modifizieren oder Sicherheitsforschung mit vollständigem Zugang zu den Modellinterna betreiben.
Geschlossene Anbieter stehen unter Druck, Premium-Preise durch Ökosystem-Vorteile, überlegenen Support oder bedeutsame Performance-Unterschiede zu rechtfertigen – und die erforderlichen Differenzierungsmerkmale müssen einen 10–25× Kostennachteil überwinden. DeepSeek-V3.2 zeigt, dass offene Entwicklung sowohl bei Capability als auch Effizienz mit geschlossener Forschung mithalten kann, was die Machbarkeit offener Frontier-KI validiert und wahrscheinlich Investitionen in transparente Modellentwicklung beschleunigt.
References
DeepSeek Technische Dokumentation
DeepSeek-AI. "DeepSeek-V3 Technical Report." arXiv:2412.19437, Dezember 2024.https://arxiv.org/abs/2412.19437
DeepSeek-AI. "DeepSeek-V3.2 Technical Report and Model Release." DeepSeek Research, 2025.https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek-V3.2 Model Weights." Hugging Face Model Hub, 2025.https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek Platform and API Documentation." Abgerufen am 1. Dezember 2025.https://platform.deepseek.com/docs
DeepSeek-AI. "DeepSeek-V3.2-Exp and V3.2-Speciale Release Announcement." DeepSeek Blog, September 2025.https://www.deepseek.com/news
API-Preise und Dokumentation
DeepSeek. "API-Preisdokumentation." Aufgerufen am 1. Dezember 2025.https://platform.deepseek.com/pricing
OpenAI. "API-Preise." Aufgerufen am 1. Dezember 2025.https://openai.com/api/pricing
OpenAI. "OpenAI Nutzungsbedingungen." Aufgerufen am 1. Dezember 2025.https://openai.com/policies/terms-of-use
Google Cloud. "Vertex AI Preise: Gemini Modelle." Aufgerufen am 1. Dezember 2025.https://cloud.google.com/vertex-ai/generative-ai/pricing
Anthropic. "API-Preise." Aufgerufen am 1. Dezember 2025.https://www.anthropic.com/pricing
Anthropic. "Claude API-Dokumentation." Aufgerufen am 1. Dezember 2025.https://docs.anthropic.com/en/api
Benchmark-Organisationen und Wettbewerbsergebnisse
Mathematical Association of America. "American Invitational Mathematics Examination (AIME)." Zugriff am 1. Dezember 2025.https://maa.org/math-competitions/invitational-competitions/aime
Harvard-MIT Mathematics Tournament. "About HMMT." Zugriff am 1. Dezember 2025.https://www.hmmt.org
International Mathematical Olympiad. "About the IMO." Zugriff am 1. Dezember 2025.https://www.imo-official.org/year_info.aspx?year=2025
Chinese Mathematical Olympiad Committee. "Chinese Mathematical Olympiad (CMO)." China Mathematical Society, 2025.
Mathematical Association of America. "William Lowell Putnam Mathematical Competition." Zugriff am 1. Dezember 2025.https://maa.org/math-competitions/putnam-competition
Codeforces. "Competitive Programming Platform and Rating System." Zugriff am 1. Dezember 2025.https://codeforces.com/ratings
"LiveCodeBench: Holistische und kontaminationsfreie Bewertung großer Sprachmodelle für Code." Zugriff am 1. Dezember 2025.https://livecodebench.github.io/leaderboard.html
Jimenez, Carlos E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" Zugriff am 1. Dezember 2025.https://www.swebench.com
Center for AI Safety. "Humanity's Last Exam: A Controversial and Adversarial Benchmark." Forschungs-Benchmark-Projekt, 2025.
Architektur und Training Referenzen
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." Advances in Neural Information Processing Systems 30 (2017): 5998–6008.https://arxiv.org/abs/1706.03762
Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23, no. 120 (2022): 1–39.https://jmlr.org/papers/v23/21-0998.html
Zoph, Barret, et al. "Designing Effective Sparse Expert Models." arXiv:2202.08906, Februar 2022.https://arxiv.org/abs/2202.08906
GPU-Infrastruktur und Hardware
NVIDIA. "NVIDIA H100 Tensor Core GPU Architektur." NVIDIA Data Center Dokumentation, 2023.https://www.nvidia.com/en-us/data-center/h100
NVIDIA. "H100 Tensor Core GPU Datenblatt." Abgerufen am 1. Dezember 2025.https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Amazon Web Services. "Amazon EC2 P5 Instanzen (H100)." Abgerufen am 1. Dezember 2025.https://aws.amazon.com/ec2/instance-types/p5
Google Cloud. "GPU Preiskalkulator." Abgerufen am 1. Dezember 2025.https://cloud.google.com/products/calculator
Microsoft Azure. "GPU-optimierte Größen für virtuelle Maschinen." Abgerufen am 1. Dezember 2025.https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux
Open Source Lizenzierung
Open Source Initiative. "The MIT License." Abgerufen am 1. Dezember 2025.https://opensource.org/license/mit
Modellvergleich und Branchenanalyse
OpenAI. "Introducing GPT-5: Our Most Capable Model." OpenAI Research Blog, 2025.https://openai.com/research/gpt-5
OpenAI. "GPT-5 System Card: Safety and Capabilities." Zugriff am 1. Dezember 2025.https://openai.com/research/gpt-5-system-card
Google DeepMind. "Gemini 3: Our Most Capable AI Model Family." Google AI Blog, 2025.https://blog.google/technology/ai/google-gemini-ai-update
Google DeepMind. "Gemini 3 Technical Report." Zugriff am 1. Dezember 2025.https://deepmind.google/technologies/gemini
Anthropic. "Claude 4.5 Sonnet: Enhanced Intelligence and Extended Context." Anthropic News, 2025.https://www.anthropic.com/news/claude-4-5-sonnet
Anthropic. "Claude Model Card: Claude 4.5 Sonnet." Zugriff am 1. Dezember 2025.https://www.anthropic.com/claude
Meta AI. "The Llama 3 Herd of Models." arXiv:2407.21783, Juli 2024.https://arxiv.org/abs/2407.21783
Branchenanalyse der Trainingskosten
Vance, Alyssa und Sam Manning. "Schätzung der Trainingskosten für Frontier-Sprachmodelle." AI Economics Research Group, 2024. Branchenanalyse basierend auf offengelegten GPU-Stunden-Nutzungsdaten, Cloud-Preisdaten und Anbieter-Ankündigungen.
"Large Language Model Training Costs Database." Epoch AI Research, 2024. Zugriff am 1. Dezember 2025.https://epochai.org/blog/training-compute-of-frontier-ai-models-grows-by-4-5x-per-year
Hinweis zu den Quellen
Performance-Benchmarks spiegeln offizielle Modellevaluierungen bei standardisierten Tests wider, die von MAA (AIME), HMMT Organization, International Mathematical Olympiad, Codeforces und akademischen Research-Benchmarks (LiveCodeBench, SWE-bench) durchgeführt wurden. API-Preise entsprechen den veröffentlichten Tarifen aus der Anbieter-Dokumentation vom Dezember 2025. Schätzungen der Trainingskosten ($5,5M für DeepSeek V3 vs. $100M+ für konkurrierende Frontier-Modelle) basieren auf DeepSeeks offengelegten GPU-Stunden-Nutzungsdaten (2,788M H800-Stunden) und Berechnungen von Branchenanalysten unter Verwendung von Cloud-GPU-Preisen. Technische Architekturspezifikationen stammen aus arXiv-Technikberichten und offizieller Modelldokumentation. Kostenberechnungsbeispiele gehen von typischen Anwendungs-Workload-Mustern aus, wie sie in API-Anbieter-Richtlinien und Cache-Verhaltensanalysen dokumentiert sind.