Inferenzzeitliche Skalierung: Die neue Trainingsgrenze für KI-Reasoning

Test-Time Compute etabliert sich als nächste KI-Skalierungsgrenze. ThreadWeaver erreicht 1,5-fache Beschleunigung. P1 gewinnt Gold bei der Physik-Olympiade. DeepSeek-R1 erreicht o1-Niveau bei 70% geringeren Kosten. Implikationen für die Infrastruktur.

Blake Crosley

Dec 12, 2025 6 min read Disclaimer

Inferenzzeitliche Skalierung: Die neue Trainingsgrenze für KI-Reasoning

12. Dezember 2025

Update Dezember 2025: Die inferenzzeitliche Skalierung hat sich als dominante Forschungsgrenze im Bereich KI-Reasoning etabliert. ThreadWeaver erreicht eine Latenzreduzierung um den Faktor 1,5 bei gleichbleibender Genauigkeit. P1 wird das erste Open-Source-Modell, das durch RL und Test-Time Agents Gold bei der Physik-Olympiade gewinnt. DeepSeek-R1 erreicht das Niveau von OpenAI o1 bei 70% geringeren Kosten. Analysten prognostizieren, dass Inferenz bis 2030 75% der gesamten KI-Rechenleistung beanspruchen wird.

TL;DR

Das Paradigma der KI-Skalierung hat sich verschoben. Anstatt größere Modelle zu trainieren, erreichen Forscher jetzt State-of-the-Art-Reasoning durch erhöhten Rechenaufwand zur Inferenzzeit. Die zentrale Erkenntnis: Wenn man Modelle durch erweiterte Chain-of-Thought-Prozesse „länger nachdenken" lässt, entstehen Reasoning-Fähigkeiten, die durch Training allein nicht erreichbar sind. DeepSeek-R1 hat dies im großen Maßstab bewiesen und o1 durch die Generierung von 10-100x mehr Tokens pro Anfrage erreicht. ThreadWeaver parallelisiert dieses Reasoning, um die Latenz zu reduzieren. P1 kombiniert RL-Training mit Test-Time Agents, um Gold bei der Physik-Olympiade zu erreichen. Für die Infrastruktur bedeutet dies: Die Inferenznachfrage wird bis 2026 die Trainingsnachfrage um das 118-fache übersteigen, was die GPU-Beschaffung in Richtung inferenzoptimierter Hardware verlagert.

Was ist passiert

Drei Forschungsdurchbrüche demonstrieren die Reife der inferenzzeitlichen Skalierung:

DeepSeek-R1 (Januar 2025): DeepSeek veröffentlichte R1 und bewies damit, dass reines Reinforcement Learning Reasoning-Fähigkeiten hervorbringen kann, die mit OpenAI o1 vergleichbar sind. Das Modell verbesserte die AIME-Benchmark-Genauigkeit von 15,6% auf 71% durch erweitertes Chain-of-Thought-Reasoning und erreichte 86,7% mit Majority Voting.¹

P1 Physik-Modell (November 2025): Forscher veröffentlichten P1, die erste Open-Source-Modellfamilie, die Goldmedaillen-Leistung bei der Internationalen Physik-Olympiade (IPhO 2025) erreicht. P1-235B-A22B erzielte 21,2/30 Punkte und belegte den dritten Platz hinter Gemini-2.5-Pro und GPT-5.²

ThreadWeaver (2025): ThreadWeaver führte paralleles Reasoning ein und erreichte eine durchschnittliche Beschleunigung von 1,53x bei der Token-Latenz bei gleichbleibender Genauigkeit im Vergleich zu sequentiellem Reasoning. Der Ansatz ermöglicht die gleichzeitige Exploration von Reasoning-Pfaden anstelle von sequentiellem Chain-of-Thought.³

Warum es für die Infrastruktur wichtig ist

Das mentale Modell: Traditionelle Skalierung investierte Rechenleistung zur Trainingszeit (größere Modelle, mehr Daten). Inferenzzeitliche Skalierung investiert Rechenleistung zur Abfragezeit (längere Reasoning-Ketten, mehrere Versuche, Selbstverifikation). Ein 7B-Parameter-Modell mit 100-facher Inferenzrechenleistung kann ein 70B-Modell mit Standard-Inferenz erreichen. Die Infrastruktur-Implikationen sind tiefgreifend: Inferenz-Cluster werden wichtiger als Trainings-Cluster.

Inferenz wird zum Engpass: Analysten prognostizieren, dass die Inferenznachfrage die Trainingsnachfrage bis 2026 um das 118-fache übersteigen wird. Bis 2030 könnte Inferenz 75% der gesamten KI-Rechenleistung beanspruchen und Infrastrukturinvestitionen von 7 Billionen Dollar antreiben.⁴

Reasoning-Modelle verbrauchen mehr Tokens: DeepSeek-R1, o1 und o3-mini generieren „um Größenordnungen mehr Tokens" als Nicht-Reasoning-Modelle. OpenAIs Inferenzausgaben 2024 erreichten 2,3 Milliarden Dollar: das 15-fache der Trainingskosten für GPT-4.⁵

GPU-Infrastrukturnachfrage steigt: Jensen Huang erklärte, dass Reasoning-Modelle der nächsten Generation „bis zu 100-mal mehr Rechenressourcen" erfordern.⁶ Der KI-Inferenzmarkt wächst von 106 Milliarden Dollar (2025) auf 255 Milliarden Dollar (2030) mit einer CAGR von 19,2%.

Latenz wird wieder wichtig: ThreadWeavers paralleles Reasoning adressiert eine kritische Einschränkung. Die Latenz beim sequentiellen Reasoning wächst proportional zur Kettenlänge. Für Echtzeitanwendungen wird die Inferenzgeschwindigkeit zum Wettbewerbsvorteil.

Technische Details

DeepSeek-R1-Ansatz

DeepSeek-R1-Zero trainierte Reasoning durch reines RL mit Group Relative Policy Optimization (GRPO):⁷

Komponente	Detail
Trainingsmethode	Reines RL, kein Supervised Fine-Tuning
Algorithmus	GRPO (Adaption von PPO ohne Wertefunktion)
Kernerkenntniss	Erweitertes CoT zur Inferenz erzeugt Reasoning
AIME-Leistung	15,6% → 71% (86,7% mit Majority Voting)
Kostenvorteil	70% geringere Inferenzkosten als vergleichbare Modelle

Bemerkenswert ist, dass DeepSeek Methoden wie Process Reward Models und Monte Carlo Tree Search explizit als „erfolglose Versuche" kategorisierte. Die Erkenntnis legt nahe, dass reines RL mit längeren Antworten als implizite inferenzzeitliche Skalierung dient.⁸

ThreadWeaver Paralleles Reasoning

ThreadWeaver ermöglicht gleichzeitige Reasoning-Pfade anstelle von sequentiellem Chain-of-Thought:⁹

Innovation	Beschreibung
Parallel Trajectory Generator	Erzeugt CoT-Daten mit parallelen Annotationen
Trie-basiertes Co-Design	Ermöglicht paralleles Reasoning ohne Modifikation der Positionseinbettungen
P-GRPO-Algorithmus	Optimiert gemeinsam Genauigkeit und Latenzreduzierung

Leistung auf Qwen3-8B-Basis:

Benchmark	ThreadWeaver	Sequentiell	Beschleunigung
AIME24	79,9%	78,3%	1,14x
AMC23	—	—	1,16x
MATH500	—	—	1,23x
OlympiadBench	—	—	1,21x
Minerva Math	—	—	1,53x

P1 Physik-Modell

P1 kombiniert Train-Time und Test-Time Skalierung:¹⁰

Train-Time (RL Post-Training): - Mehrstufiges RL-Framework auf Basis-Sprachmodellen - Progressive Reasoning-Verbesserung - Adressiert Reward-Sparsity und Entropiekollaps

Test-Time (PhysicsMinions Agent): - Visual Studio: Visuelle Analyse - Logic Studio: Logisches Reasoning - Review Studio: Lösungsverifikation - Multi-Turn-Reflexion und Selbstkorrektur

Ergebnisse bei IPhO 2025:

Modell	Punktzahl	Ranking
Gemini-2.5-Pro	37,7	—
GPT-5	37,4	—
P1-235B + PhysicsMinions	38,4	1.
P1-235B-A22B (standalone)	21,2/30	Gold

Inferenz-Rechenleistungsprognosen

Metrik	Wert	Quelle
2025 Inferenzmarkt	106 Mrd. $	MarketsandMarkets
2030 Inferenzmarkt	255 Mrd. $	MarketsandMarkets
2027 Inferenz-Chip-Markt	102 Mrd. $	Reuters
Inferenzanteil an KI-Rechenleistung (2030)	75%	Branchenanalyse
Training vs. Inferenznachfrage (2026)	1:118	Analystenschätzungen
Globales KI-Rechenwachstum (2025-2027)	10x	AI 2027 Prognose

Politik- und Regulierungsimplikationen

Bestehende Regulierungen verwenden Trainings-Compute-Schwellenwerte (z.B. 10^25 FLOPs des EU AI Act). Die inferenzzeitliche Skalierung verändert jedoch die Kalkulation:¹¹

Modelle können hohe Fähigkeiten durch Inferenz-Compute erreichen, nicht nur durch Training
Ein kleineres trainiertes Modell mit umfangreichem Test-Time-Reasoning kann die Fähigkeiten von Schwellenwertmodellen übertreffen
Politische Entscheidungsträger riskieren, „die reale Auswirkung eines Modells zu unterschätzen", wenn sie sich ausschließlich auf Trainings-Compute konzentrieren

Was als Nächstes kommt

2026: Die Inferenznachfrage wird voraussichtlich das Training um das 118-fache übersteigen. Die Rechenzentrumsplanung verschiebt sich in Richtung inferenzoptimierter Architektur.

2027: Die globale KI-relevante Rechenleistung wird voraussichtlich 100 Millionen H100-Äquivalente erreichen (10-faches Wachstum seit März 2025).¹²

Laufend: Die Forschung an parallelem Reasoning (ThreadWeaver), Multi-Agent-Systemen (PhysicsMinions) und RL-basiertem Reasoning (DeepSeek, P1) wird fortgesetzt.

Infrastrukturwandel: Zweckgebundene Inferenz-Infrastruktur (NVIDIA Blackwell, TPU v5e, Groq LPUs) wird zur dominierenden Compute-Kategorie.

Wichtigste Erkenntnisse

Für Infrastrukturplaner: - Inferenz wird voraussichtlich bis 2030 75% der KI-Rechenleistung beanspruchen - Reasoning-Modelle verbrauchen 10-100x mehr Tokens als Standardmodelle - Latenzoptimierung (ThreadWeaver-artige Parallelisierung) schafft Hardware-Anforderungen - Planen Sie für inferenzlastige Workloads in der Kapazitätsmodellierung

Für Operations-Teams: - NVIDIA Blackwell ist für Inferenz im großen Maßstab optimiert (1,4 exaFLOPS pro Rack) - Überwachen Sie Inferenzkosten, die die Trainingskosten um das 15-fache übersteigen können (laut OpenAI 2024) - Test-Time-Compute-Tuning beeinflusst Latenz- und Kosten-Tradeoffs - Agent-Frameworks (PhysicsMinions) fügen Multi-Turn-Inferenz-Overhead hinzu

Für strategische Planung: - Das Verhältnis von Training zu Inferenz-Compute verschiebt sich dramatisch - Kleinere Modelle + intensive Inferenz können größere trainierte Modelle erreichen - DeepSeek-R1 demonstriert 70% Kostenvorteil durch Effizienz - Politische Rahmenbedingungen könnten über Trainings-Compute-Schwellenwerte hinaus erweitert werden

Referenzen

Für GPU-Infrastruktur zur Unterstützung inferenzintensiver KI-Workloads kontaktieren Sie Introl.

HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
NVIDIA. "AI Inference Solutions." 2025. ↩
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
DeepSeek. "DeepSeek-R1 Technical Report." Januar 2025. ↩
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
AI 2027. "Compute Forecast." 2025. ↩
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩

Inferenzzeitliche Skalierung: Die neue Trainingsgrenze für KI-Reasoning

TL;DR

Was ist passiert

Warum es für die Infrastruktur wichtig ist

Technische Details

DeepSeek-R1-Ansatz

ThreadWeaver Paralleles Reasoning

P1 Physik-Modell

Inferenz-Rechenleistungsprognosen

Politik- und Regulierungsimplikationen

Was als Nächstes kommt

Wichtigste Erkenntnisse

Referenzen

You Might Also Like

AIOps für Rechenzentren: Einsatz von LLMs zur Verwaltung von...

Load Balancing für KI-Inferenz: Verteilung von Anfragen über...

Disaggregiertes Computing für KI: Composable-Infrastructure-...

Angebot anfordern_

Anfrage erhalten_