Scaling au moment de l'inférence : la nouvelle frontière de l'entraînement pour le raisonnement IA

Le calcul au moment du test émerge comme la prochaine frontière du scaling de l'IA. ThreadWeaver atteint une accélération de 1,5x. P1 remporte l'or aux olympiades de physique. DeepSeek-R1 égale o1 à 70% de coût en moins. Implications pour l'infrastructure.

Blake Crosley

Dec 12, 2025 8 min read Disclaimer

Scaling au moment de l'inférence : la nouvelle frontière de l'entraînement pour le raisonnement IA

12 décembre 2025

Mise à jour de décembre 2025 : Le scaling au moment de l'inférence est devenu la frontière de recherche dominante dans le raisonnement IA. ThreadWeaver atteint une réduction de latence de 1,5x tout en maintenant la précision. P1 devient le premier modèle open source à remporter l'or aux olympiades de physique grâce au RL et aux agents de test-time. DeepSeek-R1 égale OpenAI o1 à 70% de coût en moins. Les analystes projettent que l'inférence représentera 75% du calcul IA total d'ici 2030.

TL;DR

Le paradigme de scaling de l'IA a changé. Au lieu d'entraîner des modèles plus grands, les chercheurs atteignent désormais un raisonnement de pointe en investissant plus de calcul au moment de l'inférence. L'intuition centrale : laisser les modèles « réfléchir plus longtemps » via une chaîne de pensée étendue produit des capacités de raisonnement que l'entraînement seul ne peut atteindre. DeepSeek-R1 l'a prouvé à grande échelle, égalant o1 en générant 10 à 100 fois plus de tokens par requête. ThreadWeaver parallélise ce raisonnement pour réduire la latence. P1 combine l'entraînement RL avec des agents de test-time pour atteindre l'or aux olympiades de physique. Pour l'infrastructure, la demande d'inférence dépassera la demande d'entraînement de 118x d'ici 2026, réorientant l'approvisionnement en GPU vers du matériel optimisé pour l'inférence.

Ce qui s'est passé

Trois percées de recherche démontrent la maturation du scaling au moment de l'inférence :

DeepSeek-R1 (janvier 2025) : DeepSeek a publié R1, prouvant que l'apprentissage par renforcement pur peut produire des capacités de raisonnement égalant OpenAI o1. Le modèle a amélioré la précision sur le benchmark AIME de 15,6% à 71% grâce au raisonnement par chaîne de pensée étendue, atteignant 86,7% avec le vote majoritaire.¹

Modèle de physique P1 (novembre 2025) : Les chercheurs ont publié P1, la première famille de modèles open source atteignant des performances de médaille d'or aux Olympiades Internationales de Physique (IPhO 2025). P1-235B-A22B a obtenu 21,2/30 points, se classant troisième derrière Gemini-2.5-Pro et GPT-5.²

ThreadWeaver (2025) : ThreadWeaver a introduit le raisonnement parallèle, atteignant une accélération moyenne de 1,53x en latence de tokens tout en maintenant la précision du raisonnement séquentiel. L'approche permet l'exploration concurrente des chemins de raisonnement plutôt que la chaîne de pensée séquentielle.³

Pourquoi c'est important pour l'infrastructure

Le modèle mental : Le scaling traditionnel investissait le calcul au moment de l'entraînement (modèles plus grands, plus de données). Le scaling au moment de l'inférence investit le calcul au moment de la requête (chaînes de raisonnement plus longues, tentatives multiples, auto-vérification). Un modèle de 7B de paramètres avec 100x de calcul d'inférence peut égaler un modèle de 70B avec une inférence standard. Les implications pour l'infrastructure sont profondes : les clusters d'inférence comptent plus que les clusters d'entraînement.

L'inférence devient le goulot d'étranglement : Les analystes projettent que l'inférence dépassera la demande de calcul d'entraînement de 118x d'ici 2026. D'ici 2030, l'inférence pourrait représenter 75% du calcul IA total, générant 7 billions de dollars d'investissement en infrastructure.⁴

Les modèles de raisonnement consomment plus de tokens : DeepSeek-R1, o1 et o3-mini génèrent « des ordres de grandeur de plus de tokens » que les modèles sans raisonnement. Les dépenses d'inférence d'OpenAI en 2024 ont atteint 2,3 milliards de dollars : 15 fois le coût d'entraînement de GPT-4.⁵

La demande d'infrastructure GPU explose : Jensen Huang a déclaré que les modèles de raisonnement de nouvelle génération exigent « jusqu'à 100 fois plus de ressources de calcul ».⁶ Le marché de l'inférence IA passe de 106 milliards de dollars (2025) à 255 milliards de dollars (2030) avec un TCAC de 19,2%.

La latence redevient importante : Le raisonnement parallèle de ThreadWeaver répond à une contrainte critique. La latence du raisonnement séquentiel croît proportionnellement à la longueur de la chaîne. Pour les applications en temps réel, la vitesse d'inférence devient un avantage compétitif.

Détails techniques

Approche DeepSeek-R1

DeepSeek-R1-Zero a entraîné le raisonnement par RL pur utilisant Group Relative Policy Optimization (GRPO) :⁷

Composant	Détail
Méthode d'entraînement	RL pur, sans fine-tuning supervisé
Algorithme	GRPO (adaptation de PPO sans fonction de valeur)
Intuition clé	La CoT étendue à l'inférence produit le raisonnement
Performance AIME	15,6% → 71% (86,7% avec vote majoritaire)
Avantage coût	70% de coût d'inférence en moins que les modèles comparables

Notamment, DeepSeek a explicitement catégorisé des méthodes comme les Process Reward Models et Monte Carlo Tree Search comme des « tentatives infructueuses ». Cette découverte suggère que le RL pur avec des réponses plus longues sert de scaling implicite au moment de l'inférence.⁸

Raisonnement parallèle ThreadWeaver

ThreadWeaver permet des chemins de raisonnement concurrents au lieu de la chaîne de pensée séquentielle :⁹

Innovation	Description
Générateur de trajectoires parallèles	Produit des données CoT avec annotations parallèles
Co-conception basée sur Trie	Permet le raisonnement parallèle sans modifier les embeddings de position
Algorithme P-GRPO	Optimise conjointement la précision et la réduction de latence

Performance sur base Qwen3-8B :

Benchmark	ThreadWeaver	Séquentiel	Accélération
AIME24	79,9%	78,3%	1,14x
AMC23	—	—	1,16x
MATH500	—	—	1,23x
OlympiadBench	—	—	1,21x
Minerva Math	—	—	1,53x

Modèle de physique P1

P1 combine le scaling au moment de l'entraînement et au moment du test :¹⁰

Train-Time (Post-entraînement RL) : - Framework RL multi-étapes sur modèles de langage de base - Amélioration progressive du raisonnement - Traite la rareté des récompenses et l'effondrement de l'entropie

Test-Time (Agent PhysicsMinions) : - Visual Studio : Analyse visuelle - Logic Studio : Raisonnement logique - Review Studio : Vérification des solutions - Réflexion multi-tours et auto-correction

Résultats sur IPhO 2025 :

Modèle	Score	Classement
Gemini-2.5-Pro	37,7	—
GPT-5	37,4	—
P1-235B + PhysicsMinions	38,4	1er
P1-235B-A22B (autonome)	21,2/30	Or

Projections de calcul d'inférence

Métrique	Valeur	Source
Marché de l'inférence 2025	106 Mds$	MarketsandMarkets
Marché de l'inférence 2030	255 Mds$	MarketsandMarkets
Marché des puces d'inférence 2027	102 Mds$	Reuters
Part de l'inférence dans le calcul IA (2030)	75%	Analyse industrielle
Demande entraînement vs inférence (2026)	1:118	Estimations d'analystes
Croissance du calcul IA mondial (2025-2027)	10x	Prévision AI 2027

Implications politiques et réglementaires

Les réglementations existantes utilisent des seuils de calcul d'entraînement (par ex., les 10^25 FLOPs du AI Act de l'UE). Cependant, le scaling au moment de l'inférence change le calcul :¹¹

Les modèles peuvent atteindre des capacités élevées via le calcul d'inférence, pas seulement l'entraînement
Un modèle plus petit entraîné avec un raisonnement extensif au test-time peut dépasser les capacités des modèles au-dessus du seuil
Les décideurs risquent de « sous-estimer l'impact réel d'un modèle » en se concentrant uniquement sur le calcul d'entraînement

Perspectives

2026 : La demande d'inférence devrait dépasser l'entraînement de 118x. La planification des data centers s'oriente vers une architecture optimisée pour l'inférence.

2027 : Le calcul mondial pertinent pour l'IA devrait atteindre 100M d'équivalents H100 (croissance de 10x depuis mars 2025).¹²

En cours : La recherche continue sur le raisonnement parallèle (ThreadWeaver), les systèmes multi-agents (PhysicsMinions) et le raisonnement basé sur le RL (DeepSeek, P1).

Évolution de l'infrastructure : L'infrastructure d'inférence spécialisée (NVIDIA Blackwell, TPU v5e, Groq LPUs) devient la catégorie de calcul dominante.

Points clés à retenir

Pour les planificateurs d'infrastructure : - L'inférence devrait représenter 75% du calcul IA d'ici 2030 - Les modèles de raisonnement consomment 10 à 100x plus de tokens que les modèles standards - L'optimisation de la latence (parallélisme style ThreadWeaver) crée des exigences matérielles - Planifiez des charges de travail intensives en inférence dans la modélisation de capacité

Pour les équipes d'exploitation : - NVIDIA Blackwell optimisé pour l'inférence à grande échelle (1,4 exaFLOPS par rack) - Surveillez les coûts d'inférence, qui peuvent dépasser les coûts d'entraînement de 15x (selon OpenAI 2024) - Le réglage du calcul au test-time affecte les compromis latence/coût - Les frameworks d'agents (PhysicsMinions) ajoutent une surcharge d'inférence multi-tours

Pour la planification stratégique : - Le ratio calcul entraînement vs inférence change radicalement - Des modèles plus petits + inférence intensive peuvent égaler des modèles plus grands entraînés - DeepSeek-R1 démontre un avantage de coût de 70% grâce à l'efficacité - Les cadres politiques pourraient s'étendre au-delà des seuils de calcul d'entraînement

Références

Pour une infrastructure GPU supportant les charges de travail IA intensives en inférence, contactez Introl.

HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." Novembre 2025. ↩
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
NVIDIA. "AI Inference Solutions." 2025. ↩
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
DeepSeek. "DeepSeek-R1 Technical Report." Janvier 2025. ↩
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
AI 2027. "Compute Forecast." 2025. ↩
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩

Scaling au moment de l'inférence : la nouvelle frontière de l'entraînement pour le raisonnement IA

TL;DR

Ce qui s'est passé

Pourquoi c'est important pour l'infrastructure

Détails techniques

Approche DeepSeek-R1

Raisonnement parallèle ThreadWeaver

Modèle de physique P1

Projections de calcul d'inférence

Implications politiques et réglementaires

Perspectives

Points clés à retenir

Références

You Might Also Like

AIOps pour les centres de données : utiliser les LLM pour gé...

Équilibrage de charge pour l'inférence IA : Distribution des...

L'informatique désagrégée pour l'IA : architecture d'infrast...

Demander un devis_

Demande reçue_