Scaling au moment de l'inférence : la nouvelle frontière de l'entraînement pour le raisonnement IA
12 décembre 2025
Mise à jour de décembre 2025 : Le scaling au moment de l'inférence est devenu la frontière de recherche dominante dans le raisonnement IA. ThreadWeaver atteint une réduction de latence de 1,5x tout en maintenant la précision. P1 devient le premier modèle open source à remporter l'or aux olympiades de physique grâce au RL et aux agents de test-time. DeepSeek-R1 égale OpenAI o1 à 70% de coût en moins. Les analystes projettent que l'inférence représentera 75% du calcul IA total d'ici 2030.
TL;DR
Le paradigme de scaling de l'IA a changé. Au lieu d'entraîner des modèles plus grands, les chercheurs atteignent désormais un raisonnement de pointe en investissant plus de calcul au moment de l'inférence. L'intuition centrale : laisser les modèles « réfléchir plus longtemps » via une chaîne de pensée étendue produit des capacités de raisonnement que l'entraînement seul ne peut atteindre. DeepSeek-R1 l'a prouvé à grande échelle, égalant o1 en générant 10 à 100 fois plus de tokens par requête. ThreadWeaver parallélise ce raisonnement pour réduire la latence. P1 combine l'entraînement RL avec des agents de test-time pour atteindre l'or aux olympiades de physique. Pour l'infrastructure, la demande d'inférence dépassera la demande d'entraînement de 118x d'ici 2026, réorientant l'approvisionnement en GPU vers du matériel optimisé pour l'inférence.
Ce qui s'est passé
Trois percées de recherche démontrent la maturation du scaling au moment de l'inférence :
DeepSeek-R1 (janvier 2025) : DeepSeek a publié R1, prouvant que l'apprentissage par renforcement pur peut produire des capacités de raisonnement égalant OpenAI o1. Le modèle a amélioré la précision sur le benchmark AIME de 15,6% à 71% grâce au raisonnement par chaîne de pensée étendue, atteignant 86,7% avec le vote majoritaire.1
Modèle de physique P1 (novembre 2025) : Les chercheurs ont publié P1, la première famille de modèles open source atteignant des performances de médaille d'or aux Olympiades Internationales de Physique (IPhO 2025). P1-235B-A22B a obtenu 21,2/30 points, se classant troisième derrière Gemini-2.5-Pro et GPT-5.2
ThreadWeaver (2025) : ThreadWeaver a introduit le raisonnement parallèle, atteignant une accélération moyenne de 1,53x en latence de tokens tout en maintenant la précision du raisonnement séquentiel. L'approche permet l'exploration concurrente des chemins de raisonnement plutôt que la chaîne de pensée séquentielle.3
Pourquoi c'est important pour l'infrastructure
Le modèle mental : Le scaling traditionnel investissait le calcul au moment de l'entraînement (modèles plus grands, plus de données). Le scaling au moment de l'inférence investit le calcul au moment de la requête (chaînes de raisonnement plus longues, tentatives multiples, auto-vérification). Un modèle de 7B de paramètres avec 100x de calcul d'inférence peut égaler un modèle de 70B avec une inférence standard. Les implications pour l'infrastructure sont profondes : les clusters d'inférence comptent plus que les clusters d'entraînement.
L'inférence devient le goulot d'étranglement : Les analystes projettent que l'inférence dépassera la demande de calcul d'entraînement de 118x d'ici 2026. D'ici 2030, l'inférence pourrait représenter 75% du calcul IA total, générant 7 billions de dollars d'investissement en infrastructure.4
Les modèles de raisonnement consomment plus de tokens : DeepSeek-R1, o1 et o3-mini génèrent « des ordres de grandeur de plus de tokens » que les modèles sans raisonnement. Les dépenses d'inférence d'OpenAI en 2024 ont atteint 2,3 milliards de dollars : 15 fois le coût d'entraînement de GPT-4.5
La demande d'infrastructure GPU explose : Jensen Huang a déclaré que les modèles de raisonnement de nouvelle génération exigent « jusqu'à 100 fois plus de ressources de calcul ».6 Le marché de l'inférence IA passe de 106 milliards de dollars (2025) à 255 milliards de dollars (2030) avec un TCAC de 19,2%.
La latence redevient importante : Le raisonnement parallèle de ThreadWeaver répond à une contrainte critique. La latence du raisonnement séquentiel croît proportionnellement à la longueur de la chaîne. Pour les applications en temps réel, la vitesse d'inférence devient un avantage compétitif.
Détails techniques
Approche DeepSeek-R1
DeepSeek-R1-Zero a entraîné le raisonnement par RL pur utilisant Group Relative Policy Optimization (GRPO) :7
| Composant | Détail |
|---|---|
| Méthode d'entraînement | RL pur, sans fine-tuning supervisé |
| Algorithme | GRPO (adaptation de PPO sans fonction de valeur) |
| Intuition clé | La CoT étendue à l'inférence produit le raisonnement |
| Performance AIME | 15,6% → 71% (86,7% avec vote majoritaire) |
| Avantage coût | 70% de coût d'inférence en moins que les modèles comparables |
Notamment, DeepSeek a explicitement catégorisé des méthodes comme les Process Reward Models et Monte Carlo Tree Search comme des « tentatives infructueuses ». Cette découverte suggère que le RL pur avec des réponses plus longues sert de scaling implicite au moment de l'inférence.8
Raisonnement parallèle ThreadWeaver
ThreadWeaver permet des chemins de raisonnement concurrents au lieu de la chaîne de pensée séquentielle :9
| Innovation | Description |
|---|---|
| Générateur de trajectoires parallèles | Produit des données CoT avec annotations parallèles |
| Co-conception basée sur Trie | Permet le raisonnement parallèle sans modifier les embeddings de position |
| Algorithme P-GRPO | Optimise conjointement la précision et la réduction de latence |
Performance sur base Qwen3-8B :
| Benchmark | ThreadWeaver | Séquentiel | Accélération |
|---|---|---|---|
| AIME24 | 79,9% | 78,3% | 1,14x |
| AMC23 | — | — | 1,16x |
| MATH500 | — | — | 1,23x |
| OlympiadBench | — | — | 1,21x |
| Minerva Math | — | — | 1,53x |
Modèle de physique P1
P1 combine le scaling au moment de l'entraînement et au moment du test :10
Train-Time (Post-entraînement RL) : - Framework RL multi-étapes sur modèles de langage de base - Amélioration progressive du raisonnement - Traite la rareté des récompenses et l'effondrement de l'entropie
Test-Time (Agent PhysicsMinions) : - Visual Studio : Analyse visuelle - Logic Studio : Raisonnement logique - Review Studio : Vérification des solutions - Réflexion multi-tours et auto-correction
Résultats sur IPhO 2025 :
| Modèle | Score | Classement |
|---|---|---|
| Gemini-2.5-Pro | 37,7 | — |
| GPT-5 | 37,4 | — |
| P1-235B + PhysicsMinions | 38,4 | 1er |
| P1-235B-A22B (autonome) | 21,2/30 | Or |
Projections de calcul d'inférence
| Métrique | Valeur | Source |
|---|---|---|
| Marché de l'inférence 2025 | 106 Mds$ | MarketsandMarkets |
| Marché de l'inférence 2030 | 255 Mds$ | MarketsandMarkets |
| Marché des puces d'inférence 2027 | 102 Mds$ | Reuters |
| Part de l'inférence dans le calcul IA (2030) | 75% | Analyse industrielle |
| Demande entraînement vs inférence (2026) | 1:118 | Estimations d'analystes |
| Croissance du calcul IA mondial (2025-2027) | 10x | Prévision AI 2027 |
Implications politiques et réglementaires
Les réglementations existantes utilisent des seuils de calcul d'entraînement (par ex., les 10^25 FLOPs du AI Act de l'UE). Cependant, le scaling au moment de l'inférence change le calcul :11
- Les modèles peuvent atteindre des capacités élevées via le calcul d'inférence, pas seulement l'entraînement
- Un modèle plus petit entraîné avec un raisonnement extensif au test-time peut dépasser les capacités des modèles au-dessus du seuil
- Les décideurs risquent de « sous-estimer l'impact réel d'un modèle » en se concentrant uniquement sur le calcul d'entraînement
Perspectives
2026 : La demande d'inférence devrait dépasser l'entraînement de 118x. La planification des data centers s'oriente vers une architecture optimisée pour l'inférence.
2027 : Le calcul mondial pertinent pour l'IA devrait atteindre 100M d'équivalents H100 (croissance de 10x depuis mars 2025).12
En cours : La recherche continue sur le raisonnement parallèle (ThreadWeaver), les systèmes multi-agents (PhysicsMinions) et le raisonnement basé sur le RL (DeepSeek, P1).
Évolution de l'infrastructure : L'infrastructure d'inférence spécialisée (NVIDIA Blackwell, TPU v5e, Groq LPUs) devient la catégorie de calcul dominante.
Points clés à retenir
Pour les planificateurs d'infrastructure : - L'inférence devrait représenter 75% du calcul IA d'ici 2030 - Les modèles de raisonnement consomment 10 à 100x plus de tokens que les modèles standards - L'optimisation de la latence (parallélisme style ThreadWeaver) crée des exigences matérielles - Planifiez des charges de travail intensives en inférence dans la modélisation de capacité
Pour les équipes d'exploitation : - NVIDIA Blackwell optimisé pour l'inférence à grande échelle (1,4 exaFLOPS par rack) - Surveillez les coûts d'inférence, qui peuvent dépasser les coûts d'entraînement de 15x (selon OpenAI 2024) - Le réglage du calcul au test-time affecte les compromis latence/coût - Les frameworks d'agents (PhysicsMinions) ajoutent une surcharge d'inférence multi-tours
Pour la planification stratégique : - Le ratio calcul entraînement vs inférence change radicalement - Des modèles plus petits + inférence intensive peuvent égaler des modèles plus grands entraînés - DeepSeek-R1 démontre un avantage de coût de 70% grâce à l'efficacité - Les cadres politiques pourraient s'étendre au-delà des seuils de calcul d'entraînement
Références
Pour une infrastructure GPU supportant les charges de travail IA intensives en inférence, contactez Introl.
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." Novembre 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." Janvier 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩