Penser Sans Tokens : Comment le Raisonnement Latent Fait Performer un Modèle 3.5B Comme un 50B
Le raisonnement chaîne-de-pensée domine le paradigme de test-time scaling : les modèles génèrent des tokens de raisonnement visibles, "pensant à voix haute".[^1] Un nouveau papier remet entièrement en question cette hypothèse. En itérant un bloc récurrent dans l'espace latent, les chercheurs démontrent qu'un modèle de 3.5 milliards de paramètres atteint des performances équivalentes à 50 milliards sur les benchmarks de raisonnement.[^2]
TL;DR
Le papier introduit une architecture qui se déroule à une profondeur arbitraire au moment de l'inférence sans produire de tokens supplémentaires.[^3] Un bloc récurrent traite les états cachés de manière itérative, permettant au modèle de "penser plus fort".[^4]
Le Problème de Génération de Tokens
Les modèles de raisonnement actuels atteignent leurs capacités en générant des chaînes étendues de tokens de raisonnement.[^8]
Consommation de Fenêtre de Contexte : Chaque token de raisonnement occupe de l'espace contexte.[^9]
Scaling de Latence : La génération de tokens reste fondamentalement séquentielle.[^10]
Comment le Raisonnement Latent Fonctionne
Le Bloc Récurrent
Entrée → Couches 1-N → Bloc Récurrent ↺ → Couches N+1-M → Sortie
↑___________|
(itérer K fois)
Le bloc récurrent transforme les états cachés sans produire de sortie visible.[^14]
Profondeur Variable à l'Inférence
| Profondeur d'Inférence | Coût Compute | Performance |
|---|---|---|
| Baseline (1x) | Standard | Baseline |
| 5x itérations | ~5x compute | Gains modérés |
| 50x+ itérations | ~50x compute | Gains dramatiques |
Performance sur Benchmarks
Au déroulement maximal, le modèle 3.5B atteint des performances équivalentes à ~50 milliards de paramètres.[^26]
Comparaison au Raisonnement Basé sur Tokens
| Dimension | Chaîne-de-Pensée | Raisonnement Latent |
|---|---|---|
| Scaling compute | Génération tokens | Itérations récurrentes |
| Usage contexte | Consomme contexte | Neutre au contexte |
| Interprétabilité | Raisonnement visible | Opaque |
Points Clés
- Tokens Non Requis : Le raisonnement peut se produire entièrement dans l'espace de représentation cachée
- Expansion Effective Massive : 3.5B → 50B équivalent via profondeur récurrente
- Simplicité d'Entraînement : Modélisation de langage standard, pas de données spécialisées
- Inférence Flexible : Compromis compute-performance contrôlable au déploiement