Penser Sans Tokens : Comment le Raisonnement Latent Fait Performer un Modèle 3.5B Comme un 50B
Une nouvelle architecture permet aux modèles IA de raisonner dans l'espace latent au lieu de générer des tokens. L'approche de profondeur récurrente scale le compute au test-time sans chaîne de pensée...