Pensando Sin Tokens: Cómo el Razonamiento Latente Hace que un Modelo de 3.5B Rinda Como Uno de 50B
El razonamiento cadena-de-pensamiento ha dominado el paradigma de escalado en tiempo de prueba: los modelos generan tokens de razonamiento visibles, "pensando en voz alta" antes de producir respuestas.[^1] Un nuevo artículo desafía completamente esta suposición. Al iterar un bloque recurrente en espacio latente, los investigadores demuestran que un modelo de 3.5 mil millones de parámetros logra un rendimiento equivalente a 50 mil millones de parámetros en benchmarks de razonamiento.[^2] El pensamiento ocurre invisiblemente, codificado en estados ocultos en lugar de texto generado.
TL;DR
El artículo introduce una arquitectura que se desenrolla a profundidad arbitraria en tiempo de inferencia sin producir tokens adicionales.[^3] Un bloque recurrente procesa estados ocultos iterativamente, permitiendo al modelo "pensar más fuerte" en problemas difíciles computando más tiempo.[^4] Entrenado en 800 mil millones de tokens, el modelo de 3.5B parámetros demuestra mejoras dramáticas cuando se permiten más iteraciones.[^5]
El Problema de Generación de Tokens
Los modelos de razonamiento actuales logran sus capacidades generando cadenas extendidas de tokens de razonamiento.[^8] Este enfoque funciona pero introduce varias restricciones:
Consumo de Ventana de Contexto: Cada token de razonamiento ocupa espacio de contexto.[^9]
Escalado de Latencia: Generar tokens sigue siendo fundamentalmente secuencial.[^10]
Cuello de Botella de Verbalización: Algunos razonamientos pueden resultar difíciles de expresar en lenguaje natural.[^11]
Cómo Funciona el Razonamiento Latente
La arquitectura se centra en un bloque recurrente que puede aplicarse iterativamente durante la inferencia:[^12]
El Bloque Recurrente
Entrada → Capas 1-N → Bloque Recurrente ↺ → Capas N+1-M → Salida
↑___________|
(iterar K veces)
El bloque recurrente transforma estados ocultos sin producir ninguna salida visible. Cada iteración refina la representación interna.[^14]
Profundidad Variable en Inferencia
La innovación clave radica en desacoplar la profundidad de entrenamiento de la profundidad de inferencia. Durante el entrenamiento, el modelo aprende a iterar un número fijo de veces. En inferencia, el sistema puede desenrollarse a profundidad arbitraria.[^16]
| Profundidad de Inferencia | Costo de Cómputo | Rendimiento |
|---|---|---|
| Base (1x) | Estándar | Base |
| 5x iteraciones | ~5x cómputo | Ganancias moderadas |
| 10x iteraciones | ~10x cómputo | Ganancias significativas |
| 50x+ iteraciones | ~50x cómputo | Ganancias dramáticas |
Rendimiento en Benchmarks
Comparación de Parámetros Efectivos
Al máximo desenrollamiento, el modelo de 3.5B logra rendimiento equivalente a aproximadamente 50 mil millones de parámetros bajo inferencia estándar.[^26] Esta expansión de capacidad efectiva de 14x viene al costo de mayor cómputo de inferencia en lugar de mayor tamaño del modelo.
Comparación con Razonamiento Basado en Tokens
| Dimensión | Cadena-de-Pensamiento | Razonamiento Latente |
|---|---|---|
| Escalado de cómputo | Generación de tokens | Iteraciones recurrentes |
| Uso de contexto | Consume contexto | Neutral al contexto |
| Interpretabilidad | Razonamiento visible | Opaco |
| Datos de entrenamiento | Necesita trazas | Datos LM estándar |
Conclusiones Clave
- Tokens No Requeridos: El razonamiento puede ocurrir enteramente en espacio de representación oculta
- Expansión Efectiva Masiva: 3.5B → 50B equivalente a través de profundidad recurrente
- Simplicidad de Entrenamiento: Modelado de lenguaje estándar, sin datos especializados
- Inferencia Flexible: Tradeoff cómputo-rendimiento controlable en despliegue