Pensando Sin Tokens: Cómo el Razonamiento Latente Hace que un Modelo de 3.5B Rinda Como Uno de 50B

Una nueva arquitectura permite que los modelos de IA razonen en espacio latente en lugar de generar tokens. El enfoque de profundidad recurrente escala el cómputo en tiempo de prueba sin cadena de pensamiento.

Pensando Sin Tokens: Cómo el Razonamiento Latente Hace que un Modelo de 3.5B Rinda Como Uno de 50B

Pensando Sin Tokens: Cómo el Razonamiento Latente Hace que un Modelo de 3.5B Rinda Como Uno de 50B

El razonamiento cadena-de-pensamiento ha dominado el paradigma de escalado en tiempo de prueba: los modelos generan tokens de razonamiento visibles, "pensando en voz alta" antes de producir respuestas.[^1] Un nuevo artículo desafía completamente esta suposición. Al iterar un bloque recurrente en espacio latente, los investigadores demuestran que un modelo de 3.5 mil millones de parámetros logra un rendimiento equivalente a 50 mil millones de parámetros en benchmarks de razonamiento.[^2] El pensamiento ocurre invisiblemente, codificado en estados ocultos en lugar de texto generado.

TL;DR

El artículo introduce una arquitectura que se desenrolla a profundidad arbitraria en tiempo de inferencia sin producir tokens adicionales.[^3] Un bloque recurrente procesa estados ocultos iterativamente, permitiendo al modelo "pensar más fuerte" en problemas difíciles computando más tiempo.[^4] Entrenado en 800 mil millones de tokens, el modelo de 3.5B parámetros demuestra mejoras dramáticas cuando se permiten más iteraciones.[^5]

El Problema de Generación de Tokens

Los modelos de razonamiento actuales logran sus capacidades generando cadenas extendidas de tokens de razonamiento.[^8] Este enfoque funciona pero introduce varias restricciones:

Consumo de Ventana de Contexto: Cada token de razonamiento ocupa espacio de contexto.[^9]

Escalado de Latencia: Generar tokens sigue siendo fundamentalmente secuencial.[^10]

Cuello de Botella de Verbalización: Algunos razonamientos pueden resultar difíciles de expresar en lenguaje natural.[^11]

Cómo Funciona el Razonamiento Latente

La arquitectura se centra en un bloque recurrente que puede aplicarse iterativamente durante la inferencia:[^12]

El Bloque Recurrente

Entrada → Capas 1-N → Bloque Recurrente ↺ → Capas N+1-M → Salida
                          ↑___________|
                          (iterar K veces)

El bloque recurrente transforma estados ocultos sin producir ninguna salida visible. Cada iteración refina la representación interna.[^14]

Profundidad Variable en Inferencia

La innovación clave radica en desacoplar la profundidad de entrenamiento de la profundidad de inferencia. Durante el entrenamiento, el modelo aprende a iterar un número fijo de veces. En inferencia, el sistema puede desenrollarse a profundidad arbitraria.[^16]

Profundidad de Inferencia Costo de Cómputo Rendimiento
Base (1x) Estándar Base
5x iteraciones ~5x cómputo Ganancias moderadas
10x iteraciones ~10x cómputo Ganancias significativas
50x+ iteraciones ~50x cómputo Ganancias dramáticas

Rendimiento en Benchmarks

Comparación de Parámetros Efectivos

Al máximo desenrollamiento, el modelo de 3.5B logra rendimiento equivalente a aproximadamente 50 mil millones de parámetros bajo inferencia estándar.[^26] Esta expansión de capacidad efectiva de 14x viene al costo de mayor cómputo de inferencia en lugar de mayor tamaño del modelo.

Comparación con Razonamiento Basado en Tokens

Dimensión Cadena-de-Pensamiento Razonamiento Latente
Escalado de cómputo Generación de tokens Iteraciones recurrentes
Uso de contexto Consume contexto Neutral al contexto
Interpretabilidad Razonamiento visible Opaco
Datos de entrenamiento Necesita trazas Datos LM estándar

Conclusiones Clave

  1. Tokens No Requeridos: El razonamiento puede ocurrir enteramente en espacio de representación oculta
  2. Expansión Efectiva Masiva: 3.5B → 50B equivalente a través de profundidad recurrente
  3. Simplicidad de Entrenamiento: Modelado de lenguaje estándar, sin datos especializados
  4. Inferencia Flexible: Tradeoff cómputo-rendimiento controlable en despliegue

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO