Pensando Sin Tokens: Cómo el Razonamiento Latente Hace que un Modelo de 3.5B Rinda Como Uno de 50B
Una nueva arquitectura permite que los modelos de IA razonen en espacio latente en lugar de generar tokens. El enfoque de profundidad recurrente escala el cómputo en tiempo de prueba sin cadena de pen...