Мислення Без Токенів: Як Латентне Міркування Робить Модель 3.5B Такою ж Ефективною як 50B
Міркування ланцюгом-думок домінувало в парадигмі масштабування часу тестування: моделі генерують видимі токени міркування, "думаючи вголос".[^1] Нова стаття повністю ставить під сумнів це припущення. Ітеруючи рекурентний блок у латентному просторі, дослідники демонструють, що модель з 3.5 мільярдами параметрів досягає продуктивності еквівалентної 50 мільярдам параметрів.[^2]
TL;DR
Стаття представляє архітектуру, яка розгортається до довільної глибини під час інференсу без генерації додаткових токенів.[^3]
Проблема Генерації Токенів
Споживання Контекстного Вікна: Кожен токен міркування займає простір контексту.[^9]
Масштабування Затримки: Генерація токенів залишається фундаментально послідовною.[^10]
Як Працює Латентне Міркування
Рекурентний Блок
Вхід → Шари 1-N → Рекурентний Блок ↺ → Шари N+1-M → Вихід
↑___________|
(ітерація K разів)
Продуктивність на Бенчмарках
При максимальному розгортанні модель 3.5B досягає продуктивності еквівалентної ~50 мільярдам параметрів.[^26]
Ключові Висновки
- Токени Не Потрібні: Міркування може відбуватися повністю в просторі прихованих представлень
- Масивне Ефективне Розширення: 3.5B → 50B еквівалент через рекурентну глибину
- Простота Навчання: Стандартне мовне моделювання, без спеціалізованих даних