Мислення Без Токенів: Як Латентне Міркування Робить Модель 3.5B Такою ж Ефективною як 50B

Нова архітектура дозволяє AI-моделям міркувати в латентному просторі замість генерації токенів.

Мислення Без Токенів: Як Латентне Міркування Робить Модель 3.5B Такою ж Ефективною як 50B

Мислення Без Токенів: Як Латентне Міркування Робить Модель 3.5B Такою ж Ефективною як 50B

Міркування ланцюгом-думок домінувало в парадигмі масштабування часу тестування: моделі генерують видимі токени міркування, "думаючи вголос".[^1] Нова стаття повністю ставить під сумнів це припущення. Ітеруючи рекурентний блок у латентному просторі, дослідники демонструють, що модель з 3.5 мільярдами параметрів досягає продуктивності еквівалентної 50 мільярдам параметрів.[^2]

TL;DR

Стаття представляє архітектуру, яка розгортається до довільної глибини під час інференсу без генерації додаткових токенів.[^3]

Проблема Генерації Токенів

Споживання Контекстного Вікна: Кожен токен міркування займає простір контексту.[^9]

Масштабування Затримки: Генерація токенів залишається фундаментально послідовною.[^10]

Як Працює Латентне Міркування

Рекурентний Блок

Вхід → Шари 1-N → Рекурентний Блок ↺ → Шари N+1-M → Вихід
                      ↑___________|
                      (ітерація K разів)

Продуктивність на Бенчмарках

При максимальному розгортанні модель 3.5B досягає продуктивності еквівалентної ~50 мільярдам параметрів.[^26]

Ключові Висновки

  1. Токени Не Потрібні: Міркування може відбуватися повністю в просторі прихованих представлень
  2. Масивне Ефективне Розширення: 3.5B → 50B еквівалент через рекурентну глибину
  3. Простота Навчання: Стандартне мовне моделювання, без спеціалізованих даних

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ