Перегони світових моделей 2026: як LeCun, DeepMind і World Labs переосмислюють шлях до AGI

Янн ЛеКун залучає €500 млн для AMI Labs, тоді як Genie 3 від DeepMind симулює 3D-світи в реальному часі. Перегони 2026 року за створення ШІ, який розуміє фізику, можуть затьмарити LLM.

Перегони світових моделей 2026: як LeCun, DeepMind і World Labs переосмислюють шлях до AGI

Перегони світових моделей 2026: як LeCun, DeepMind і World Labs переосмислюють шлях до AGI

Три мільярди доларів оцінки до запуску для стартапу, який ще не випустив жодного продукту.[^1] AMI Labs Янна ЛеКуна представляє найбільшу ставку на тезу, яка роками розділяла дослідників ШІ: великі мовні моделі ніколи не досягнуть загального інтелекту, а шлях уперед пролягає через світові моделі.

Коротко

Парадигма світових моделей вибухнула в мейнстрімі розробки ШІ наприкінці 2025 і на початку 2026 року. Янн ЛеКун залишив Meta після 12 років, щоб заснувати AMI Labs, залучивши €500 млн при оцінці в €3 млрд для створення систем ШІ, які розуміють фізику, а не просто передбачають текст.[^2] Google DeepMind випустила Genie 3 — першу інтерактивну світову модель реального часу, здатну генерувати стійкі 3D-середовища зі швидкістю 24 кадри на секунду.[^3] World Labs Фей-Фей Лі запустила Marble, зробивши генерацію світових моделей комерційно доступною з цінами від безкоштовної до $95/місяць.[^4] Платформа Cosmos від NVIDIA досягла 2 мільйонів завантажень, оскільки розробники робототехніки та автономних транспортних засобів охоплюють синтетичні навчальні дані з урахуванням фізики.[^5] Для організацій, що будують інфраструктуру ШІ, світові моделі сигналізують про обчислювальний зсув від обробки тексту до генерації відео, симуляції фізики та втіленого міркування.

Стеля LLM

Великі мовні моделі досягли вражаючих можливостей завдяки масштабу. GPT-4, Claude і Gemini демонструють складне міркування, генерацію коду та багатоетапне розв'язання задач.[^6] Проте фундаментальне обмеження залишається: ці моделі вивчають статистичні патерни з тексту, а не розуміння фізичної реальності.[^7]

Дослідження, опубліковане в 2024 році, математично довело, що LLM не можуть вивчити всі обчислювані функції і тому неминуче галюцинуватимуть при використанні як загальні розв'язувачі задач.[^8] Корінна причина полягає в тому, як працюють LLM: передбачення, які токени слідують за попередніми, на основі патернів, вивчених з навчальних даних, без будь-якої прив'язки до фізичної реальності.[^9]

Проблема галюцинацій

LLM генерують правдоподібно звучний текст, який може описувати фізично неможливі сценарії, історично неточні події або логічно непослідовні міркування.[^10] На відміну від людей, які вивчають гравітацію через втілений досвід, LLM лише вчать, що слово «гравітація» має тенденцію з'являтися поруч з певними іншими словами.[^11]

Обмеження Причина Наслідок
Фактичні галюцинації Відсутність верифікованої бази знань[^12] Впевнена фабрикація фактів
Збій фізичного міркування Відсутність втіленого досвіду[^13] Описує неможливу фізику
Причинно-наслідкова плутанина Зіставлення патернів, а не розуміння[^14] Кореляція трактується як причинність
Темпоральна непослідовність Послідовне передбачення токенів[^15] Події в неможливому порядку

Янн ЛеКун публічно стверджував роками, що масштабування LLM не призведе до загального інтелекту.[^16] «LLM занадто обмежені», — заявив ЛеКун у своїй презентації на NVIDIA GTC. «Їх масштабування не дозволить нам досягти AGI».[^17]

Альтернатива, яку він пропонує: світові моделі, які вивчають представлення фізичної реальності, уможливлюючи передбачення, планування та міркування про причину і наслідок.[^18]

AMI Labs Янна ЛеКуна

ЛеКун залишив Meta у грудні 2025 року після 12 років — п'ять як засновник-директор Facebook AI Research (FAIR) і сім як головний науковий співробітник з ШІ.[^19] Його новий проект, Advanced Machine Intelligence (AMI) Labs, представляє найамбітнішу спробу комерціалізувати дослідження світових моделей.[^20]

Фінансування та структура

AMI Labs розпочала переговори про фінансування, прагнучи залучити €500 мільйонів при оцінці в €3 мільярди ще до запуску будь-якого продукту.[^21] Цільова сума представлятиме один з найбільших раундів залучення до запуску в історії ШІ, відображаючи впевненість інвесторів у баченні та послужному списку ЛеКуна.[^22]

Роль Особа Досвід
Виконавчий голова Янн ЛеКун Лауреат премії Тюрінга, засновник Meta FAIR[^23]
CEO Алекс ЛеБрун Колишній CEO Nabla (медичний ШІ)[^24]

Компанія планує відкрити штаб-квартиру в Парижі до січня 2026 року.[^25] Хоча Meta не інвестуватиме безпосередньо в AMI Labs, компанії планують налагодити партнерство, що дозволить ЛеКуну продовжувати дослідницькі зв'язки.[^26]

Технічне бачення

AMI Labs прагне створити системи ШІ, які розуміють фізику, підтримують постійну пам'ять і планують складні дії, а не просто передбачають текстові послідовності.[^27] ЛеКун описує світову модель як «вашу ментальну модель того, як поводиться світ».[^28]

«Ви можете уявити послідовність дій, які ви могли б вчинити, і ваша світова модель дозволить вам передбачити, який вплив ця послідовність дій матиме на світ», — пояснив ЛеКун.[^29]

Підхід фундаментально відрізняється від LLM. Там, де моделі у стилі GPT передбачають наступне слово, світові моделі передбачають наступний стан фізичного середовища з урахуванням дій, вчинених у ньому.[^30] Це уможливлює:

  • Планування: симуляція результатів перед вчиненням дії
  • Міркування про фізику: розуміння того, що об'єкти мають масу, імпульс і просторові зв'язки
  • Причинно-наслідкове розуміння: вивчення того, що дії призводять до передбачуваних наслідків
  • Постійна пам'ять: підтримка узгодженого стану світу в часі

Основа I-JEPA

AMI Labs базується на дослідженні I-JEPA (Image Joint Embedding Predictive Architecture) ЛеКуна в Meta.[^31] I-JEPA навчається, передбачаючи представлення регіонів зображення з інших регіонів, розвиваючи абстрактне розуміння візуальних сцен без потреби в явних мітках.[^32]

Підхід паралельний тому, як люди розвивають інтуїтивну фізику через спостереження. Дитина, яка спостерігає за падінням об'єктів, розвиває внутрішню модель гравітації без того, щоб хтось пояснював закони Ньютона.[^33] I-JEPA та наступні архітектури прагнуть відтворити цей процес навчання в штучних системах.[^34]

Genie 3 від DeepMind

Google DeepMind випустила Genie 3 у серпні 2025 року, представивши першу інтерактивну універсальну світову модель реального часу.[^35] На відміну від попередніх систем, які генерували статичні середовища або вимагали значного часу обробки, Genie 3 створює навігаційні 3D-світи зі швидкістю 24 кадри на секунду.[^36]

Технічні можливості

Genie 3 генерує динамічні середовища з текстових підказок, підтримуючи візуальну узгодженість протягом кількох хвилин взаємодії в реальному часі.[^37] Система не покладається на жорстко закодовані фізичні рушії; натомість модель сама навчається тому, як працює світ, через тренування.[^38]

Можливість Специфікація
Частота кадрів 24 fps в реальному часі[^39]
Роздільна здатність 720p[^40]
Тривалість узгодженості Кілька хвилин[^41]
Горизонт пам'яті До 1 хвилини ретроспективи[^42]
Фізика Самонавчена, не жорстко закодована[^43]

«Genie 3 — це перша інтерактивна універсальна світова модель реального часу», — заявив Шломі Фрухтер, директор з досліджень у DeepMind. «Вона виходить за межі вузьких світових моделей, які існували раніше. Вона не специфічна для жодного конкретного середовища».[^44]

Авторегресивна архітектура

Модель генерує по одному кадру за раз, оглядаючись на раніше згенерований контент, щоб визначити, що відбудеться далі.[^45] Досягнення продуктивності в реальному часі вимагає обчислення цього авторегресивного процесу кілька разів на секунду, зберігаючи узгодженість з потенційно хвилинною візуальною пам'яттю.[^46]

Фізична узгодженість виникає з тренування, а не з явного програмування.[^47] Середовища Genie 3 підтримують стабільну фізику, тому що модель вивчила фізичні закономірності з навчальних даних, а не тому, що дослідники вручну закодували гравітацію чи виявлення зіткнень.[^48]

Наслідки для AGI

DeepMind позиціонує Genie 3 як сходинку до штучного загального інтелекту.[^49] Лабораторія очікує, що технологія світових моделей відіграватиме критичну роль, оскільки агенти ШІ все більше взаємодіють з фізичними середовищами.[^50]

«Genie 3 знаменує великий стрибок до штучного загального інтелекту, дозволяючи агентам ШІ "переживати", взаємодіяти та навчатися з багато симульованих світів без ручного створення контенту», — згідно з оголошенням DeepMind.[^51]

Поточні обмеження

Genie 3 залишається в обмеженому дослідницькому попередньому перегляді, а не в публічному релізі.[^52] Відомі обмеження включають:

  • Обмежений простір дій для взаємодій агентів
  • Порушення узгодженості після кількох хвилин
  • Неповна географічна точність реального світу
  • Труднощі моделювання складних багатоагентних взаємодій

DeepMind продовжує розширювати тестовий доступ для обраних науковців і творців.[^53]

World Labs Фей-Фей Лі та Marble

World Labs, заснована піонеркою ШІ Фей-Фей Лі, запустила Marble у листопаді 2025 року як перший комерційно доступний продукт світових моделей.[^54] Стартап вийшов з режиму стелс з фінансуванням $230 мільйонів трохи більше ніж за рік до запуску Marble.[^55]

Архітектура продукту

Marble генерує стійкі, завантажувані 3D-середовища з текстових підказок, фотографій, відео, 3D-макетів або панорамних зображень.[^56] На відміну від конкурентів, які генерують світи на льоту під час дослідження, Marble створює дискретні середовища, які користувачі можуть редагувати та експортувати.[^57]

Тип вводу Вивід
Текстова підказка 3D-середовище
Фото 3D-середовище
Відео 3D-середовище
3D-макет Покращене ШІ 3D-середовище
Панорама 3D-середовище

Платформа пропонує нативні для ШІ інструменти редагування та гібридний 3D-редактор, що дозволяє блокувати просторову структуру перед тим, як ШІ заповнить візуальні деталі.[^58] Файли експортуються у форматах, сумісних з галузевими стандартними інструментами, такими як Unreal Engine і Unity.[^59]

Модель ціноутворення

World Labs прийняла freemium-структуру, націлену на креативних професіоналів:[^60]

Рівень Ціна Генерації Функції
Free $0 4/місяць Базова генерація
Standard $20/місяць 12/місяць Стандартні функції
Pro $35/місяць 25/місяць Комерційні права
Max $95/місяць 75/місяць Преміум-функції

Цільові застосування

Початкові випадки використання зосереджені на іграх, візуальних ефектах для кіно та віртуальній реальності.[^61] Marble підтримує VR-гарнітури Vision Pro і Quest 3, і кожен згенерований світ можна переглядати у VR.[^62]

Фей-Фей Лі позиціонує Marble як «перший крок до створення справді просторово інтелектуальної світової моделі».[^63] Окрім креативних застосувань, технологія уможливлює навчання робототехніки через симульовані середовища, які було б дорого або небезпечно створювати у фізичній реальності.[^64]

NVIDIA Cosmos: світові моделі промислового масштабу

NVIDIA запустила Cosmos на CES 2025 як платформу для розробки фізичного ШІ, спеціально націлену на автономні транспортні засоби та робототехніку.[^65] До січня 2026 року базові світові моделі Cosmos були завантажені понад 2 мільйони разів.[^66]

Архітектура платформи

Cosmos складається з генеративних базових світових моделей, просунутих токенізаторів, захисних механізмів та прискореного конвеєра обробки відео.[^67] Моделі передбачають і генерують відео майбутніх станів середовища з урахуванням фізики, уможливлюючи генерацію синтетичних навчальних даних у масивному масштабі.[^68]

Рівень моделі Оптимізація Випадок використання
Nano Реальний час, розгортання на edge[^69] Інференс на пристрої
Super Високопродуктивний базовий[^70] Загальна розробка
Ultra Максимальна якість і точність[^71] Дистиляція власних моделей

Платформа навчалася на 9 000 трильйонів токенів з 20 мільйонів годин реальних даних, що охоплюють людські взаємодії, середовища, промислові умови, робототехніку та сценарії водіння.[^72]

Галузеве впровадження

Провідні компанії робототехніки та автомобілебудування прийняли Cosmos для генерації синтетичних даних:[^73]

Компанія Домен
1X Людиноподібні роботи
Agility Двоногі роботи
Figure AI Людиноподібні роботи
Waabi Автономні вантажівки
XPENG Електромобілі
Uber Автономні райдшерингові сервіси

Типи моделей Cosmos

Три типи моделей відповідають різним потребам розробки фізичного ШІ:[^74]

Cosmos-Predict: симулює та передбачає майбутні стани світу у формі відео **Co

[Контент скорочено для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ