Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Yann LeCun mengumpulkan €500 juta untuk AMI Labs sementara Genie 3 dari DeepMind mensimulasikan dunia 3D secara real-time. Perlombaan 2026 untuk membangun AI yang memahami fisika mungkin akan melampaui LLM.

Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Valuasi tiga miliar dolar sebelum peluncuran untuk sebuah startup yang belum merilis satu produk pun.[^1] AMI Labs milik Yann LeCun merupakan taruhan terbesar hingga saat ini pada tesis yang telah memecah belah peneliti AI selama bertahun-tahun: large language models tidak akan pernah mencapai kecerdasan umum, dan jalan ke depan melewati world models sebagai gantinya.

Ringkasan

Paradigma world models meledak ke dalam pengembangan AI arus utama pada akhir 2025 dan awal 2026. Yann LeCun meninggalkan Meta setelah 12 tahun untuk meluncurkan AMI Labs, mengumpulkan €500 juta dengan valuasi €3 miliar untuk membangun sistem AI yang memahami fisika alih-alih sekadar memprediksi teks.[^2] Google DeepMind merilis Genie 3, world model interaktif real-time pertama yang mampu menghasilkan lingkungan 3D persisten pada 24 fps.[^3] World Labs milik Fei-Fei Li meluncurkan Marble, menjadikan pembuatan world model tersedia secara komersial dengan harga mulai dari gratis hingga $95/bulan.[^4] Platform Cosmos dari NVIDIA telah diunduh 2 juta kali karena pengembang robotika dan kendaraan otonom mengadopsi data pelatihan sintetis yang sadar fisika.[^5] Bagi organisasi yang membangun infrastruktur AI, world models menandakan pergeseran komputasi dari pemrosesan teks menuju pembuatan video, simulasi fisika, dan penalaran terwujud.

Batas Kemampuan LLM

Large language models mencapai kemampuan luar biasa melalui skala. GPT-4, Claude, dan Gemini menunjukkan penalaran canggih, pembuatan kode, dan pemecahan masalah multi-langkah.[^6] Namun keterbatasan fundamental tetap ada: model-model ini mempelajari pola statistik dari teks, bukan pemahaman realitas fisik.[^7]

Penelitian yang diterbitkan pada 2024 membuktikan secara matematis bahwa LLM tidak dapat mempelajari semua fungsi yang dapat dihitung dan oleh karena itu pasti akan berhalusinasi ketika digunakan sebagai pemecah masalah umum.[^8] Penyebab utamanya terletak pada cara LLM beroperasi: memprediksi token mana yang mengikuti token sebelumnya berdasarkan pola yang dipelajari dari data pelatihan, tanpa landasan apa pun dalam realitas fisik.[^9]

Masalah Halusinasi

LLM menghasilkan teks yang terdengar masuk akal yang mungkin menggambarkan skenario yang secara fisik tidak mungkin, peristiwa yang secara historis tidak akurat, atau penalaran yang secara logis tidak konsisten.[^10] Berbeda dengan manusia yang belajar tentang gravitasi melalui pengalaman terwujud, LLM hanya mempelajari bahwa kata "gravitasi" cenderung muncul di dekat kata-kata tertentu lainnya.[^11]

Keterbatasan Penyebab Konsekuensi
Halusinasi faktual Tidak ada basis pengetahuan terverifikasi[^12] Fabrikasi fakta dengan percaya diri
Kegagalan penalaran fisik Tidak ada pengalaman terwujud[^13] Menggambarkan fisika yang tidak mungkin
Kebingungan kausal Pencocokan pola, bukan pemahaman[^14] Korelasi diperlakukan sebagai sebab-akibat
Inkoherensi temporal Prediksi token sekuensial[^15] Peristiwa dalam urutan yang tidak mungkin

Yann LeCun telah berargumen secara publik selama bertahun-tahun bahwa penskalaan LLM tidak akan menghasilkan kecerdasan umum.[^16] "LLM terlalu membatasi," kata LeCun dalam presentasinya di NVIDIA GTC. "Menskalakan mereka tidak akan memungkinkan kita mencapai AGI."[^17]

Alternatif yang dia usulkan: world models yang mempelajari representasi realitas fisik, memungkinkan prediksi, perencanaan, dan penalaran tentang sebab dan akibat.[^18]

AMI Labs Yann LeCun

LeCun meninggalkan Meta pada Desember 2025 setelah 12 tahun, lima tahun sebagai direktur pendiri Facebook AI Research (FAIR) dan tujuh tahun sebagai chief AI scientist.[^19] Usaha barunya, Advanced Machine Intelligence (AMI) Labs, merupakan upaya paling ambisius untuk mengkomersialkan penelitian world model.[^20]

Pendanaan dan Struktur

AMI Labs memasuki diskusi pendanaan dengan target €500 juta pada valuasi €3 miliar sebelum meluncurkan produk apa pun.[^21] Target tersebut akan mewakili salah satu penggalangan dana pra-peluncuran terbesar dalam sejarah AI, mencerminkan kepercayaan investor pada visi dan rekam jejak LeCun.[^22]

Peran Orang Latar Belakang
Executive Chairman Yann LeCun Pemenang Turing Award, pendiri Meta FAIR[^23]
CEO Alex LeBrun Mantan CEO Nabla (AI medis)[^24]

Perusahaan berencana untuk mendirikan kantor pusat di Paris pada Januari 2026.[^25] Meskipun Meta tidak akan berinvestasi langsung di AMI Labs, kedua perusahaan berencana menjalin kemitraan yang memungkinkan LeCun melanjutkan koneksi penelitian.[^26]

Visi Teknis

AMI Labs bertujuan untuk menciptakan sistem AI yang memahami fisika, mempertahankan memori persisten, dan merencanakan tindakan kompleks daripada sekadar memprediksi urutan teks.[^27] LeCun menggambarkan world model sebagai "model mental Anda tentang bagaimana dunia berperilaku."[^28]

"Anda dapat membayangkan serangkaian tindakan yang mungkin Anda ambil, dan world model Anda akan memungkinkan Anda memprediksi apa efek dari rangkaian tindakan tersebut terhadap dunia," jelas LeCun.[^29]

Pendekatan ini berbeda secara fundamental dari LLM. Di mana model gaya GPT memprediksi kata berikutnya, world models memprediksi keadaan berikutnya dari lingkungan fisik berdasarkan tindakan yang diambil di dalamnya.[^30] Ini memungkinkan:

  • Perencanaan: Mensimulasikan hasil sebelum mengambil tindakan
  • Penalaran tentang fisika: Memahami bahwa objek memiliki massa, momentum, dan hubungan spasial
  • Pemahaman sebab-akibat: Mempelajari bahwa tindakan menghasilkan konsekuensi yang dapat diprediksi
  • Memori persisten: Mempertahankan keadaan dunia yang konsisten sepanjang waktu

Fondasi I-JEPA

AMI Labs dibangun di atas penelitian I-JEPA (Image Joint Embedding Predictive Architecture) LeCun di Meta.[^31] I-JEPA belajar dengan memprediksi representasi wilayah gambar dari wilayah lain, mengembangkan pemahaman abstrak tentang pemandangan visual tanpa memerlukan label eksplisit.[^32]

Pendekatan ini paralel dengan bagaimana manusia mengembangkan fisika intuitif melalui observasi. Seorang anak yang mengamati benda jatuh mengembangkan model internal gravitasi tanpa ada yang menjelaskan hukum Newton.[^33] I-JEPA dan arsitektur penerusnya bertujuan untuk mereplikasi proses pembelajaran ini dalam sistem buatan.[^34]

Genie 3 DeepMind

Google DeepMind merilis Genie 3 pada Agustus 2025, mewakili world model interaktif real-time tujuan umum pertama.[^35] Berbeda dengan sistem sebelumnya yang menghasilkan lingkungan statis atau memerlukan waktu pemrosesan yang signifikan, Genie 3 menghasilkan dunia 3D yang dapat dinavigasi pada 24 frame per detik.[^36]

Kemampuan Teknis

Genie 3 menghasilkan lingkungan dinamis dari prompt teks, mempertahankan konsistensi visual selama beberapa menit interaksi real-time.[^37] Sistem ini tidak bergantung pada mesin fisika yang di-hardcode; sebaliknya, model mengajarkan dirinya sendiri bagaimana dunia bekerja melalui pelatihan.[^38]

Kemampuan Spesifikasi
Frame rate 24 fps real-time[^39]
Resolusi 720p[^40]
Durasi konsistensi Beberapa menit[^41]
Horizon memori Hingga 1 menit lookback[^42]
Fisika Dipelajari sendiri, bukan di-hardcode[^43]

"Genie 3 adalah world model interaktif real-time tujuan umum pertama," kata Shlomi Fruchter, direktur riset di DeepMind. "Ini melampaui world models sempit yang ada sebelumnya. Ini tidak spesifik untuk lingkungan tertentu."[^44]

Arsitektur Auto-Regressive

Model menghasilkan satu frame pada satu waktu, melihat kembali konten yang dihasilkan sebelumnya untuk menentukan apa yang terjadi selanjutnya.[^45] Mencapai kinerja real-time memerlukan komputasi proses auto-regressive ini beberapa kali per detik sambil mempertahankan konsistensi dengan memori visual yang berpotensi berusia satu menit.[^46]

Konsistensi fisik muncul dari pelatihan daripada pemrograman eksplisit.[^47] Lingkungan Genie 3 mempertahankan fisika yang stabil karena model mempelajari keteraturan fisik dari data pelatihan, bukan karena peneliti secara manual mengkodekan gravitasi atau deteksi tabrakan.[^48]

Implikasi AGI

DeepMind memposisikan Genie 3 sebagai batu loncatan menuju artificial general intelligence.[^49] Lab mengharapkan teknologi world model akan memainkan peran kritis saat agen AI semakin berinteraksi dengan lingkungan fisik.[^50]

"Genie 3 menandai lompatan besar menuju Artificial General Intelligence dengan memungkinkan agen AI untuk 'mengalami,' berinteraksi dengan, dan belajar dari dunia yang disimulasikan secara kaya tanpa pembuatan konten manual," menurut pengumuman DeepMind.[^51]

Keterbatasan Saat Ini

Genie 3 tetap dalam pratinjau penelitian terbatas daripada rilis publik.[^52] Kendala yang diketahui meliputi:

  • Ruang aksi terbatas untuk interaksi agen
  • Kerusakan konsistensi setelah beberapa menit
  • Akurasi geografis dunia nyata yang tidak lengkap
  • Tantangan pemodelan interaksi multi-agen yang kompleks

DeepMind terus memperluas akses pengujian kepada akademisi dan kreator terpilih.[^53]

World Labs Fei-Fei Li dan Marble

World Labs, didirikan oleh pionir AI Fei-Fei Li, meluncurkan Marble pada November 2025 sebagai produk world model pertama yang tersedia secara komersial.[^54] Startup ini muncul dari mode tersembunyi dengan pendanaan $230 juta hanya lebih dari setahun sebelum peluncuran Marble.[^55]

Arsitektur Produk

Marble menghasilkan lingkungan 3D persisten yang dapat diunduh dari prompt teks, foto, video, tata letak 3D, atau gambar panorama.[^56] Berbeda dengan kompetitor yang menghasilkan dunia secara langsung selama eksplorasi, Marble menghasilkan lingkungan diskrit yang dapat diedit dan diekspor pengguna.[^57]

Jenis Input Output
Prompt teks Lingkungan 3D
Foto Lingkungan 3D
Video Lingkungan 3D
Tata letak 3D Lingkungan 3D yang ditingkatkan AI
Panorama Lingkungan 3D

Platform ini menawarkan alat pengeditan berbasis AI dan editor 3D hybrid yang memungkinkan pemblokiran struktur spasial sebelum AI mengisi detail visual.[^58] File diekspor dalam format yang kompatibel dengan alat standar industri seperti Unreal Engine dan Unity.[^59]

Model Harga

World Labs mengadopsi struktur freemium yang menargetkan profesional kreatif:[^60]

Tingkat Harga Generasi Fitur
Free $0 4/bulan Generasi dasar
Standard $20/bulan 12/bulan Fitur standar
Pro $35/bulan 25/bulan Hak komersial
Max $95/bulan 75/bulan Fitur premium

Aplikasi Target

Kasus penggunaan awal berfokus pada gaming, efek visual untuk film, dan virtual reality.[^61] Marble mendukung headset VR Vision Pro dan Quest 3, dengan setiap dunia yang dihasilkan dapat dilihat dalam VR.[^62]

Fei-Fei Li memposisikan Marble sebagai "langkah pertama menuju penciptaan world model yang benar-benar cerdas secara spasial."[^63] Di luar aplikasi kreatif, teknologi ini memungkinkan pelatihan robotika melalui lingkungan simulasi yang akan mahal atau berbahaya untuk dibuat dalam realitas fisik.[^64]

NVIDIA Cosmos: World Models Skala Industri

NVIDIA meluncurkan Cosmos di CES 2025 sebagai platform untuk pengembangan physical AI, secara khusus menargetkan kendaraan otonom dan robotika.[^65] Pada Januari 2026, world foundation models Cosmos telah diunduh lebih dari 2 juta kali.[^66]

Arsitektur Platform

Cosmos terdiri dari generative world foundation models, tokenizer canggih, guardrails, dan pipeline pemrosesan video yang dipercepat.[^67] Model-model ini memprediksi dan menghasilkan video sadar fisika dari keadaan lingkungan masa depan, memungkinkan pembuatan data pelatihan sintetis dalam skala besar.[^68]

Tingkat Model Optimisasi Kasus Penggunaan
Nano Real-time, deployment edge[^69] Inferensi di perangkat
Super Baseline kinerja tinggi[^70] Pengembangan umum
Ultra Kualitas dan fidelitas maksimum[^71] Distilasi model kustom

Platform ini dilatih pada 9.000 triliun token dari 20 juta jam data dunia nyata yang mencakup interaksi manusia, lingkungan, pengaturan industri, robotika, dan skenario mengemudi.[^72]

Adopsi Industri

Perusahaan robotika dan otomotif terkemuka mengadopsi Cosmos untuk pembuatan data sintetis:[^73]

Perusahaan Domain
1X Robot humanoid
Agility Robot bipedal
Figure AI Robot humanoid
Waabi Truk otonom
XPENG Kendaraan listrik
Uber Ridesharing otonom

Jenis Model Cosmos

Tiga jenis model menangani kebutuhan pengembangan physical AI yang berbeda:[^74]

Cosmos-Predict: Mensimulasikan dan memprediksi keadaan dunia masa depan dalam bentuk video **Co

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING