Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Yann LeCun mengumpulkan €500 juta untuk AMI Labs sementara Genie 3 dari DeepMind mensimulasikan dunia 3D secara real-time. Perlombaan 2026 untuk membangun AI yang memahami fisika mungkin akan melampaui LLM.

Blake Crosley

Jan 03, 2026 8 min read Disclaimer

Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Valuasi tiga miliar dolar sebelum peluncuran untuk sebuah startup yang belum merilis satu produk pun.[^1] AMI Labs milik Yann LeCun merupakan taruhan terbesar hingga saat ini pada tesis yang telah memecah belah peneliti AI selama bertahun-tahun: large language models tidak akan pernah mencapai kecerdasan umum, dan jalan ke depan melewati world models sebagai gantinya.

Ringkasan

Paradigma world models meledak ke dalam pengembangan AI arus utama pada akhir 2025 dan awal 2026. Yann LeCun meninggalkan Meta setelah 12 tahun untuk meluncurkan AMI Labs, mengumpulkan €500 juta dengan valuasi €3 miliar untuk membangun sistem AI yang memahami fisika alih-alih sekadar memprediksi teks.[^2] Google DeepMind merilis Genie 3, world model interaktif real-time pertama yang mampu menghasilkan lingkungan 3D persisten pada 24 fps.[^3] World Labs milik Fei-Fei Li meluncurkan Marble, menjadikan pembuatan world model tersedia secara komersial dengan harga mulai dari gratis hingga $95/bulan.[^4] Platform Cosmos dari NVIDIA telah diunduh 2 juta kali karena pengembang robotika dan kendaraan otonom mengadopsi data pelatihan sintetis yang sadar fisika.[^5] Bagi organisasi yang membangun infrastruktur AI, world models menandakan pergeseran komputasi dari pemrosesan teks menuju pembuatan video, simulasi fisika, dan penalaran terwujud.

Batas Kemampuan LLM

Large language models mencapai kemampuan luar biasa melalui skala. GPT-4, Claude, dan Gemini menunjukkan penalaran canggih, pembuatan kode, dan pemecahan masalah multi-langkah.[^6] Namun keterbatasan fundamental tetap ada: model-model ini mempelajari pola statistik dari teks, bukan pemahaman realitas fisik.[^7]

Penelitian yang diterbitkan pada 2024 membuktikan secara matematis bahwa LLM tidak dapat mempelajari semua fungsi yang dapat dihitung dan oleh karena itu pasti akan berhalusinasi ketika digunakan sebagai pemecah masalah umum.[^8] Penyebab utamanya terletak pada cara LLM beroperasi: memprediksi token mana yang mengikuti token sebelumnya berdasarkan pola yang dipelajari dari data pelatihan, tanpa landasan apa pun dalam realitas fisik.[^9]

Masalah Halusinasi

LLM menghasilkan teks yang terdengar masuk akal yang mungkin menggambarkan skenario yang secara fisik tidak mungkin, peristiwa yang secara historis tidak akurat, atau penalaran yang secara logis tidak konsisten.[^10] Berbeda dengan manusia yang belajar tentang gravitasi melalui pengalaman terwujud, LLM hanya mempelajari bahwa kata "gravitasi" cenderung muncul di dekat kata-kata tertentu lainnya.[^11]

Keterbatasan	Penyebab	Konsekuensi
Halusinasi faktual	Tidak ada basis pengetahuan terverifikasi[^12]	Fabrikasi fakta dengan percaya diri
Kegagalan penalaran fisik	Tidak ada pengalaman terwujud[^13]	Menggambarkan fisika yang tidak mungkin
Kebingungan kausal	Pencocokan pola, bukan pemahaman[^14]	Korelasi diperlakukan sebagai sebab-akibat
Inkoherensi temporal	Prediksi token sekuensial[^15]	Peristiwa dalam urutan yang tidak mungkin

Yann LeCun telah berargumen secara publik selama bertahun-tahun bahwa penskalaan LLM tidak akan menghasilkan kecerdasan umum.[^16] "LLM terlalu membatasi," kata LeCun dalam presentasinya di NVIDIA GTC. "Menskalakan mereka tidak akan memungkinkan kita mencapai AGI."[^17]

Alternatif yang dia usulkan: world models yang mempelajari representasi realitas fisik, memungkinkan prediksi, perencanaan, dan penalaran tentang sebab dan akibat.[^18]

AMI Labs Yann LeCun

LeCun meninggalkan Meta pada Desember 2025 setelah 12 tahun, lima tahun sebagai direktur pendiri Facebook AI Research (FAIR) dan tujuh tahun sebagai chief AI scientist.[^19] Usaha barunya, Advanced Machine Intelligence (AMI) Labs, merupakan upaya paling ambisius untuk mengkomersialkan penelitian world model.[^20]

Pendanaan dan Struktur

AMI Labs memasuki diskusi pendanaan dengan target €500 juta pada valuasi €3 miliar sebelum meluncurkan produk apa pun.[^21] Target tersebut akan mewakili salah satu penggalangan dana pra-peluncuran terbesar dalam sejarah AI, mencerminkan kepercayaan investor pada visi dan rekam jejak LeCun.[^22]

Peran	Orang	Latar Belakang
Executive Chairman	Yann LeCun	Pemenang Turing Award, pendiri Meta FAIR[^23]
CEO	Alex LeBrun	Mantan CEO Nabla (AI medis)[^24]

Perusahaan berencana untuk mendirikan kantor pusat di Paris pada Januari 2026.[^25] Meskipun Meta tidak akan berinvestasi langsung di AMI Labs, kedua perusahaan berencana menjalin kemitraan yang memungkinkan LeCun melanjutkan koneksi penelitian.[^26]

Visi Teknis

AMI Labs bertujuan untuk menciptakan sistem AI yang memahami fisika, mempertahankan memori persisten, dan merencanakan tindakan kompleks daripada sekadar memprediksi urutan teks.[^27] LeCun menggambarkan world model sebagai "model mental Anda tentang bagaimana dunia berperilaku."[^28]

"Anda dapat membayangkan serangkaian tindakan yang mungkin Anda ambil, dan world model Anda akan memungkinkan Anda memprediksi apa efek dari rangkaian tindakan tersebut terhadap dunia," jelas LeCun.[^29]

Pendekatan ini berbeda secara fundamental dari LLM. Di mana model gaya GPT memprediksi kata berikutnya, world models memprediksi keadaan berikutnya dari lingkungan fisik berdasarkan tindakan yang diambil di dalamnya.[^30] Ini memungkinkan:

Perencanaan: Mensimulasikan hasil sebelum mengambil tindakan
Penalaran tentang fisika: Memahami bahwa objek memiliki massa, momentum, dan hubungan spasial
Pemahaman sebab-akibat: Mempelajari bahwa tindakan menghasilkan konsekuensi yang dapat diprediksi
Memori persisten: Mempertahankan keadaan dunia yang konsisten sepanjang waktu

Fondasi I-JEPA

AMI Labs dibangun di atas penelitian I-JEPA (Image Joint Embedding Predictive Architecture) LeCun di Meta.[^31] I-JEPA belajar dengan memprediksi representasi wilayah gambar dari wilayah lain, mengembangkan pemahaman abstrak tentang pemandangan visual tanpa memerlukan label eksplisit.[^32]

Pendekatan ini paralel dengan bagaimana manusia mengembangkan fisika intuitif melalui observasi. Seorang anak yang mengamati benda jatuh mengembangkan model internal gravitasi tanpa ada yang menjelaskan hukum Newton.[^33] I-JEPA dan arsitektur penerusnya bertujuan untuk mereplikasi proses pembelajaran ini dalam sistem buatan.[^34]

Genie 3 DeepMind

Google DeepMind merilis Genie 3 pada Agustus 2025, mewakili world model interaktif real-time tujuan umum pertama.[^35] Berbeda dengan sistem sebelumnya yang menghasilkan lingkungan statis atau memerlukan waktu pemrosesan yang signifikan, Genie 3 menghasilkan dunia 3D yang dapat dinavigasi pada 24 frame per detik.[^36]

Kemampuan Teknis

Genie 3 menghasilkan lingkungan dinamis dari prompt teks, mempertahankan konsistensi visual selama beberapa menit interaksi real-time.[^37] Sistem ini tidak bergantung pada mesin fisika yang di-hardcode; sebaliknya, model mengajarkan dirinya sendiri bagaimana dunia bekerja melalui pelatihan.[^38]

Kemampuan	Spesifikasi
Frame rate	24 fps real-time[^39]
Resolusi	720p[^40]
Durasi konsistensi	Beberapa menit[^41]
Horizon memori	Hingga 1 menit lookback[^42]
Fisika	Dipelajari sendiri, bukan di-hardcode[^43]

"Genie 3 adalah world model interaktif real-time tujuan umum pertama," kata Shlomi Fruchter, direktur riset di DeepMind. "Ini melampaui world models sempit yang ada sebelumnya. Ini tidak spesifik untuk lingkungan tertentu."[^44]

Arsitektur Auto-Regressive

Model menghasilkan satu frame pada satu waktu, melihat kembali konten yang dihasilkan sebelumnya untuk menentukan apa yang terjadi selanjutnya.[^45] Mencapai kinerja real-time memerlukan komputasi proses auto-regressive ini beberapa kali per detik sambil mempertahankan konsistensi dengan memori visual yang berpotensi berusia satu menit.[^46]

Konsistensi fisik muncul dari pelatihan daripada pemrograman eksplisit.[^47] Lingkungan Genie 3 mempertahankan fisika yang stabil karena model mempelajari keteraturan fisik dari data pelatihan, bukan karena peneliti secara manual mengkodekan gravitasi atau deteksi tabrakan.[^48]

Implikasi AGI

DeepMind memposisikan Genie 3 sebagai batu loncatan menuju artificial general intelligence.[^49] Lab mengharapkan teknologi world model akan memainkan peran kritis saat agen AI semakin berinteraksi dengan lingkungan fisik.[^50]

"Genie 3 menandai lompatan besar menuju Artificial General Intelligence dengan memungkinkan agen AI untuk 'mengalami,' berinteraksi dengan, dan belajar dari dunia yang disimulasikan secara kaya tanpa pembuatan konten manual," menurut pengumuman DeepMind.[^51]

Keterbatasan Saat Ini

Genie 3 tetap dalam pratinjau penelitian terbatas daripada rilis publik.[^52] Kendala yang diketahui meliputi:

Ruang aksi terbatas untuk interaksi agen
Kerusakan konsistensi setelah beberapa menit
Akurasi geografis dunia nyata yang tidak lengkap
Tantangan pemodelan interaksi multi-agen yang kompleks

DeepMind terus memperluas akses pengujian kepada akademisi dan kreator terpilih.[^53]

World Labs Fei-Fei Li dan Marble

World Labs, didirikan oleh pionir AI Fei-Fei Li, meluncurkan Marble pada November 2025 sebagai produk world model pertama yang tersedia secara komersial.[^54] Startup ini muncul dari mode tersembunyi dengan pendanaan $230 juta hanya lebih dari setahun sebelum peluncuran Marble.[^55]

Arsitektur Produk

Marble menghasilkan lingkungan 3D persisten yang dapat diunduh dari prompt teks, foto, video, tata letak 3D, atau gambar panorama.[^56] Berbeda dengan kompetitor yang menghasilkan dunia secara langsung selama eksplorasi, Marble menghasilkan lingkungan diskrit yang dapat diedit dan diekspor pengguna.[^57]

Jenis Input	Output
Prompt teks	Lingkungan 3D
Foto	Lingkungan 3D
Video	Lingkungan 3D
Tata letak 3D	Lingkungan 3D yang ditingkatkan AI
Panorama	Lingkungan 3D

Platform ini menawarkan alat pengeditan berbasis AI dan editor 3D hybrid yang memungkinkan pemblokiran struktur spasial sebelum AI mengisi detail visual.[^58] File diekspor dalam format yang kompatibel dengan alat standar industri seperti Unreal Engine dan Unity.[^59]

Model Harga

World Labs mengadopsi struktur freemium yang menargetkan profesional kreatif:[^60]

Tingkat	Harga	Generasi	Fitur
Free	$0	4/bulan	Generasi dasar
Standard	$20/bulan	12/bulan	Fitur standar
Pro	$35/bulan	25/bulan	Hak komersial
Max	$95/bulan	75/bulan	Fitur premium

Aplikasi Target

Kasus penggunaan awal berfokus pada gaming, efek visual untuk film, dan virtual reality.[^61] Marble mendukung headset VR Vision Pro dan Quest 3, dengan setiap dunia yang dihasilkan dapat dilihat dalam VR.[^62]

Fei-Fei Li memposisikan Marble sebagai "langkah pertama menuju penciptaan world model yang benar-benar cerdas secara spasial."[^63] Di luar aplikasi kreatif, teknologi ini memungkinkan pelatihan robotika melalui lingkungan simulasi yang akan mahal atau berbahaya untuk dibuat dalam realitas fisik.[^64]

NVIDIA Cosmos: World Models Skala Industri

NVIDIA meluncurkan Cosmos di CES 2025 sebagai platform untuk pengembangan physical AI, secara khusus menargetkan kendaraan otonom dan robotika.[^65] Pada Januari 2026, world foundation models Cosmos telah diunduh lebih dari 2 juta kali.[^66]

Arsitektur Platform

Cosmos terdiri dari generative world foundation models, tokenizer canggih, guardrails, dan pipeline pemrosesan video yang dipercepat.[^67] Model-model ini memprediksi dan menghasilkan video sadar fisika dari keadaan lingkungan masa depan, memungkinkan pembuatan data pelatihan sintetis dalam skala besar.[^68]

Tingkat Model	Optimisasi	Kasus Penggunaan
Nano	Real-time, deployment edge[^69]	Inferensi di perangkat
Super	Baseline kinerja tinggi[^70]	Pengembangan umum
Ultra	Kualitas dan fidelitas maksimum[^71]	Distilasi model kustom

Platform ini dilatih pada 9.000 triliun token dari 20 juta jam data dunia nyata yang mencakup interaksi manusia, lingkungan, pengaturan industri, robotika, dan skenario mengemudi.[^72]

Adopsi Industri

Perusahaan robotika dan otomotif terkemuka mengadopsi Cosmos untuk pembuatan data sintetis:[^73]

Perusahaan	Domain
1X	Robot humanoid
Agility	Robot bipedal
Figure AI	Robot humanoid
Waabi	Truk otonom
XPENG	Kendaraan listrik
Uber	Ridesharing otonom

Jenis Model Cosmos

Tiga jenis model menangani kebutuhan pengembangan physical AI yang berbeda:[^74]

Cosmos-Predict: Mensimulasikan dan memprediksi keadaan dunia masa depan dalam bentuk video **Co

[Konten dipotong untuk terjemahan]

Perlombaan World Models 2026: Bagaimana LeCun, DeepMind, dan World Labs Mendefinisikan Ulang Jalan Menuju AGI

Ringkasan

Batas Kemampuan LLM

Masalah Halusinasi

AMI Labs Yann LeCun

Pendanaan dan Struktur

Visi Teknis

Fondasi I-JEPA

Genie 3 DeepMind

Kemampuan Teknis

Arsitektur Auto-Regressive

Implikasi AGI

Keterbatasan Saat Ini

World Labs Fei-Fei Li dan Marble

Arsitektur Produk

Model Harga

Aplikasi Target

NVIDIA Cosmos: World Models Skala Industri

Arsitektur Platform

Adopsi Industri

Jenis Model Cosmos

You Might Also Like

AIOps untuk Pusat Data: Menggunakan LLM untuk Mengelola Infr...

Load Balancing untuk Inferensi AI: Mendistribusikan Perminta...

Komputasi Terdisagregasi untuk AI: Arsitektur Infrastruktur ...

Minta Penawaran_

Permintaan Diterima_