वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं
एक ऐसी स्टार्टअप के लिए तीन बिलियन डॉलर का प्री-लॉन्च वैल्यूएशन जिसने अभी तक एक भी प्रोडक्ट लॉन्च नहीं किया है।[^1] Yann LeCun की AMI Labs उस थीसिस पर अब तक का सबसे बड़ा दांव है जिसने वर्षों से AI शोधकर्ताओं को विभाजित किया है: large language models कभी भी सामान्य बुद्धिमत्ता (general intelligence) हासिल नहीं कर पाएंगे, और आगे का रास्ता world models से होकर जाता है।
संक्षेप में (TL;DR)
World models पैराडाइम 2025 के अंत और 2026 की शुरुआत में मुख्यधारा AI विकास में विस्फोटक रूप से उभरा। Yann LeCun ने 12 साल बाद Meta छोड़कर AMI Labs लॉन्च की, जिसने €3B वैल्यूएशन पर €500M जुटाए - ऐसी AI सिस्टम्स बनाने के लिए जो केवल टेक्स्ट प्रेडिक्ट करने की बजाय भौतिकी को समझती हैं।[^2] Google DeepMind ने Genie 3 रिलीज़ किया, पहला रियल-टाइम इंटरैक्टिव world model जो 24 fps पर persistent 3D वातावरण जेनरेट कर सकता है।[^3] Fei-Fei Li की World Labs ने Marble लॉन्च किया, जिससे world model जनरेशन $95/माह तक की मुफ्त से शुरू होने वाली प्राइसिंग के साथ व्यावसायिक रूप से उपलब्ध हो गई।[^4] NVIDIA के Cosmos प्लेटफॉर्म को 2 मिलियन डाउनलोड्स मिले क्योंकि रोबोटिक्स और ऑटोनॉमस वाहन डेवलपर्स ने सिंथेटिक physics-aware ट्रेनिंग डेटा को अपनाया।[^5] AI इंफ्रास्ट्रक्चर बनाने वाले संगठनों के लिए, world models टेक्स्ट प्रोसेसिंग से वीडियो जनरेशन, फिजिक्स सिमुलेशन और embodied reasoning की ओर एक कम्प्यूटेशनल शिफ्ट का संकेत देते हैं।
LLM की सीमा
Large language models ने स्केल के माध्यम से उल्लेखनीय क्षमताएं हासिल कीं। GPT-4, Claude और Gemini परिष्कृत रीज़निंग, कोड जनरेशन और मल्टी-स्टेप समस्या समाधान प्रदर्शित करते हैं।[^6] फिर भी एक मूलभूत सीमा बनी हुई है: ये मॉडल टेक्स्ट से सांख्यिकीय पैटर्न सीखते हैं, भौतिक वास्तविकता की समझ नहीं।[^7]
2024 में प्रकाशित शोध ने गणितीय रूप से साबित किया कि LLMs सभी computable functions नहीं सीख सकते और इसलिए सामान्य समस्या समाधानकर्ता के रूप में उपयोग किए जाने पर अनिवार्य रूप से hallucinate करेंगे।[^8] मूल कारण इसमें निहित है कि LLMs कैसे काम करते हैं: ट्रेनिंग डेटा से सीखे गए पैटर्न के आधार पर पिछले टोकन के बाद कौन से टोकन आएंगे यह प्रेडिक्ट करना, बिना भौतिक वास्तविकता में किसी grounding के।[^9]
Hallucination समस्या
LLMs विश्वसनीय लगने वाला टेक्स्ट जेनरेट करते हैं जो भौतिक रूप से असंभव परिदृश्यों, ऐतिहासिक रूप से गलत घटनाओं, या तार्किक रूप से असंगत रीज़निंग का वर्णन कर सकता है।[^10] जहां मनुष्य embodied अनुभव के माध्यम से गुरुत्वाकर्षण के बारे में सीखते हैं, LLMs केवल यह सीखते हैं कि "gravity" शब्द कुछ अन्य शब्दों के पास दिखाई देता है।[^11]
| सीमा | कारण | परिणाम |
|---|---|---|
| तथ्यात्मक hallucination | कोई सत्यापित ज्ञान आधार नहीं[^12] | तथ्यों का आत्मविश्वासपूर्ण निर्माण |
| भौतिक रीज़निंग विफलता | कोई embodied अनुभव नहीं[^13] | असंभव भौतिकी का वर्णन |
| कारण संबंध भ्रम | पैटर्न मैचिंग, समझ नहीं[^14] | सह-संबंध को कारण के रूप में माना जाना |
| टेम्पोरल असंगति | Sequential token prediction[^15] | असंभव क्रम में घटनाएं |
Yann LeCun ने वर्षों से सार्वजनिक रूप से तर्क दिया है कि LLMs को स्केल करने से सामान्य बुद्धिमत्ता नहीं आएगी।[^16] "LLMs बहुत सीमित हैं," LeCun ने अपनी NVIDIA GTC प्रस्तुति में कहा। "उन्हें स्केल करने से हमें AGI तक पहुंचने की अनुमति नहीं मिलेगी।"[^17]
वे जो विकल्प प्रस्तावित करते हैं: world models जो भौतिक वास्तविकता के representations सीखते हैं, जो prediction, planning और cause-effect के बारे में reasoning को सक्षम करते हैं।[^18]
Yann LeCun की AMI Labs
LeCun ने दिसंबर 2025 में 12 साल बाद Meta छोड़ दिया, जिनमें से पांच साल Facebook AI Research (FAIR) के संस्थापक निदेशक के रूप में और सात साल chief AI scientist के रूप में थे।[^19] उनका नया उद्यम, Advanced Machine Intelligence (AMI) Labs, world model research को व्यावसायिक बनाने का अब तक का सबसे महत्वाकांक्षी प्रयास है।[^20]
फंडिंग और संरचना
AMI Labs ने किसी भी प्रोडक्ट लॉन्च करने से पहले €3 बिलियन वैल्यूएशन पर €500 मिलियन की मांग करते हुए फंडिंग चर्चाओं में प्रवेश किया।[^21] यह लक्ष्य AI इतिहास में सबसे बड़े प्री-लॉन्च raises में से एक होगा, जो LeCun के विज़न और track record में निवेशकों के विश्वास को दर्शाता है।[^22]
| भूमिका | व्यक्ति | पृष्ठभूमि |
|---|---|---|
| Executive Chairman | Yann LeCun | Turing Award विजेता, Meta FAIR संस्थापक[^23] |
| CEO | Alex LeBrun | Nabla (medical AI) के पूर्व CEO[^24] |
कंपनी जनवरी 2026 तक पेरिस में मुख्यालय स्थापित करने की योजना बना रही है।[^25] हालांकि Meta सीधे AMI Labs में निवेश नहीं करेगा, कंपनियां एक साझेदारी बनाने की योजना बना रही हैं जो LeCun को शोध कनेक्शन जारी रखने की अनुमति देगी।[^26]
तकनीकी विज़न
AMI Labs का उद्देश्य ऐसी AI सिस्टम्स बनाना है जो केवल टेक्स्ट sequences को प्रेडिक्ट करने के बजाय भौतिकी को समझती हैं, persistent memory बनाए रखती हैं, और जटिल कार्यों की योजना बनाती हैं।[^27] LeCun world model को "दुनिया कैसे व्यवहार करती है इसका आपका मानसिक मॉडल" के रूप में वर्णित करते हैं।[^28]
"आप कल्पना कर सकते हैं कि आप कौन से कार्यों का sequence ले सकते हैं, और आपका world model आपको यह predict करने की अनुमति देगा कि उस sequence का दुनिया पर क्या प्रभाव होगा," LeCun ने समझाया।[^29]
यह दृष्टिकोण LLMs से मौलिक रूप से भिन्न है। जहां GPT-स्टाइल मॉडल अगले शब्द की भविष्यवाणी करते हैं, world models किसी भौतिक वातावरण की अगली अवस्था की भविष्यवाणी करते हैं जो उसमें की गई क्रियाओं को देखते हुए होती है।[^30] यह सक्षम करता है:
- Planning: कार्रवाई करने से पहले परिणामों का सिमुलेशन
- भौतिकी के बारे में रीज़निंग: यह समझना कि वस्तुओं में द्रव्यमान, गति और स्थानिक संबंध होते हैं
- Cause-effect समझ: यह सीखना कि क्रियाएं predictable परिणाम उत्पन्न करती हैं
- Persistent memory: समय के साथ consistent world state बनाए रखना
I-JEPA Foundation
AMI Labs Meta में LeCun के I-JEPA (Image Joint Embedding Predictive Architecture) शोध पर आधारित है।[^31] I-JEPA अन्य regions से image regions के representations की prediction करके सीखता है, explicit labels की आवश्यकता के बिना visual scenes की abstract समझ विकसित करता है।[^32]
यह दृष्टिकोण इस बात के समानांतर है कि मनुष्य observation के माध्यम से intuitive physics कैसे विकसित करते हैं। एक बच्चा जो वस्तुओं को गिरते हुए देखता है, बिना किसी के Newton के नियमों को समझाए गुरुत्वाकर्षण का आंतरिक मॉडल विकसित करता है।[^33] I-JEPA और उत्तराधिकारी architectures का उद्देश्य इस learning process को artificial systems में replicate करना है।[^34]
DeepMind का Genie 3
Google DeepMind ने अगस्त 2025 में Genie 3 रिलीज़ किया, जो पहला real-time interactive general-purpose world model है।[^35] पिछले systems के विपरीत जो static environments जेनरेट करते थे या significant processing time की आवश्यकता होती थी, Genie 3 24 frames प्रति सेकंड पर navigable 3D worlds produce करता है।[^36]
तकनीकी क्षमताएं
Genie 3 text prompts से dynamic environments जेनरेट करता है, कई मिनटों के real-time interaction के लिए visual consistency बनाए रखता है।[^37] सिस्टम hard-coded physics engines पर निर्भर नहीं है; इसके बजाय, मॉडल training के माध्यम से खुद सीखता है कि दुनिया कैसे काम करती है।[^38]
| क्षमता | विशिष्टता |
|---|---|
| Frame rate | 24 fps real-time[^39] |
| Resolution | 720p[^40] |
| Consistency duration | कई मिनट[^41] |
| Memory horizon | 1 मिनट तक का lookback[^42] |
| Physics | Self-learned, hard-coded नहीं[^43] |
"Genie 3 पहला real-time interactive general-purpose world model है," DeepMind में research director Shlomi Fruchter ने कहा। "यह narrow world models से परे जाता है जो पहले मौजूद थे। यह किसी विशेष environment के लिए specific नहीं है।"[^44]
Auto-Regressive Architecture
मॉडल एक समय में एक frame जेनरेट करता है, यह निर्धारित करने के लिए पहले से जेनरेट की गई content को देखता है कि आगे क्या होता है।[^45] Real-time performance हासिल करने के लिए इस auto-regressive process को प्रति सेकंड कई बार compute करना आवश्यक है जबकि संभावित रूप से minute-old visual memory के साथ consistency बनाए रखना होता है।[^46]
Physical consistency explicit programming के बजाय training से उभरती है।[^47] Genie 3 environments stable physics बनाए रखते हैं क्योंकि मॉडल ने training data से physical regularities सीखीं, इसलिए नहीं कि researchers ने manually gravity या collision detection encode किया।[^48]
AGI Implications
DeepMind Genie 3 को artificial general intelligence की ओर एक stepping stone के रूप में position करता है।[^49] Lab को उम्मीद है कि world model technology एक critical role निभाएगी जैसे-जैसे AI agents physical environments के साथ अधिक interact करते हैं।[^50]
"Genie 3 AI agents को manual content creation के बिना richly simulated worlds को 'experience,' interact with, और उनसे learn करने में सक्षम करके Artificial General Intelligence की ओर एक major leap को चिह्नित करता है," DeepMind की घोषणा के अनुसार।[^51]
वर्तमान सीमाएं
Genie 3 public release के बजाय limited research preview में बना हुआ है।[^52] ज्ञात constraints में शामिल हैं:
- Agent interactions के लिए limited action space
- कई मिनटों के बाद consistency breakdown
- Incomplete real-world geographic accuracy
- Complex multi-agent interactions को model करने में challenges
DeepMind selected academics और creators को testing access का विस्तार जारी रखे हुए है।[^53]
Fei-Fei Li की World Labs और Marble
AI pioneer Fei-Fei Li द्वारा स्थापित World Labs ने नवंबर 2025 में Marble को पहले commercially available world model product के रूप में लॉन्च किया।[^54] स्टार्टअप Marble लॉन्च से सिर्फ एक साल पहले $230 मिलियन की funding के साथ stealth से बाहर आई।[^55]
Product Architecture
Marble text prompts, photos, videos, 3D layouts, या panoramic images से persistent, downloadable 3D environments जेनरेट करता है।[^56] Competitors के विपरीत जो exploration के दौरान on-the-fly worlds जेनरेट करते हैं, Marble discrete environments produce करता है जिन्हें users edit और export कर सकते हैं।[^57]
| Input Type | Output |
|---|---|
| Text prompt | 3D environment |
| Photo | 3D environment |
| Video | 3D environment |
| 3D layout | AI-enhanced 3D environment |
| Panorama | 3D environment |
Platform AI-native editing tools और एक hybrid 3D editor प्रदान करता है जो AI द्वारा visual details भरने से पहले spatial structure blocking को सक्षम करता है।[^58] Files industry-standard tools जैसे Unreal Engine और Unity के साथ compatible formats में export होते हैं।[^59]
Pricing Model
World Labs ने creative professionals को target करते हुए freemium structure अपनाया:[^60]
| Tier | Price | Generations | Features |
|---|---|---|---|
| Free | $0 | 4/माह | Basic generation |
| Standard | $20/माह | 12/माह | Standard features |
| Pro | $35/माह | 25/माह | Commercial rights |
| Max | $95/माह | 75/माह | Premium features |
Target Applications
Initial use cases gaming, film के लिए visual effects, और virtual reality पर focus करते हैं।[^61] Marble Vision Pro और Quest 3 VR headsets को support करता है, हर generated world VR में viewable है।[^62]
Fei-Fei Li Marble को "truly spatially intelligent world model बनाने की दिशा में पहला कदम" के रूप में position करती हैं।[^63] Creative applications के अलावा, technology simulated environments के माध्यम से robotics training को सक्षम करती है जो physical reality में बनाना महंगा या खतरनाक होगा।[^64]
NVIDIA Cosmos: Industrial-Scale World Models
NVIDIA ने CES 2025 में Cosmos को physical AI development के लिए एक platform के रूप में लॉन्च किया, विशेष रूप से autonomous vehicles और robotics को target करते हुए।[^65] जनवरी 2026 तक, Cosmos world foundation models को 2 मिलियन से अधिक बार download किया गया था।[^66]
Platform Architecture
Cosmos में generative world foundation models, advanced tokenizers, guardrails, और एक accelerated video processing pipeline शामिल है।[^67] Models future environment states के physics-aware videos predict और generate करते हैं, massive scale पर synthetic training data generation को सक्षम करते हुए।[^68]
| Model Tier | Optimization | Use Case |
|---|---|---|
| Nano | Real-time, edge deployment[^69] | On-device inference |
| Super | High performance baseline[^70] | General development |
| Ultra | Maximum quality and fidelity[^71] | Custom model distillation |
Platform ने human interactions, environments, industrial settings, robotics, और driving scenarios spanning 20 मिलियन घंटों के real-world data से 9,000 trillion tokens पर train किया।[^72]
Industry Adoption
Leading robotics और automotive companies ने synthetic data generation के लिए Cosmos को adopt किया:[^73]
| Company | Domain |
|---|---|
| 1X | Humanoid robots |
| Agility | Bipedal robots |
| Figure AI | Humanoid robots |
| Waabi | Autonomous trucking |
| XPENG | Electric vehicles |
| Uber | Ridesharing autonomous |
Cosmos Model Types
तीन model types different physical AI development needs को address करते हैं:[^74]
Cosmos-Predict: Video form में future world states को simulate और predict करता है **Co
[अनुवाद के लिए सामग्री छोटी की गई]