वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

Yann LeCun ने AMI Labs के लिए €500M जुटाए जबकि DeepMind का Genie 3 रियल-टाइम 3D दुनिया का सिमुलेशन करता है। भौतिकी को समझने वाली AI बनाने की 2026 की दौड़ LLMs को पीछे छोड़ सकती है।

Blake Crosley

Jan 03, 2026 10 min read Disclaimer

वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

एक ऐसी स्टार्टअप के लिए तीन बिलियन डॉलर का प्री-लॉन्च वैल्यूएशन जिसने अभी तक एक भी प्रोडक्ट लॉन्च नहीं किया है।[^1] Yann LeCun की AMI Labs उस थीसिस पर अब तक का सबसे बड़ा दांव है जिसने वर्षों से AI शोधकर्ताओं को विभाजित किया है: large language models कभी भी सामान्य बुद्धिमत्ता (general intelligence) हासिल नहीं कर पाएंगे, और आगे का रास्ता world models से होकर जाता है।

संक्षेप में (TL;DR)

World models पैराडाइम 2025 के अंत और 2026 की शुरुआत में मुख्यधारा AI विकास में विस्फोटक रूप से उभरा। Yann LeCun ने 12 साल बाद Meta छोड़कर AMI Labs लॉन्च की, जिसने €3B वैल्यूएशन पर €500M जुटाए - ऐसी AI सिस्टम्स बनाने के लिए जो केवल टेक्स्ट प्रेडिक्ट करने की बजाय भौतिकी को समझती हैं।[^2] Google DeepMind ने Genie 3 रिलीज़ किया, पहला रियल-टाइम इंटरैक्टिव world model जो 24 fps पर persistent 3D वातावरण जेनरेट कर सकता है।[^3] Fei-Fei Li की World Labs ने Marble लॉन्च किया, जिससे world model जनरेशन $95/माह तक की मुफ्त से शुरू होने वाली प्राइसिंग के साथ व्यावसायिक रूप से उपलब्ध हो गई।[^4] NVIDIA के Cosmos प्लेटफॉर्म को 2 मिलियन डाउनलोड्स मिले क्योंकि रोबोटिक्स और ऑटोनॉमस वाहन डेवलपर्स ने सिंथेटिक physics-aware ट्रेनिंग डेटा को अपनाया।[^5] AI इंफ्रास्ट्रक्चर बनाने वाले संगठनों के लिए, world models टेक्स्ट प्रोसेसिंग से वीडियो जनरेशन, फिजिक्स सिमुलेशन और embodied reasoning की ओर एक कम्प्यूटेशनल शिफ्ट का संकेत देते हैं।

LLM की सीमा

Large language models ने स्केल के माध्यम से उल्लेखनीय क्षमताएं हासिल कीं। GPT-4, Claude और Gemini परिष्कृत रीज़निंग, कोड जनरेशन और मल्टी-स्टेप समस्या समाधान प्रदर्शित करते हैं।[^6] फिर भी एक मूलभूत सीमा बनी हुई है: ये मॉडल टेक्स्ट से सांख्यिकीय पैटर्न सीखते हैं, भौतिक वास्तविकता की समझ नहीं।[^7]

2024 में प्रकाशित शोध ने गणितीय रूप से साबित किया कि LLMs सभी computable functions नहीं सीख सकते और इसलिए सामान्य समस्या समाधानकर्ता के रूप में उपयोग किए जाने पर अनिवार्य रूप से hallucinate करेंगे।[^8] मूल कारण इसमें निहित है कि LLMs कैसे काम करते हैं: ट्रेनिंग डेटा से सीखे गए पैटर्न के आधार पर पिछले टोकन के बाद कौन से टोकन आएंगे यह प्रेडिक्ट करना, बिना भौतिक वास्तविकता में किसी grounding के।[^9]

Hallucination समस्या

LLMs विश्वसनीय लगने वाला टेक्स्ट जेनरेट करते हैं जो भौतिक रूप से असंभव परिदृश्यों, ऐतिहासिक रूप से गलत घटनाओं, या तार्किक रूप से असंगत रीज़निंग का वर्णन कर सकता है।[^10] जहां मनुष्य embodied अनुभव के माध्यम से गुरुत्वाकर्षण के बारे में सीखते हैं, LLMs केवल यह सीखते हैं कि "gravity" शब्द कुछ अन्य शब्दों के पास दिखाई देता है।[^11]

सीमा	कारण	परिणाम
तथ्यात्मक hallucination	कोई सत्यापित ज्ञान आधार नहीं[^12]	तथ्यों का आत्मविश्वासपूर्ण निर्माण
भौतिक रीज़निंग विफलता	कोई embodied अनुभव नहीं[^13]	असंभव भौतिकी का वर्णन
कारण संबंध भ्रम	पैटर्न मैचिंग, समझ नहीं[^14]	सह-संबंध को कारण के रूप में माना जाना
टेम्पोरल असंगति	Sequential token prediction[^15]	असंभव क्रम में घटनाएं

Yann LeCun ने वर्षों से सार्वजनिक रूप से तर्क दिया है कि LLMs को स्केल करने से सामान्य बुद्धिमत्ता नहीं आएगी।[^16] "LLMs बहुत सीमित हैं," LeCun ने अपनी NVIDIA GTC प्रस्तुति में कहा। "उन्हें स्केल करने से हमें AGI तक पहुंचने की अनुमति नहीं मिलेगी।"[^17]

वे जो विकल्प प्रस्तावित करते हैं: world models जो भौतिक वास्तविकता के representations सीखते हैं, जो prediction, planning और cause-effect के बारे में reasoning को सक्षम करते हैं।[^18]

Yann LeCun की AMI Labs

LeCun ने दिसंबर 2025 में 12 साल बाद Meta छोड़ दिया, जिनमें से पांच साल Facebook AI Research (FAIR) के संस्थापक निदेशक के रूप में और सात साल chief AI scientist के रूप में थे।[^19] उनका नया उद्यम, Advanced Machine Intelligence (AMI) Labs, world model research को व्यावसायिक बनाने का अब तक का सबसे महत्वाकांक्षी प्रयास है।[^20]

फंडिंग और संरचना

AMI Labs ने किसी भी प्रोडक्ट लॉन्च करने से पहले €3 बिलियन वैल्यूएशन पर €500 मिलियन की मांग करते हुए फंडिंग चर्चाओं में प्रवेश किया।[^21] यह लक्ष्य AI इतिहास में सबसे बड़े प्री-लॉन्च raises में से एक होगा, जो LeCun के विज़न और track record में निवेशकों के विश्वास को दर्शाता है।[^22]

भूमिका	व्यक्ति	पृष्ठभूमि
Executive Chairman	Yann LeCun	Turing Award विजेता, Meta FAIR संस्थापक[^23]
CEO	Alex LeBrun	Nabla (medical AI) के पूर्व CEO[^24]

कंपनी जनवरी 2026 तक पेरिस में मुख्यालय स्थापित करने की योजना बना रही है।[^25] हालांकि Meta सीधे AMI Labs में निवेश नहीं करेगा, कंपनियां एक साझेदारी बनाने की योजना बना रही हैं जो LeCun को शोध कनेक्शन जारी रखने की अनुमति देगी।[^26]

तकनीकी विज़न

AMI Labs का उद्देश्य ऐसी AI सिस्टम्स बनाना है जो केवल टेक्स्ट sequences को प्रेडिक्ट करने के बजाय भौतिकी को समझती हैं, persistent memory बनाए रखती हैं, और जटिल कार्यों की योजना बनाती हैं।[^27] LeCun world model को "दुनिया कैसे व्यवहार करती है इसका आपका मानसिक मॉडल" के रूप में वर्णित करते हैं।[^28]

"आप कल्पना कर सकते हैं कि आप कौन से कार्यों का sequence ले सकते हैं, और आपका world model आपको यह predict करने की अनुमति देगा कि उस sequence का दुनिया पर क्या प्रभाव होगा," LeCun ने समझाया।[^29]

यह दृष्टिकोण LLMs से मौलिक रूप से भिन्न है। जहां GPT-स्टाइल मॉडल अगले शब्द की भविष्यवाणी करते हैं, world models किसी भौतिक वातावरण की अगली अवस्था की भविष्यवाणी करते हैं जो उसमें की गई क्रियाओं को देखते हुए होती है।[^30] यह सक्षम करता है:

Planning: कार्रवाई करने से पहले परिणामों का सिमुलेशन
भौतिकी के बारे में रीज़निंग: यह समझना कि वस्तुओं में द्रव्यमान, गति और स्थानिक संबंध होते हैं
Cause-effect समझ: यह सीखना कि क्रियाएं predictable परिणाम उत्पन्न करती हैं
Persistent memory: समय के साथ consistent world state बनाए रखना

I-JEPA Foundation

AMI Labs Meta में LeCun के I-JEPA (Image Joint Embedding Predictive Architecture) शोध पर आधारित है।[^31] I-JEPA अन्य regions से image regions के representations की prediction करके सीखता है, explicit labels की आवश्यकता के बिना visual scenes की abstract समझ विकसित करता है।[^32]

यह दृष्टिकोण इस बात के समानांतर है कि मनुष्य observation के माध्यम से intuitive physics कैसे विकसित करते हैं। एक बच्चा जो वस्तुओं को गिरते हुए देखता है, बिना किसी के Newton के नियमों को समझाए गुरुत्वाकर्षण का आंतरिक मॉडल विकसित करता है।[^33] I-JEPA और उत्तराधिकारी architectures का उद्देश्य इस learning process को artificial systems में replicate करना है।[^34]

DeepMind का Genie 3

Google DeepMind ने अगस्त 2025 में Genie 3 रिलीज़ किया, जो पहला real-time interactive general-purpose world model है।[^35] पिछले systems के विपरीत जो static environments जेनरेट करते थे या significant processing time की आवश्यकता होती थी, Genie 3 24 frames प्रति सेकंड पर navigable 3D worlds produce करता है।[^36]

तकनीकी क्षमताएं

Genie 3 text prompts से dynamic environments जेनरेट करता है, कई मिनटों के real-time interaction के लिए visual consistency बनाए रखता है।[^37] सिस्टम hard-coded physics engines पर निर्भर नहीं है; इसके बजाय, मॉडल training के माध्यम से खुद सीखता है कि दुनिया कैसे काम करती है।[^38]

क्षमता	विशिष्टता
Frame rate	24 fps real-time[^39]
Resolution	720p[^40]
Consistency duration	कई मिनट[^41]
Memory horizon	1 मिनट तक का lookback[^42]
Physics	Self-learned, hard-coded नहीं[^43]

"Genie 3 पहला real-time interactive general-purpose world model है," DeepMind में research director Shlomi Fruchter ने कहा। "यह narrow world models से परे जाता है जो पहले मौजूद थे। यह किसी विशेष environment के लिए specific नहीं है।"[^44]

Auto-Regressive Architecture

मॉडल एक समय में एक frame जेनरेट करता है, यह निर्धारित करने के लिए पहले से जेनरेट की गई content को देखता है कि आगे क्या होता है।[^45] Real-time performance हासिल करने के लिए इस auto-regressive process को प्रति सेकंड कई बार compute करना आवश्यक है जबकि संभावित रूप से minute-old visual memory के साथ consistency बनाए रखना होता है।[^46]

Physical consistency explicit programming के बजाय training से उभरती है।[^47] Genie 3 environments stable physics बनाए रखते हैं क्योंकि मॉडल ने training data से physical regularities सीखीं, इसलिए नहीं कि researchers ने manually gravity या collision detection encode किया।[^48]

AGI Implications

DeepMind Genie 3 को artificial general intelligence की ओर एक stepping stone के रूप में position करता है।[^49] Lab को उम्मीद है कि world model technology एक critical role निभाएगी जैसे-जैसे AI agents physical environments के साथ अधिक interact करते हैं।[^50]

"Genie 3 AI agents को manual content creation के बिना richly simulated worlds को 'experience,' interact with, और उनसे learn करने में सक्षम करके Artificial General Intelligence की ओर एक major leap को चिह्नित करता है," DeepMind की घोषणा के अनुसार।[^51]

वर्तमान सीमाएं

Genie 3 public release के बजाय limited research preview में बना हुआ है।[^52] ज्ञात constraints में शामिल हैं:

Agent interactions के लिए limited action space
कई मिनटों के बाद consistency breakdown
Incomplete real-world geographic accuracy
Complex multi-agent interactions को model करने में challenges

DeepMind selected academics और creators को testing access का विस्तार जारी रखे हुए है।[^53]

Fei-Fei Li की World Labs और Marble

AI pioneer Fei-Fei Li द्वारा स्थापित World Labs ने नवंबर 2025 में Marble को पहले commercially available world model product के रूप में लॉन्च किया।[^54] स्टार्टअप Marble लॉन्च से सिर्फ एक साल पहले $230 मिलियन की funding के साथ stealth से बाहर आई।[^55]

Product Architecture

Marble text prompts, photos, videos, 3D layouts, या panoramic images से persistent, downloadable 3D environments जेनरेट करता है।[^56] Competitors के विपरीत जो exploration के दौरान on-the-fly worlds जेनरेट करते हैं, Marble discrete environments produce करता है जिन्हें users edit और export कर सकते हैं।[^57]

Input Type	Output
Text prompt	3D environment
Photo	3D environment
Video	3D environment
3D layout	AI-enhanced 3D environment
Panorama	3D environment

Platform AI-native editing tools और एक hybrid 3D editor प्रदान करता है जो AI द्वारा visual details भरने से पहले spatial structure blocking को सक्षम करता है।[^58] Files industry-standard tools जैसे Unreal Engine और Unity के साथ compatible formats में export होते हैं।[^59]

Pricing Model

World Labs ने creative professionals को target करते हुए freemium structure अपनाया:[^60]

Tier	Price	Generations	Features
Free	$0	4/माह	Basic generation
Standard	$20/माह	12/माह	Standard features
Pro	$35/माह	25/माह	Commercial rights
Max	$95/माह	75/माह	Premium features

Target Applications

Initial use cases gaming, film के लिए visual effects, और virtual reality पर focus करते हैं।[^61] Marble Vision Pro और Quest 3 VR headsets को support करता है, हर generated world VR में viewable है।[^62]

Fei-Fei Li Marble को "truly spatially intelligent world model बनाने की दिशा में पहला कदम" के रूप में position करती हैं।[^63] Creative applications के अलावा, technology simulated environments के माध्यम से robotics training को सक्षम करती है जो physical reality में बनाना महंगा या खतरनाक होगा।[^64]

NVIDIA Cosmos: Industrial-Scale World Models

NVIDIA ने CES 2025 में Cosmos को physical AI development के लिए एक platform के रूप में लॉन्च किया, विशेष रूप से autonomous vehicles और robotics को target करते हुए।[^65] जनवरी 2026 तक, Cosmos world foundation models को 2 मिलियन से अधिक बार download किया गया था।[^66]

Platform Architecture

Cosmos में generative world foundation models, advanced tokenizers, guardrails, और एक accelerated video processing pipeline शामिल है।[^67] Models future environment states के physics-aware videos predict और generate करते हैं, massive scale पर synthetic training data generation को सक्षम करते हुए।[^68]

Model Tier	Optimization	Use Case
Nano	Real-time, edge deployment[^69]	On-device inference
Super	High performance baseline[^70]	General development
Ultra	Maximum quality and fidelity[^71]	Custom model distillation

Platform ने human interactions, environments, industrial settings, robotics, और driving scenarios spanning 20 मिलियन घंटों के real-world data से 9,000 trillion tokens पर train किया।[^72]

Industry Adoption

Leading robotics और automotive companies ने synthetic data generation के लिए Cosmos को adopt किया:[^73]

Company	Domain
1X	Humanoid robots
Agility	Bipedal robots
Figure AI	Humanoid robots
Waabi	Autonomous trucking
XPENG	Electric vehicles
Uber	Ridesharing autonomous

Cosmos Model Types

तीन model types different physical AI development needs को address करते हैं:[^74]

Cosmos-Predict: Video form में future world states को simulate और predict करता है **Co

[अनुवाद के लिए सामग्री छोटी की गई]

वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

संक्षेप में (TL;DR)

LLM की सीमा

Hallucination समस्या

Yann LeCun की AMI Labs

फंडिंग और संरचना

तकनीकी विज़न

I-JEPA Foundation

DeepMind का Genie 3

तकनीकी क्षमताएं

Auto-Regressive Architecture

AGI Implications

वर्तमान सीमाएं

Fei-Fei Li की World Labs और Marble

Product Architecture

Pricing Model

Target Applications

NVIDIA Cosmos: Industrial-Scale World Models

Platform Architecture

Industry Adoption

Cosmos Model Types

You Might Also Like

डेटा सेंटरों के लिए AIOps: AI इन्फ्रास्ट्रक्चर प्रबंधन के लि...

AI इन्फरेंस के लिए लोड बैलेंसिंग: 1000+ GPUs में रिक्वेस्ट्स...

AI के लिए डिसएग्रीगेटेड कंप्यूटिंग: कंपोज़ेबल इंफ्रास्ट्रक्च...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_