वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

Yann LeCun ने AMI Labs के लिए €500M जुटाए जबकि DeepMind का Genie 3 रियल-टाइम 3D दुनिया का सिमुलेशन करता है। भौतिकी को समझने वाली AI बनाने की 2026 की दौड़ LLMs को पीछे छोड़ सकती है।

वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

वर्ल्ड मॉडल्स रेस 2026: कैसे LeCun, DeepMind और World Labs AGI की दिशा को नया रूप दे रहे हैं

एक ऐसी स्टार्टअप के लिए तीन बिलियन डॉलर का प्री-लॉन्च वैल्यूएशन जिसने अभी तक एक भी प्रोडक्ट लॉन्च नहीं किया है।[^1] Yann LeCun की AMI Labs उस थीसिस पर अब तक का सबसे बड़ा दांव है जिसने वर्षों से AI शोधकर्ताओं को विभाजित किया है: large language models कभी भी सामान्य बुद्धिमत्ता (general intelligence) हासिल नहीं कर पाएंगे, और आगे का रास्ता world models से होकर जाता है।

संक्षेप में (TL;DR)

World models पैराडाइम 2025 के अंत और 2026 की शुरुआत में मुख्यधारा AI विकास में विस्फोटक रूप से उभरा। Yann LeCun ने 12 साल बाद Meta छोड़कर AMI Labs लॉन्च की, जिसने €3B वैल्यूएशन पर €500M जुटाए - ऐसी AI सिस्टम्स बनाने के लिए जो केवल टेक्स्ट प्रेडिक्ट करने की बजाय भौतिकी को समझती हैं।[^2] Google DeepMind ने Genie 3 रिलीज़ किया, पहला रियल-टाइम इंटरैक्टिव world model जो 24 fps पर persistent 3D वातावरण जेनरेट कर सकता है।[^3] Fei-Fei Li की World Labs ने Marble लॉन्च किया, जिससे world model जनरेशन $95/माह तक की मुफ्त से शुरू होने वाली प्राइसिंग के साथ व्यावसायिक रूप से उपलब्ध हो गई।[^4] NVIDIA के Cosmos प्लेटफॉर्म को 2 मिलियन डाउनलोड्स मिले क्योंकि रोबोटिक्स और ऑटोनॉमस वाहन डेवलपर्स ने सिंथेटिक physics-aware ट्रेनिंग डेटा को अपनाया।[^5] AI इंफ्रास्ट्रक्चर बनाने वाले संगठनों के लिए, world models टेक्स्ट प्रोसेसिंग से वीडियो जनरेशन, फिजिक्स सिमुलेशन और embodied reasoning की ओर एक कम्प्यूटेशनल शिफ्ट का संकेत देते हैं।

LLM की सीमा

Large language models ने स्केल के माध्यम से उल्लेखनीय क्षमताएं हासिल कीं। GPT-4, Claude और Gemini परिष्कृत रीज़निंग, कोड जनरेशन और मल्टी-स्टेप समस्या समाधान प्रदर्शित करते हैं।[^6] फिर भी एक मूलभूत सीमा बनी हुई है: ये मॉडल टेक्स्ट से सांख्यिकीय पैटर्न सीखते हैं, भौतिक वास्तविकता की समझ नहीं।[^7]

2024 में प्रकाशित शोध ने गणितीय रूप से साबित किया कि LLMs सभी computable functions नहीं सीख सकते और इसलिए सामान्य समस्या समाधानकर्ता के रूप में उपयोग किए जाने पर अनिवार्य रूप से hallucinate करेंगे।[^8] मूल कारण इसमें निहित है कि LLMs कैसे काम करते हैं: ट्रेनिंग डेटा से सीखे गए पैटर्न के आधार पर पिछले टोकन के बाद कौन से टोकन आएंगे यह प्रेडिक्ट करना, बिना भौतिक वास्तविकता में किसी grounding के।[^9]

Hallucination समस्या

LLMs विश्वसनीय लगने वाला टेक्स्ट जेनरेट करते हैं जो भौतिक रूप से असंभव परिदृश्यों, ऐतिहासिक रूप से गलत घटनाओं, या तार्किक रूप से असंगत रीज़निंग का वर्णन कर सकता है।[^10] जहां मनुष्य embodied अनुभव के माध्यम से गुरुत्वाकर्षण के बारे में सीखते हैं, LLMs केवल यह सीखते हैं कि "gravity" शब्द कुछ अन्य शब्दों के पास दिखाई देता है।[^11]

सीमा कारण परिणाम
तथ्यात्मक hallucination कोई सत्यापित ज्ञान आधार नहीं[^12] तथ्यों का आत्मविश्वासपूर्ण निर्माण
भौतिक रीज़निंग विफलता कोई embodied अनुभव नहीं[^13] असंभव भौतिकी का वर्णन
कारण संबंध भ्रम पैटर्न मैचिंग, समझ नहीं[^14] सह-संबंध को कारण के रूप में माना जाना
टेम्पोरल असंगति Sequential token prediction[^15] असंभव क्रम में घटनाएं

Yann LeCun ने वर्षों से सार्वजनिक रूप से तर्क दिया है कि LLMs को स्केल करने से सामान्य बुद्धिमत्ता नहीं आएगी।[^16] "LLMs बहुत सीमित हैं," LeCun ने अपनी NVIDIA GTC प्रस्तुति में कहा। "उन्हें स्केल करने से हमें AGI तक पहुंचने की अनुमति नहीं मिलेगी।"[^17]

वे जो विकल्प प्रस्तावित करते हैं: world models जो भौतिक वास्तविकता के representations सीखते हैं, जो prediction, planning और cause-effect के बारे में reasoning को सक्षम करते हैं।[^18]

Yann LeCun की AMI Labs

LeCun ने दिसंबर 2025 में 12 साल बाद Meta छोड़ दिया, जिनमें से पांच साल Facebook AI Research (FAIR) के संस्थापक निदेशक के रूप में और सात साल chief AI scientist के रूप में थे।[^19] उनका नया उद्यम, Advanced Machine Intelligence (AMI) Labs, world model research को व्यावसायिक बनाने का अब तक का सबसे महत्वाकांक्षी प्रयास है।[^20]

फंडिंग और संरचना

AMI Labs ने किसी भी प्रोडक्ट लॉन्च करने से पहले €3 बिलियन वैल्यूएशन पर €500 मिलियन की मांग करते हुए फंडिंग चर्चाओं में प्रवेश किया।[^21] यह लक्ष्य AI इतिहास में सबसे बड़े प्री-लॉन्च raises में से एक होगा, जो LeCun के विज़न और track record में निवेशकों के विश्वास को दर्शाता है।[^22]

भूमिका व्यक्ति पृष्ठभूमि
Executive Chairman Yann LeCun Turing Award विजेता, Meta FAIR संस्थापक[^23]
CEO Alex LeBrun Nabla (medical AI) के पूर्व CEO[^24]

कंपनी जनवरी 2026 तक पेरिस में मुख्यालय स्थापित करने की योजना बना रही है।[^25] हालांकि Meta सीधे AMI Labs में निवेश नहीं करेगा, कंपनियां एक साझेदारी बनाने की योजना बना रही हैं जो LeCun को शोध कनेक्शन जारी रखने की अनुमति देगी।[^26]

तकनीकी विज़न

AMI Labs का उद्देश्य ऐसी AI सिस्टम्स बनाना है जो केवल टेक्स्ट sequences को प्रेडिक्ट करने के बजाय भौतिकी को समझती हैं, persistent memory बनाए रखती हैं, और जटिल कार्यों की योजना बनाती हैं।[^27] LeCun world model को "दुनिया कैसे व्यवहार करती है इसका आपका मानसिक मॉडल" के रूप में वर्णित करते हैं।[^28]

"आप कल्पना कर सकते हैं कि आप कौन से कार्यों का sequence ले सकते हैं, और आपका world model आपको यह predict करने की अनुमति देगा कि उस sequence का दुनिया पर क्या प्रभाव होगा," LeCun ने समझाया।[^29]

यह दृष्टिकोण LLMs से मौलिक रूप से भिन्न है। जहां GPT-स्टाइल मॉडल अगले शब्द की भविष्यवाणी करते हैं, world models किसी भौतिक वातावरण की अगली अवस्था की भविष्यवाणी करते हैं जो उसमें की गई क्रियाओं को देखते हुए होती है।[^30] यह सक्षम करता है:

  • Planning: कार्रवाई करने से पहले परिणामों का सिमुलेशन
  • भौतिकी के बारे में रीज़निंग: यह समझना कि वस्तुओं में द्रव्यमान, गति और स्थानिक संबंध होते हैं
  • Cause-effect समझ: यह सीखना कि क्रियाएं predictable परिणाम उत्पन्न करती हैं
  • Persistent memory: समय के साथ consistent world state बनाए रखना

I-JEPA Foundation

AMI Labs Meta में LeCun के I-JEPA (Image Joint Embedding Predictive Architecture) शोध पर आधारित है।[^31] I-JEPA अन्य regions से image regions के representations की prediction करके सीखता है, explicit labels की आवश्यकता के बिना visual scenes की abstract समझ विकसित करता है।[^32]

यह दृष्टिकोण इस बात के समानांतर है कि मनुष्य observation के माध्यम से intuitive physics कैसे विकसित करते हैं। एक बच्चा जो वस्तुओं को गिरते हुए देखता है, बिना किसी के Newton के नियमों को समझाए गुरुत्वाकर्षण का आंतरिक मॉडल विकसित करता है।[^33] I-JEPA और उत्तराधिकारी architectures का उद्देश्य इस learning process को artificial systems में replicate करना है।[^34]

DeepMind का Genie 3

Google DeepMind ने अगस्त 2025 में Genie 3 रिलीज़ किया, जो पहला real-time interactive general-purpose world model है।[^35] पिछले systems के विपरीत जो static environments जेनरेट करते थे या significant processing time की आवश्यकता होती थी, Genie 3 24 frames प्रति सेकंड पर navigable 3D worlds produce करता है।[^36]

तकनीकी क्षमताएं

Genie 3 text prompts से dynamic environments जेनरेट करता है, कई मिनटों के real-time interaction के लिए visual consistency बनाए रखता है।[^37] सिस्टम hard-coded physics engines पर निर्भर नहीं है; इसके बजाय, मॉडल training के माध्यम से खुद सीखता है कि दुनिया कैसे काम करती है।[^38]

क्षमता विशिष्टता
Frame rate 24 fps real-time[^39]
Resolution 720p[^40]
Consistency duration कई मिनट[^41]
Memory horizon 1 मिनट तक का lookback[^42]
Physics Self-learned, hard-coded नहीं[^43]

"Genie 3 पहला real-time interactive general-purpose world model है," DeepMind में research director Shlomi Fruchter ने कहा। "यह narrow world models से परे जाता है जो पहले मौजूद थे। यह किसी विशेष environment के लिए specific नहीं है।"[^44]

Auto-Regressive Architecture

मॉडल एक समय में एक frame जेनरेट करता है, यह निर्धारित करने के लिए पहले से जेनरेट की गई content को देखता है कि आगे क्या होता है।[^45] Real-time performance हासिल करने के लिए इस auto-regressive process को प्रति सेकंड कई बार compute करना आवश्यक है जबकि संभावित रूप से minute-old visual memory के साथ consistency बनाए रखना होता है।[^46]

Physical consistency explicit programming के बजाय training से उभरती है।[^47] Genie 3 environments stable physics बनाए रखते हैं क्योंकि मॉडल ने training data से physical regularities सीखीं, इसलिए नहीं कि researchers ने manually gravity या collision detection encode किया।[^48]

AGI Implications

DeepMind Genie 3 को artificial general intelligence की ओर एक stepping stone के रूप में position करता है।[^49] Lab को उम्मीद है कि world model technology एक critical role निभाएगी जैसे-जैसे AI agents physical environments के साथ अधिक interact करते हैं।[^50]

"Genie 3 AI agents को manual content creation के बिना richly simulated worlds को 'experience,' interact with, और उनसे learn करने में सक्षम करके Artificial General Intelligence की ओर एक major leap को चिह्नित करता है," DeepMind की घोषणा के अनुसार।[^51]

वर्तमान सीमाएं

Genie 3 public release के बजाय limited research preview में बना हुआ है।[^52] ज्ञात constraints में शामिल हैं:

  • Agent interactions के लिए limited action space
  • कई मिनटों के बाद consistency breakdown
  • Incomplete real-world geographic accuracy
  • Complex multi-agent interactions को model करने में challenges

DeepMind selected academics और creators को testing access का विस्तार जारी रखे हुए है।[^53]

Fei-Fei Li की World Labs और Marble

AI pioneer Fei-Fei Li द्वारा स्थापित World Labs ने नवंबर 2025 में Marble को पहले commercially available world model product के रूप में लॉन्च किया।[^54] स्टार्टअप Marble लॉन्च से सिर्फ एक साल पहले $230 मिलियन की funding के साथ stealth से बाहर आई।[^55]

Product Architecture

Marble text prompts, photos, videos, 3D layouts, या panoramic images से persistent, downloadable 3D environments जेनरेट करता है।[^56] Competitors के विपरीत जो exploration के दौरान on-the-fly worlds जेनरेट करते हैं, Marble discrete environments produce करता है जिन्हें users edit और export कर सकते हैं।[^57]

Input Type Output
Text prompt 3D environment
Photo 3D environment
Video 3D environment
3D layout AI-enhanced 3D environment
Panorama 3D environment

Platform AI-native editing tools और एक hybrid 3D editor प्रदान करता है जो AI द्वारा visual details भरने से पहले spatial structure blocking को सक्षम करता है।[^58] Files industry-standard tools जैसे Unreal Engine और Unity के साथ compatible formats में export होते हैं।[^59]

Pricing Model

World Labs ने creative professionals को target करते हुए freemium structure अपनाया:[^60]

Tier Price Generations Features
Free $0 4/माह Basic generation
Standard $20/माह 12/माह Standard features
Pro $35/माह 25/माह Commercial rights
Max $95/माह 75/माह Premium features

Target Applications

Initial use cases gaming, film के लिए visual effects, और virtual reality पर focus करते हैं।[^61] Marble Vision Pro और Quest 3 VR headsets को support करता है, हर generated world VR में viewable है।[^62]

Fei-Fei Li Marble को "truly spatially intelligent world model बनाने की दिशा में पहला कदम" के रूप में position करती हैं।[^63] Creative applications के अलावा, technology simulated environments के माध्यम से robotics training को सक्षम करती है जो physical reality में बनाना महंगा या खतरनाक होगा।[^64]

NVIDIA Cosmos: Industrial-Scale World Models

NVIDIA ने CES 2025 में Cosmos को physical AI development के लिए एक platform के रूप में लॉन्च किया, विशेष रूप से autonomous vehicles और robotics को target करते हुए।[^65] जनवरी 2026 तक, Cosmos world foundation models को 2 मिलियन से अधिक बार download किया गया था।[^66]

Platform Architecture

Cosmos में generative world foundation models, advanced tokenizers, guardrails, और एक accelerated video processing pipeline शामिल है।[^67] Models future environment states के physics-aware videos predict और generate करते हैं, massive scale पर synthetic training data generation को सक्षम करते हुए।[^68]

Model Tier Optimization Use Case
Nano Real-time, edge deployment[^69] On-device inference
Super High performance baseline[^70] General development
Ultra Maximum quality and fidelity[^71] Custom model distillation

Platform ने human interactions, environments, industrial settings, robotics, और driving scenarios spanning 20 मिलियन घंटों के real-world data से 9,000 trillion tokens पर train किया।[^72]

Industry Adoption

Leading robotics और automotive companies ने synthetic data generation के लिए Cosmos को adopt किया:[^73]

Company Domain
1X Humanoid robots
Agility Bipedal robots
Figure AI Humanoid robots
Waabi Autonomous trucking
XPENG Electric vehicles
Uber Ridesharing autonomous

Cosmos Model Types

तीन model types different physical AI development needs को address करते हैं:[^74]

Cosmos-Predict: Video form में future world states को simulate और predict करता है **Co

[अनुवाद के लिए सामग्री छोटी की गई]

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING