Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren
Drei Milliarden Dollar Bewertung vor dem Launch für ein Startup, das noch kein einziges Produkt veröffentlicht hat.[^1] Yann LeCuns AMI Labs repräsentiert die bisher größte Wette auf eine These, die KI-Forscher seit Jahren spaltet: Große Sprachmodelle werden niemals allgemeine Intelligenz erreichen, und der Weg nach vorn führt stattdessen über Weltmodelle.
Zusammenfassung
Das Weltmodell-Paradigma erlebte Ende 2025 und Anfang 2026 einen explosionsartigen Durchbruch in der Mainstream-KI-Entwicklung. Yann LeCun verließ Meta nach 12 Jahren, um AMI Labs zu gründen, und sammelte 500 Mio. € bei einer Bewertung von 3 Mrd. € ein, um KI-Systeme zu entwickeln, die Physik verstehen, anstatt nur Text vorherzusagen.[^2] Google DeepMind veröffentlichte Genie 3, das erste interaktive Echtzeit-Weltmodell, das in der Lage ist, persistente 3D-Umgebungen mit 24 fps zu generieren.[^3] Fei-Fei Lis World Labs brachte Marble auf den Markt und machte die Weltmodell-Generierung kommerziell verfügbar – mit Preisen von kostenlos bis 95 $/Monat.[^4] NVIDIAs Cosmos-Plattform verzeichnete 2 Millionen Downloads, da Entwickler in der Robotik und bei autonomen Fahrzeugen synthetische physikbewusste Trainingsdaten nutzen.[^5] Für Organisationen, die KI-Infrastruktur aufbauen, signalisieren Weltmodelle einen rechnerischen Wandel von der Textverarbeitung hin zu Videogenerierung, Physiksimulation und verkörpertem Denken.
Die Grenzen der LLMs
Große Sprachmodelle erreichten bemerkenswerte Fähigkeiten durch Skalierung. GPT-4, Claude und Gemini demonstrieren ausgefeiltes Reasoning, Code-Generierung und mehrstufiges Problemlösen.[^6] Doch eine fundamentale Einschränkung bleibt bestehen: Diese Modelle lernen statistische Muster aus Text, kein Verständnis der physischen Realität.[^7]
Eine 2024 veröffentlichte Forschungsarbeit bewies mathematisch, dass LLMs nicht alle berechenbaren Funktionen erlernen können und daher zwangsläufig halluzinieren werden, wenn sie als allgemeine Problemlöser eingesetzt werden.[^8] Die Ursache liegt in der Funktionsweise von LLMs: Sie sagen vorher, welche Tokens auf vorherige Tokens folgen, basierend auf Mustern aus den Trainingsdaten, ohne jegliche Verankerung in der physischen Realität.[^9]
Das Halluzinationsproblem
LLMs generieren plausibel klingenden Text, der physikalisch unmögliche Szenarien, historisch ungenaue Ereignisse oder logisch inkonsistente Schlussfolgerungen beschreiben kann.[^10] Anders als Menschen, die durch verkörperte Erfahrung von der Schwerkraft lernen, lernen LLMs nur, dass das Wort „Schwerkraft" dazu neigt, in der Nähe bestimmter anderer Wörter aufzutauchen.[^11]
| Einschränkung | Ursache | Konsequenz |
|---|---|---|
| Faktische Halluzination | Keine verifizierte Wissensbasis[^12] | Selbstbewusstes Erfinden von Fakten |
| Versagen beim physikalischen Denken | Keine verkörperte Erfahrung[^13] | Beschreibt unmögliche Physik |
| Kausale Verwirrung | Mustererkennung, kein Verständnis[^14] | Korrelation wird als Kausalität behandelt |
| Zeitliche Inkohärenz | Sequentielle Token-Vorhersage[^15] | Ereignisse in unmöglicher Reihenfolge |
Yann LeCun argumentiert seit Jahren öffentlich, dass die Skalierung von LLMs keine allgemeine Intelligenz hervorbringen wird.[^16] „LLMs sind zu einschränkend", erklärte LeCun in seiner NVIDIA GTC-Präsentation. „Sie hochzuskalieren wird uns nicht ermöglichen, AGI zu erreichen."[^17]
Die Alternative, die er vorschlägt: Weltmodelle, die Repräsentationen der physischen Realität lernen und dadurch Vorhersage, Planung und Reasoning über Ursache und Wirkung ermöglichen.[^18]
Yann LeCuns AMI Labs
LeCun verließ Meta im Dezember 2025 nach 12 Jahren, davon fünf als Gründungsdirektor von Facebook AI Research (FAIR) und sieben als Chief AI Scientist.[^19] Sein neues Unternehmen, Advanced Machine Intelligence (AMI) Labs, repräsentiert den bisher ambitioniertesten Versuch, Weltmodell-Forschung zu kommerzialisieren.[^20]
Finanzierung und Struktur
AMI Labs startete Finanzierungsgespräche mit dem Ziel, 500 Millionen Euro bei einer Bewertung von 3 Milliarden Euro einzusammeln – bevor überhaupt ein Produkt gelauncht wurde.[^21] Die angestrebte Summe würde eine der größten Pre-Launch-Finanzierungsrunden in der KI-Geschichte darstellen und spiegelt das Vertrauen der Investoren in LeCuns Vision und Erfolgsbilanz wider.[^22]
| Rolle | Person | Hintergrund |
|---|---|---|
| Executive Chairman | Yann LeCun | Turing-Award-Gewinner, Meta FAIR-Gründer[^23] |
| CEO | Alex LeBrun | Ehemaliger CEO von Nabla (medizinische KI)[^24] |
Das Unternehmen plant, bis Januar 2026 seinen Hauptsitz in Paris zu etablieren.[^25] Während Meta nicht direkt in AMI Labs investieren wird, planen die Unternehmen eine Partnerschaft, die es LeCun ermöglicht, Forschungsverbindungen aufrechtzuerhalten.[^26]
Technische Vision
AMI Labs zielt darauf ab, KI-Systeme zu entwickeln, die Physik verstehen, persistenten Speicher aufrechterhalten und komplexe Handlungen planen – anstatt einfach nur Textsequenzen vorherzusagen.[^27] LeCun beschreibt ein Weltmodell als „Ihr mentales Modell davon, wie sich die Welt verhält."[^28]
„Sie können sich eine Sequenz von Handlungen vorstellen, die Sie durchführen könnten, und Ihr Weltmodell wird es Ihnen ermöglichen vorherzusagen, welche Auswirkung die Sequenz von Handlungen auf die Welt haben wird", erklärte LeCun.[^29]
Der Ansatz unterscheidet sich fundamental von LLMs. Während GPT-artige Modelle das nächste Wort vorhersagen, sagen Weltmodelle den nächsten Zustand einer physischen Umgebung vorher, basierend auf den darin durchgeführten Aktionen.[^30] Dies ermöglicht:
- Planung: Simulation von Ergebnissen vor der Handlung
- Physikalisches Reasoning: Verständnis, dass Objekte Masse, Impuls und räumliche Beziehungen haben
- Ursache-Wirkungs-Verständnis: Lernen, dass Handlungen vorhersagbare Konsequenzen haben
- Persistenter Speicher: Aufrechterhaltung eines konsistenten Weltzustands über die Zeit
I-JEPA-Grundlage
AMI Labs baut auf LeCuns I-JEPA (Image Joint Embedding Predictive Architecture) Forschung bei Meta auf.[^31] I-JEPA lernt, indem es Repräsentationen von Bildbereichen aus anderen Bereichen vorhersagt und dabei abstraktes Verständnis visueller Szenen entwickelt, ohne explizite Labels zu benötigen.[^32]
Der Ansatz ähnelt dem, wie Menschen durch Beobachtung intuitive Physik entwickeln. Ein Kind, das fallende Objekte beobachtet, entwickelt ein internes Modell der Schwerkraft, ohne dass jemand Newtons Gesetze erklärt.[^33] I-JEPA und Nachfolgearchitekturen zielen darauf ab, diesen Lernprozess in künstlichen Systemen zu replizieren.[^34]
DeepMinds Genie 3
Google DeepMind veröffentlichte Genie 3 im August 2025, das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke.[^35] Anders als frühere Systeme, die statische Umgebungen generierten oder erhebliche Verarbeitungszeit benötigten, erzeugt Genie 3 navigierbare 3D-Welten mit 24 Bildern pro Sekunde.[^36]
Technische Fähigkeiten
Genie 3 generiert dynamische Umgebungen aus Text-Prompts und erhält dabei die visuelle Konsistenz für mehrere Minuten Echtzeit-Interaktion aufrecht.[^37] Das System basiert nicht auf fest codierten Physik-Engines; stattdessen bringt sich das Modell durch Training selbst bei, wie die Welt funktioniert.[^38]
| Fähigkeit | Spezifikation |
|---|---|
| Bildrate | 24 fps in Echtzeit[^39] |
| Auflösung | 720p[^40] |
| Konsistenzdauer | Mehrere Minuten[^41] |
| Speicherhorizont | Bis zu 1 Minute Rückblick[^42] |
| Physik | Selbst erlernt, nicht fest codiert[^43] |
„Genie 3 ist das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke", erklärte Shlomi Fruchter, Research Director bei DeepMind. „Es geht über enge Weltmodelle hinaus, die zuvor existierten. Es ist nicht auf eine bestimmte Umgebung beschränkt."[^44]
Auto-regressive Architektur
Das Modell generiert ein Bild nach dem anderen und blickt dabei auf zuvor generierten Inhalt zurück, um zu bestimmen, was als Nächstes passiert.[^45] Das Erreichen von Echtzeit-Performance erfordert die Berechnung dieses auto-regressiven Prozesses mehrmals pro Sekunde, während die Konsistenz mit potenziell minutenaltem visuellem Gedächtnis aufrechterhalten wird.[^46]
Physische Konsistenz entsteht durch Training, nicht durch explizite Programmierung.[^47] Genie 3-Umgebungen erhalten stabile Physik aufrecht, weil das Modell physikalische Regelmäßigkeiten aus den Trainingsdaten gelernt hat, nicht weil Forscher Schwerkraft oder Kollisionserkennung manuell codiert haben.[^48]
AGI-Implikationen
DeepMind positioniert Genie 3 als Sprungbrett zur künstlichen allgemeinen Intelligenz.[^49] Das Labor erwartet, dass Weltmodell-Technologie eine entscheidende Rolle spielen wird, wenn KI-Agenten mehr mit physischen Umgebungen interagieren.[^50]
„Genie 3 markiert einen großen Sprung in Richtung Künstlicher Allgemeiner Intelligenz, indem es KI-Agenten ermöglicht, reichhaltig simulierte Welten zu ‚erleben', mit ihnen zu interagieren und von ihnen zu lernen – ohne manuelle Content-Erstellung", so DeepMinds Ankündigung.[^51]
Aktuelle Einschränkungen
Genie 3 bleibt in einer limitierten Research-Preview, statt öffentlich verfügbar zu sein.[^52] Bekannte Einschränkungen umfassen:
- Begrenzter Aktionsraum für Agenten-Interaktionen
- Konsistenz-Zusammenbruch nach mehreren Minuten
- Unvollständige Genauigkeit realer Geografie
- Herausforderungen bei der Modellierung komplexer Multi-Agenten-Interaktionen
DeepMind erweitert weiterhin den Testzugang für ausgewählte Wissenschaftler und Creator.[^53]
Fei-Fei Lis World Labs und Marble
World Labs, gegründet von KI-Pionierin Fei-Fei Li, brachte Marble im November 2025 als erstes kommerziell verfügbares Weltmodell-Produkt auf den Markt.[^54] Das Startup kam gut ein Jahr vor dem Marble-Launch mit 230 Millionen Dollar Finanzierung aus dem Stealth-Modus.[^55]
Produktarchitektur
Marble generiert persistente, herunterladbare 3D-Umgebungen aus Text-Prompts, Fotos, Videos, 3D-Layouts oder Panoramabildern.[^56] Anders als Wettbewerber, die Welten während der Exploration on-the-fly generieren, produziert Marble diskrete Umgebungen, die Nutzer bearbeiten und exportieren können.[^57]
| Eingabetyp | Ausgabe |
|---|---|
| Text-Prompt | 3D-Umgebung |
| Foto | 3D-Umgebung |
| Video | 3D-Umgebung |
| 3D-Layout | KI-erweiterte 3D-Umgebung |
| Panorama | 3D-Umgebung |
Die Plattform bietet KI-native Bearbeitungswerkzeuge und einen hybriden 3D-Editor, der das Blockieren räumlicher Strukturen ermöglicht, bevor die KI visuelle Details ausfüllt.[^58] Dateien werden in Formaten exportiert, die mit Industriestandard-Tools wie Unreal Engine und Unity kompatibel sind.[^59]
Preismodell
World Labs hat ein Freemium-Modell für kreative Profis eingeführt:[^60]
| Stufe | Preis | Generierungen | Features |
|---|---|---|---|
| Free | 0 $ | 4/Monat | Basis-Generierung |
| Standard | 20 $/Monat | 12/Monat | Standard-Features |
| Pro | 35 $/Monat | 25/Monat | Kommerzielle Rechte |
| Max | 95 $/Monat | 75/Monat | Premium-Features |
Ziel-Anwendungen
Erste Anwendungsfälle konzentrieren sich auf Gaming, visuelle Effekte für Film und Virtual Reality.[^61] Marble unterstützt Vision Pro und Quest 3 VR-Headsets, wobei jede generierte Welt in VR betrachtet werden kann.[^62]
Fei-Fei Li positioniert Marble als „den ersten Schritt zur Schaffung eines wirklich räumlich intelligenten Weltmodells."[^63] Über kreative Anwendungen hinaus ermöglicht die Technologie Robotik-Training durch simulierte Umgebungen, deren Erstellung in der physischen Realität teuer oder gefährlich wäre.[^64]
NVIDIA Cosmos: Weltmodelle im industriellen Maßstab
NVIDIA launchte Cosmos auf der CES 2025 als Plattform für physische KI-Entwicklung, speziell für autonome Fahrzeuge und Robotik.[^65] Bis Januar 2026 wurden die Cosmos World Foundation Models über 2 Millionen Mal heruntergeladen.[^66]
Plattform-Architektur
Cosmos umfasst generative World Foundation Models, fortschrittliche Tokenizer, Guardrails und eine beschleunigte Video-Verarbeitungs-Pipeline.[^67] Die Modelle sagen physikbewusste Videos zukünftiger Umgebungszustände vorher und generieren sie, was die Erzeugung synthetischer Trainingsdaten in massivem Maßstab ermöglicht.[^68]
| Modell-Stufe | Optimierung | Anwendungsfall |
|---|---|---|
| Nano | Echtzeit, Edge-Deployment[^69] | On-Device-Inferenz |
| Super | Hochleistungs-Baseline[^70] | Allgemeine Entwicklung |
| Ultra | Maximale Qualität und Wiedergabetreue[^71] | Custom Model Distillation |
Die Plattform wurde mit 9.000 Billionen Tokens aus 20 Millionen Stunden realer Daten trainiert, die menschliche Interaktionen, Umgebungen, industrielle Umfelder, Robotik und Fahrsituationen abdecken.[^72]
Branchen-Adoption
Führende Robotik- und Automobilunternehmen haben Cosmos für die Generierung synthetischer Daten übernommen:[^73]
| Unternehmen | Bereich |
|---|---|
| 1X | Humanoide Roboter |
| Agility | Zweibeinige Roboter |
| Figure AI | Humanoide Roboter |
| Waabi | Autonomes Lkw-Fahren |
| XPENG | Elektrofahrzeuge |
| Uber | Autonomes Ridesharing |
Cosmos-Modelltypen
Drei Modelltypen adressieren verschiedene Anforderungen der physischen KI-Entwicklung:[^74]
Cosmos-Predict: Simuliert und sagt zukünftige Weltzustände in Videoform vorher **Co
[Inhalt für die Übersetzung gekürzt]