Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Yann LeCun sammelt 500 Mio. € für AMI Labs, während DeepMinds Genie 3 3D-Welten in Echtzeit simuliert. Der Wettlauf 2026 um KI, die Physik versteht, könnte LLMs in den Schatten stellen.

Blake Crosley

Jan 03, 2026 8 min read Disclaimer

Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Drei Milliarden Dollar Bewertung vor dem Launch für ein Startup, das noch kein einziges Produkt veröffentlicht hat.[^1] Yann LeCuns AMI Labs repräsentiert die bisher größte Wette auf eine These, die KI-Forscher seit Jahren spaltet: Große Sprachmodelle werden niemals allgemeine Intelligenz erreichen, und der Weg nach vorn führt stattdessen über Weltmodelle.

Zusammenfassung

Das Weltmodell-Paradigma erlebte Ende 2025 und Anfang 2026 einen explosionsartigen Durchbruch in der Mainstream-KI-Entwicklung. Yann LeCun verließ Meta nach 12 Jahren, um AMI Labs zu gründen, und sammelte 500 Mio. € bei einer Bewertung von 3 Mrd. € ein, um KI-Systeme zu entwickeln, die Physik verstehen, anstatt nur Text vorherzusagen.[^2] Google DeepMind veröffentlichte Genie 3, das erste interaktive Echtzeit-Weltmodell, das in der Lage ist, persistente 3D-Umgebungen mit 24 fps zu generieren.[^3] Fei-Fei Lis World Labs brachte Marble auf den Markt und machte die Weltmodell-Generierung kommerziell verfügbar – mit Preisen von kostenlos bis 95 $/Monat.[^4] NVIDIAs Cosmos-Plattform verzeichnete 2 Millionen Downloads, da Entwickler in der Robotik und bei autonomen Fahrzeugen synthetische physikbewusste Trainingsdaten nutzen.[^5] Für Organisationen, die KI-Infrastruktur aufbauen, signalisieren Weltmodelle einen rechnerischen Wandel von der Textverarbeitung hin zu Videogenerierung, Physiksimulation und verkörpertem Denken.

Die Grenzen der LLMs

Große Sprachmodelle erreichten bemerkenswerte Fähigkeiten durch Skalierung. GPT-4, Claude und Gemini demonstrieren ausgefeiltes Reasoning, Code-Generierung und mehrstufiges Problemlösen.[^6] Doch eine fundamentale Einschränkung bleibt bestehen: Diese Modelle lernen statistische Muster aus Text, kein Verständnis der physischen Realität.[^7]

Eine 2024 veröffentlichte Forschungsarbeit bewies mathematisch, dass LLMs nicht alle berechenbaren Funktionen erlernen können und daher zwangsläufig halluzinieren werden, wenn sie als allgemeine Problemlöser eingesetzt werden.[^8] Die Ursache liegt in der Funktionsweise von LLMs: Sie sagen vorher, welche Tokens auf vorherige Tokens folgen, basierend auf Mustern aus den Trainingsdaten, ohne jegliche Verankerung in der physischen Realität.[^9]

Das Halluzinationsproblem

LLMs generieren plausibel klingenden Text, der physikalisch unmögliche Szenarien, historisch ungenaue Ereignisse oder logisch inkonsistente Schlussfolgerungen beschreiben kann.[^10] Anders als Menschen, die durch verkörperte Erfahrung von der Schwerkraft lernen, lernen LLMs nur, dass das Wort „Schwerkraft" dazu neigt, in der Nähe bestimmter anderer Wörter aufzutauchen.[^11]

Einschränkung	Ursache	Konsequenz
Faktische Halluzination	Keine verifizierte Wissensbasis[^12]	Selbstbewusstes Erfinden von Fakten
Versagen beim physikalischen Denken	Keine verkörperte Erfahrung[^13]	Beschreibt unmögliche Physik
Kausale Verwirrung	Mustererkennung, kein Verständnis[^14]	Korrelation wird als Kausalität behandelt
Zeitliche Inkohärenz	Sequentielle Token-Vorhersage[^15]	Ereignisse in unmöglicher Reihenfolge

Yann LeCun argumentiert seit Jahren öffentlich, dass die Skalierung von LLMs keine allgemeine Intelligenz hervorbringen wird.[^16] „LLMs sind zu einschränkend", erklärte LeCun in seiner NVIDIA GTC-Präsentation. „Sie hochzuskalieren wird uns nicht ermöglichen, AGI zu erreichen."[^17]

Die Alternative, die er vorschlägt: Weltmodelle, die Repräsentationen der physischen Realität lernen und dadurch Vorhersage, Planung und Reasoning über Ursache und Wirkung ermöglichen.[^18]

Yann LeCuns AMI Labs

LeCun verließ Meta im Dezember 2025 nach 12 Jahren, davon fünf als Gründungsdirektor von Facebook AI Research (FAIR) und sieben als Chief AI Scientist.[^19] Sein neues Unternehmen, Advanced Machine Intelligence (AMI) Labs, repräsentiert den bisher ambitioniertesten Versuch, Weltmodell-Forschung zu kommerzialisieren.[^20]

Finanzierung und Struktur

AMI Labs startete Finanzierungsgespräche mit dem Ziel, 500 Millionen Euro bei einer Bewertung von 3 Milliarden Euro einzusammeln – bevor überhaupt ein Produkt gelauncht wurde.[^21] Die angestrebte Summe würde eine der größten Pre-Launch-Finanzierungsrunden in der KI-Geschichte darstellen und spiegelt das Vertrauen der Investoren in LeCuns Vision und Erfolgsbilanz wider.[^22]

Rolle	Person	Hintergrund
Executive Chairman	Yann LeCun	Turing-Award-Gewinner, Meta FAIR-Gründer[^23]
CEO	Alex LeBrun	Ehemaliger CEO von Nabla (medizinische KI)[^24]

Das Unternehmen plant, bis Januar 2026 seinen Hauptsitz in Paris zu etablieren.[^25] Während Meta nicht direkt in AMI Labs investieren wird, planen die Unternehmen eine Partnerschaft, die es LeCun ermöglicht, Forschungsverbindungen aufrechtzuerhalten.[^26]

Technische Vision

AMI Labs zielt darauf ab, KI-Systeme zu entwickeln, die Physik verstehen, persistenten Speicher aufrechterhalten und komplexe Handlungen planen – anstatt einfach nur Textsequenzen vorherzusagen.[^27] LeCun beschreibt ein Weltmodell als „Ihr mentales Modell davon, wie sich die Welt verhält."[^28]

„Sie können sich eine Sequenz von Handlungen vorstellen, die Sie durchführen könnten, und Ihr Weltmodell wird es Ihnen ermöglichen vorherzusagen, welche Auswirkung die Sequenz von Handlungen auf die Welt haben wird", erklärte LeCun.[^29]

Der Ansatz unterscheidet sich fundamental von LLMs. Während GPT-artige Modelle das nächste Wort vorhersagen, sagen Weltmodelle den nächsten Zustand einer physischen Umgebung vorher, basierend auf den darin durchgeführten Aktionen.[^30] Dies ermöglicht:

Planung: Simulation von Ergebnissen vor der Handlung
Physikalisches Reasoning: Verständnis, dass Objekte Masse, Impuls und räumliche Beziehungen haben
Ursache-Wirkungs-Verständnis: Lernen, dass Handlungen vorhersagbare Konsequenzen haben
Persistenter Speicher: Aufrechterhaltung eines konsistenten Weltzustands über die Zeit

I-JEPA-Grundlage

AMI Labs baut auf LeCuns I-JEPA (Image Joint Embedding Predictive Architecture) Forschung bei Meta auf.[^31] I-JEPA lernt, indem es Repräsentationen von Bildbereichen aus anderen Bereichen vorhersagt und dabei abstraktes Verständnis visueller Szenen entwickelt, ohne explizite Labels zu benötigen.[^32]

Der Ansatz ähnelt dem, wie Menschen durch Beobachtung intuitive Physik entwickeln. Ein Kind, das fallende Objekte beobachtet, entwickelt ein internes Modell der Schwerkraft, ohne dass jemand Newtons Gesetze erklärt.[^33] I-JEPA und Nachfolgearchitekturen zielen darauf ab, diesen Lernprozess in künstlichen Systemen zu replizieren.[^34]

DeepMinds Genie 3

Google DeepMind veröffentlichte Genie 3 im August 2025, das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke.[^35] Anders als frühere Systeme, die statische Umgebungen generierten oder erhebliche Verarbeitungszeit benötigten, erzeugt Genie 3 navigierbare 3D-Welten mit 24 Bildern pro Sekunde.[^36]

Technische Fähigkeiten

Genie 3 generiert dynamische Umgebungen aus Text-Prompts und erhält dabei die visuelle Konsistenz für mehrere Minuten Echtzeit-Interaktion aufrecht.[^37] Das System basiert nicht auf fest codierten Physik-Engines; stattdessen bringt sich das Modell durch Training selbst bei, wie die Welt funktioniert.[^38]

Fähigkeit	Spezifikation
Bildrate	24 fps in Echtzeit[^39]
Auflösung	720p[^40]
Konsistenzdauer	Mehrere Minuten[^41]
Speicherhorizont	Bis zu 1 Minute Rückblick[^42]
Physik	Selbst erlernt, nicht fest codiert[^43]

„Genie 3 ist das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke", erklärte Shlomi Fruchter, Research Director bei DeepMind. „Es geht über enge Weltmodelle hinaus, die zuvor existierten. Es ist nicht auf eine bestimmte Umgebung beschränkt."[^44]

Auto-regressive Architektur

Das Modell generiert ein Bild nach dem anderen und blickt dabei auf zuvor generierten Inhalt zurück, um zu bestimmen, was als Nächstes passiert.[^45] Das Erreichen von Echtzeit-Performance erfordert die Berechnung dieses auto-regressiven Prozesses mehrmals pro Sekunde, während die Konsistenz mit potenziell minutenaltem visuellem Gedächtnis aufrechterhalten wird.[^46]

Physische Konsistenz entsteht durch Training, nicht durch explizite Programmierung.[^47] Genie 3-Umgebungen erhalten stabile Physik aufrecht, weil das Modell physikalische Regelmäßigkeiten aus den Trainingsdaten gelernt hat, nicht weil Forscher Schwerkraft oder Kollisionserkennung manuell codiert haben.[^48]

AGI-Implikationen

DeepMind positioniert Genie 3 als Sprungbrett zur künstlichen allgemeinen Intelligenz.[^49] Das Labor erwartet, dass Weltmodell-Technologie eine entscheidende Rolle spielen wird, wenn KI-Agenten mehr mit physischen Umgebungen interagieren.[^50]

„Genie 3 markiert einen großen Sprung in Richtung Künstlicher Allgemeiner Intelligenz, indem es KI-Agenten ermöglicht, reichhaltig simulierte Welten zu ‚erleben', mit ihnen zu interagieren und von ihnen zu lernen – ohne manuelle Content-Erstellung", so DeepMinds Ankündigung.[^51]

Aktuelle Einschränkungen

Genie 3 bleibt in einer limitierten Research-Preview, statt öffentlich verfügbar zu sein.[^52] Bekannte Einschränkungen umfassen:

Begrenzter Aktionsraum für Agenten-Interaktionen
Konsistenz-Zusammenbruch nach mehreren Minuten
Unvollständige Genauigkeit realer Geografie
Herausforderungen bei der Modellierung komplexer Multi-Agenten-Interaktionen

DeepMind erweitert weiterhin den Testzugang für ausgewählte Wissenschaftler und Creator.[^53]

Fei-Fei Lis World Labs und Marble

World Labs, gegründet von KI-Pionierin Fei-Fei Li, brachte Marble im November 2025 als erstes kommerziell verfügbares Weltmodell-Produkt auf den Markt.[^54] Das Startup kam gut ein Jahr vor dem Marble-Launch mit 230 Millionen Dollar Finanzierung aus dem Stealth-Modus.[^55]

Produktarchitektur

Marble generiert persistente, herunterladbare 3D-Umgebungen aus Text-Prompts, Fotos, Videos, 3D-Layouts oder Panoramabildern.[^56] Anders als Wettbewerber, die Welten während der Exploration on-the-fly generieren, produziert Marble diskrete Umgebungen, die Nutzer bearbeiten und exportieren können.[^57]

Eingabetyp	Ausgabe
Text-Prompt	3D-Umgebung
Foto	3D-Umgebung
Video	3D-Umgebung
3D-Layout	KI-erweiterte 3D-Umgebung
Panorama	3D-Umgebung

Die Plattform bietet KI-native Bearbeitungswerkzeuge und einen hybriden 3D-Editor, der das Blockieren räumlicher Strukturen ermöglicht, bevor die KI visuelle Details ausfüllt.[^58] Dateien werden in Formaten exportiert, die mit Industriestandard-Tools wie Unreal Engine und Unity kompatibel sind.[^59]

Preismodell

World Labs hat ein Freemium-Modell für kreative Profis eingeführt:[^60]

Stufe	Preis	Generierungen	Features
Free	0 $	4/Monat	Basis-Generierung
Standard	20 $/Monat	12/Monat	Standard-Features
Pro	35 $/Monat	25/Monat	Kommerzielle Rechte
Max	95 $/Monat	75/Monat	Premium-Features

Ziel-Anwendungen

Erste Anwendungsfälle konzentrieren sich auf Gaming, visuelle Effekte für Film und Virtual Reality.[^61] Marble unterstützt Vision Pro und Quest 3 VR-Headsets, wobei jede generierte Welt in VR betrachtet werden kann.[^62]

Fei-Fei Li positioniert Marble als „den ersten Schritt zur Schaffung eines wirklich räumlich intelligenten Weltmodells."[^63] Über kreative Anwendungen hinaus ermöglicht die Technologie Robotik-Training durch simulierte Umgebungen, deren Erstellung in der physischen Realität teuer oder gefährlich wäre.[^64]

NVIDIA Cosmos: Weltmodelle im industriellen Maßstab

NVIDIA launchte Cosmos auf der CES 2025 als Plattform für physische KI-Entwicklung, speziell für autonome Fahrzeuge und Robotik.[^65] Bis Januar 2026 wurden die Cosmos World Foundation Models über 2 Millionen Mal heruntergeladen.[^66]

Plattform-Architektur

Cosmos umfasst generative World Foundation Models, fortschrittliche Tokenizer, Guardrails und eine beschleunigte Video-Verarbeitungs-Pipeline.[^67] Die Modelle sagen physikbewusste Videos zukünftiger Umgebungszustände vorher und generieren sie, was die Erzeugung synthetischer Trainingsdaten in massivem Maßstab ermöglicht.[^68]

Modell-Stufe	Optimierung	Anwendungsfall
Nano	Echtzeit, Edge-Deployment[^69]	On-Device-Inferenz
Super	Hochleistungs-Baseline[^70]	Allgemeine Entwicklung
Ultra	Maximale Qualität und Wiedergabetreue[^71]	Custom Model Distillation

Die Plattform wurde mit 9.000 Billionen Tokens aus 20 Millionen Stunden realer Daten trainiert, die menschliche Interaktionen, Umgebungen, industrielle Umfelder, Robotik und Fahrsituationen abdecken.[^72]

Branchen-Adoption

Führende Robotik- und Automobilunternehmen haben Cosmos für die Generierung synthetischer Daten übernommen:[^73]

Unternehmen	Bereich
1X	Humanoide Roboter
Agility	Zweibeinige Roboter
Figure AI	Humanoide Roboter
Waabi	Autonomes Lkw-Fahren
XPENG	Elektrofahrzeuge
Uber	Autonomes Ridesharing

Cosmos-Modelltypen

Drei Modelltypen adressieren verschiedene Anforderungen der physischen KI-Entwicklung:[^74]

Cosmos-Predict: Simuliert und sagt zukünftige Weltzustände in Videoform vorher **Co

[Inhalt für die Übersetzung gekürzt]

Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Zusammenfassung

Die Grenzen der LLMs

Das Halluzinationsproblem

Yann LeCuns AMI Labs

Finanzierung und Struktur

Technische Vision

I-JEPA-Grundlage

DeepMinds Genie 3

Technische Fähigkeiten

Auto-regressive Architektur

AGI-Implikationen

Aktuelle Einschränkungen

Fei-Fei Lis World Labs und Marble

Produktarchitektur

Preismodell

Ziel-Anwendungen

NVIDIA Cosmos: Weltmodelle im industriellen Maßstab

Plattform-Architektur

Branchen-Adoption

Cosmos-Modelltypen

You Might Also Like

AIOps für Rechenzentren: Einsatz von LLMs zur Verwaltung von...

Load Balancing für KI-Inferenz: Verteilung von Anfragen über...

Disaggregiertes Computing für KI: Composable-Infrastructure-...

Angebot anfordern_

Anfrage erhalten_