Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Yann LeCun sammelt 500 Mio. € für AMI Labs, während DeepMinds Genie 3 3D-Welten in Echtzeit simuliert. Der Wettlauf 2026 um KI, die Physik versteht, könnte LLMs in den Schatten stellen.

Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Wettlauf um Weltmodelle 2026: Wie LeCun, DeepMind und World Labs den Weg zur AGI neu definieren

Drei Milliarden Dollar Bewertung vor dem Launch für ein Startup, das noch kein einziges Produkt veröffentlicht hat.[^1] Yann LeCuns AMI Labs repräsentiert die bisher größte Wette auf eine These, die KI-Forscher seit Jahren spaltet: Große Sprachmodelle werden niemals allgemeine Intelligenz erreichen, und der Weg nach vorn führt stattdessen über Weltmodelle.

Zusammenfassung

Das Weltmodell-Paradigma erlebte Ende 2025 und Anfang 2026 einen explosionsartigen Durchbruch in der Mainstream-KI-Entwicklung. Yann LeCun verließ Meta nach 12 Jahren, um AMI Labs zu gründen, und sammelte 500 Mio. € bei einer Bewertung von 3 Mrd. € ein, um KI-Systeme zu entwickeln, die Physik verstehen, anstatt nur Text vorherzusagen.[^2] Google DeepMind veröffentlichte Genie 3, das erste interaktive Echtzeit-Weltmodell, das in der Lage ist, persistente 3D-Umgebungen mit 24 fps zu generieren.[^3] Fei-Fei Lis World Labs brachte Marble auf den Markt und machte die Weltmodell-Generierung kommerziell verfügbar – mit Preisen von kostenlos bis 95 $/Monat.[^4] NVIDIAs Cosmos-Plattform verzeichnete 2 Millionen Downloads, da Entwickler in der Robotik und bei autonomen Fahrzeugen synthetische physikbewusste Trainingsdaten nutzen.[^5] Für Organisationen, die KI-Infrastruktur aufbauen, signalisieren Weltmodelle einen rechnerischen Wandel von der Textverarbeitung hin zu Videogenerierung, Physiksimulation und verkörpertem Denken.

Die Grenzen der LLMs

Große Sprachmodelle erreichten bemerkenswerte Fähigkeiten durch Skalierung. GPT-4, Claude und Gemini demonstrieren ausgefeiltes Reasoning, Code-Generierung und mehrstufiges Problemlösen.[^6] Doch eine fundamentale Einschränkung bleibt bestehen: Diese Modelle lernen statistische Muster aus Text, kein Verständnis der physischen Realität.[^7]

Eine 2024 veröffentlichte Forschungsarbeit bewies mathematisch, dass LLMs nicht alle berechenbaren Funktionen erlernen können und daher zwangsläufig halluzinieren werden, wenn sie als allgemeine Problemlöser eingesetzt werden.[^8] Die Ursache liegt in der Funktionsweise von LLMs: Sie sagen vorher, welche Tokens auf vorherige Tokens folgen, basierend auf Mustern aus den Trainingsdaten, ohne jegliche Verankerung in der physischen Realität.[^9]

Das Halluzinationsproblem

LLMs generieren plausibel klingenden Text, der physikalisch unmögliche Szenarien, historisch ungenaue Ereignisse oder logisch inkonsistente Schlussfolgerungen beschreiben kann.[^10] Anders als Menschen, die durch verkörperte Erfahrung von der Schwerkraft lernen, lernen LLMs nur, dass das Wort „Schwerkraft" dazu neigt, in der Nähe bestimmter anderer Wörter aufzutauchen.[^11]

Einschränkung Ursache Konsequenz
Faktische Halluzination Keine verifizierte Wissensbasis[^12] Selbstbewusstes Erfinden von Fakten
Versagen beim physikalischen Denken Keine verkörperte Erfahrung[^13] Beschreibt unmögliche Physik
Kausale Verwirrung Mustererkennung, kein Verständnis[^14] Korrelation wird als Kausalität behandelt
Zeitliche Inkohärenz Sequentielle Token-Vorhersage[^15] Ereignisse in unmöglicher Reihenfolge

Yann LeCun argumentiert seit Jahren öffentlich, dass die Skalierung von LLMs keine allgemeine Intelligenz hervorbringen wird.[^16] „LLMs sind zu einschränkend", erklärte LeCun in seiner NVIDIA GTC-Präsentation. „Sie hochzuskalieren wird uns nicht ermöglichen, AGI zu erreichen."[^17]

Die Alternative, die er vorschlägt: Weltmodelle, die Repräsentationen der physischen Realität lernen und dadurch Vorhersage, Planung und Reasoning über Ursache und Wirkung ermöglichen.[^18]

Yann LeCuns AMI Labs

LeCun verließ Meta im Dezember 2025 nach 12 Jahren, davon fünf als Gründungsdirektor von Facebook AI Research (FAIR) und sieben als Chief AI Scientist.[^19] Sein neues Unternehmen, Advanced Machine Intelligence (AMI) Labs, repräsentiert den bisher ambitioniertesten Versuch, Weltmodell-Forschung zu kommerzialisieren.[^20]

Finanzierung und Struktur

AMI Labs startete Finanzierungsgespräche mit dem Ziel, 500 Millionen Euro bei einer Bewertung von 3 Milliarden Euro einzusammeln – bevor überhaupt ein Produkt gelauncht wurde.[^21] Die angestrebte Summe würde eine der größten Pre-Launch-Finanzierungsrunden in der KI-Geschichte darstellen und spiegelt das Vertrauen der Investoren in LeCuns Vision und Erfolgsbilanz wider.[^22]

Rolle Person Hintergrund
Executive Chairman Yann LeCun Turing-Award-Gewinner, Meta FAIR-Gründer[^23]
CEO Alex LeBrun Ehemaliger CEO von Nabla (medizinische KI)[^24]

Das Unternehmen plant, bis Januar 2026 seinen Hauptsitz in Paris zu etablieren.[^25] Während Meta nicht direkt in AMI Labs investieren wird, planen die Unternehmen eine Partnerschaft, die es LeCun ermöglicht, Forschungsverbindungen aufrechtzuerhalten.[^26]

Technische Vision

AMI Labs zielt darauf ab, KI-Systeme zu entwickeln, die Physik verstehen, persistenten Speicher aufrechterhalten und komplexe Handlungen planen – anstatt einfach nur Textsequenzen vorherzusagen.[^27] LeCun beschreibt ein Weltmodell als „Ihr mentales Modell davon, wie sich die Welt verhält."[^28]

„Sie können sich eine Sequenz von Handlungen vorstellen, die Sie durchführen könnten, und Ihr Weltmodell wird es Ihnen ermöglichen vorherzusagen, welche Auswirkung die Sequenz von Handlungen auf die Welt haben wird", erklärte LeCun.[^29]

Der Ansatz unterscheidet sich fundamental von LLMs. Während GPT-artige Modelle das nächste Wort vorhersagen, sagen Weltmodelle den nächsten Zustand einer physischen Umgebung vorher, basierend auf den darin durchgeführten Aktionen.[^30] Dies ermöglicht:

  • Planung: Simulation von Ergebnissen vor der Handlung
  • Physikalisches Reasoning: Verständnis, dass Objekte Masse, Impuls und räumliche Beziehungen haben
  • Ursache-Wirkungs-Verständnis: Lernen, dass Handlungen vorhersagbare Konsequenzen haben
  • Persistenter Speicher: Aufrechterhaltung eines konsistenten Weltzustands über die Zeit

I-JEPA-Grundlage

AMI Labs baut auf LeCuns I-JEPA (Image Joint Embedding Predictive Architecture) Forschung bei Meta auf.[^31] I-JEPA lernt, indem es Repräsentationen von Bildbereichen aus anderen Bereichen vorhersagt und dabei abstraktes Verständnis visueller Szenen entwickelt, ohne explizite Labels zu benötigen.[^32]

Der Ansatz ähnelt dem, wie Menschen durch Beobachtung intuitive Physik entwickeln. Ein Kind, das fallende Objekte beobachtet, entwickelt ein internes Modell der Schwerkraft, ohne dass jemand Newtons Gesetze erklärt.[^33] I-JEPA und Nachfolgearchitekturen zielen darauf ab, diesen Lernprozess in künstlichen Systemen zu replizieren.[^34]

DeepMinds Genie 3

Google DeepMind veröffentlichte Genie 3 im August 2025, das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke.[^35] Anders als frühere Systeme, die statische Umgebungen generierten oder erhebliche Verarbeitungszeit benötigten, erzeugt Genie 3 navigierbare 3D-Welten mit 24 Bildern pro Sekunde.[^36]

Technische Fähigkeiten

Genie 3 generiert dynamische Umgebungen aus Text-Prompts und erhält dabei die visuelle Konsistenz für mehrere Minuten Echtzeit-Interaktion aufrecht.[^37] Das System basiert nicht auf fest codierten Physik-Engines; stattdessen bringt sich das Modell durch Training selbst bei, wie die Welt funktioniert.[^38]

Fähigkeit Spezifikation
Bildrate 24 fps in Echtzeit[^39]
Auflösung 720p[^40]
Konsistenzdauer Mehrere Minuten[^41]
Speicherhorizont Bis zu 1 Minute Rückblick[^42]
Physik Selbst erlernt, nicht fest codiert[^43]

„Genie 3 ist das erste interaktive Echtzeit-Weltmodell für allgemeine Zwecke", erklärte Shlomi Fruchter, Research Director bei DeepMind. „Es geht über enge Weltmodelle hinaus, die zuvor existierten. Es ist nicht auf eine bestimmte Umgebung beschränkt."[^44]

Auto-regressive Architektur

Das Modell generiert ein Bild nach dem anderen und blickt dabei auf zuvor generierten Inhalt zurück, um zu bestimmen, was als Nächstes passiert.[^45] Das Erreichen von Echtzeit-Performance erfordert die Berechnung dieses auto-regressiven Prozesses mehrmals pro Sekunde, während die Konsistenz mit potenziell minutenaltem visuellem Gedächtnis aufrechterhalten wird.[^46]

Physische Konsistenz entsteht durch Training, nicht durch explizite Programmierung.[^47] Genie 3-Umgebungen erhalten stabile Physik aufrecht, weil das Modell physikalische Regelmäßigkeiten aus den Trainingsdaten gelernt hat, nicht weil Forscher Schwerkraft oder Kollisionserkennung manuell codiert haben.[^48]

AGI-Implikationen

DeepMind positioniert Genie 3 als Sprungbrett zur künstlichen allgemeinen Intelligenz.[^49] Das Labor erwartet, dass Weltmodell-Technologie eine entscheidende Rolle spielen wird, wenn KI-Agenten mehr mit physischen Umgebungen interagieren.[^50]

„Genie 3 markiert einen großen Sprung in Richtung Künstlicher Allgemeiner Intelligenz, indem es KI-Agenten ermöglicht, reichhaltig simulierte Welten zu ‚erleben', mit ihnen zu interagieren und von ihnen zu lernen – ohne manuelle Content-Erstellung", so DeepMinds Ankündigung.[^51]

Aktuelle Einschränkungen

Genie 3 bleibt in einer limitierten Research-Preview, statt öffentlich verfügbar zu sein.[^52] Bekannte Einschränkungen umfassen:

  • Begrenzter Aktionsraum für Agenten-Interaktionen
  • Konsistenz-Zusammenbruch nach mehreren Minuten
  • Unvollständige Genauigkeit realer Geografie
  • Herausforderungen bei der Modellierung komplexer Multi-Agenten-Interaktionen

DeepMind erweitert weiterhin den Testzugang für ausgewählte Wissenschaftler und Creator.[^53]

Fei-Fei Lis World Labs und Marble

World Labs, gegründet von KI-Pionierin Fei-Fei Li, brachte Marble im November 2025 als erstes kommerziell verfügbares Weltmodell-Produkt auf den Markt.[^54] Das Startup kam gut ein Jahr vor dem Marble-Launch mit 230 Millionen Dollar Finanzierung aus dem Stealth-Modus.[^55]

Produktarchitektur

Marble generiert persistente, herunterladbare 3D-Umgebungen aus Text-Prompts, Fotos, Videos, 3D-Layouts oder Panoramabildern.[^56] Anders als Wettbewerber, die Welten während der Exploration on-the-fly generieren, produziert Marble diskrete Umgebungen, die Nutzer bearbeiten und exportieren können.[^57]

Eingabetyp Ausgabe
Text-Prompt 3D-Umgebung
Foto 3D-Umgebung
Video 3D-Umgebung
3D-Layout KI-erweiterte 3D-Umgebung
Panorama 3D-Umgebung

Die Plattform bietet KI-native Bearbeitungswerkzeuge und einen hybriden 3D-Editor, der das Blockieren räumlicher Strukturen ermöglicht, bevor die KI visuelle Details ausfüllt.[^58] Dateien werden in Formaten exportiert, die mit Industriestandard-Tools wie Unreal Engine und Unity kompatibel sind.[^59]

Preismodell

World Labs hat ein Freemium-Modell für kreative Profis eingeführt:[^60]

Stufe Preis Generierungen Features
Free 0 $ 4/Monat Basis-Generierung
Standard 20 $/Monat 12/Monat Standard-Features
Pro 35 $/Monat 25/Monat Kommerzielle Rechte
Max 95 $/Monat 75/Monat Premium-Features

Ziel-Anwendungen

Erste Anwendungsfälle konzentrieren sich auf Gaming, visuelle Effekte für Film und Virtual Reality.[^61] Marble unterstützt Vision Pro und Quest 3 VR-Headsets, wobei jede generierte Welt in VR betrachtet werden kann.[^62]

Fei-Fei Li positioniert Marble als „den ersten Schritt zur Schaffung eines wirklich räumlich intelligenten Weltmodells."[^63] Über kreative Anwendungen hinaus ermöglicht die Technologie Robotik-Training durch simulierte Umgebungen, deren Erstellung in der physischen Realität teuer oder gefährlich wäre.[^64]

NVIDIA Cosmos: Weltmodelle im industriellen Maßstab

NVIDIA launchte Cosmos auf der CES 2025 als Plattform für physische KI-Entwicklung, speziell für autonome Fahrzeuge und Robotik.[^65] Bis Januar 2026 wurden die Cosmos World Foundation Models über 2 Millionen Mal heruntergeladen.[^66]

Plattform-Architektur

Cosmos umfasst generative World Foundation Models, fortschrittliche Tokenizer, Guardrails und eine beschleunigte Video-Verarbeitungs-Pipeline.[^67] Die Modelle sagen physikbewusste Videos zukünftiger Umgebungszustände vorher und generieren sie, was die Erzeugung synthetischer Trainingsdaten in massivem Maßstab ermöglicht.[^68]

Modell-Stufe Optimierung Anwendungsfall
Nano Echtzeit, Edge-Deployment[^69] On-Device-Inferenz
Super Hochleistungs-Baseline[^70] Allgemeine Entwicklung
Ultra Maximale Qualität und Wiedergabetreue[^71] Custom Model Distillation

Die Plattform wurde mit 9.000 Billionen Tokens aus 20 Millionen Stunden realer Daten trainiert, die menschliche Interaktionen, Umgebungen, industrielle Umfelder, Robotik und Fahrsituationen abdecken.[^72]

Branchen-Adoption

Führende Robotik- und Automobilunternehmen haben Cosmos für die Generierung synthetischer Daten übernommen:[^73]

Unternehmen Bereich
1X Humanoide Roboter
Agility Zweibeinige Roboter
Figure AI Humanoide Roboter
Waabi Autonomes Lkw-Fahren
XPENG Elektrofahrzeuge
Uber Autonomes Ridesharing

Cosmos-Modelltypen

Drei Modelltypen adressieren verschiedene Anforderungen der physischen KI-Entwicklung:[^74]

Cosmos-Predict: Simuliert und sagt zukünftige Weltzustände in Videoform vorher **Co

[Inhalt für die Übersetzung gekürzt]

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT