Cuộc Đua World Models 2026: LeCun, DeepMind và World Labs Đang Định Nghĩa Lại Con Đường Đến AGI Như Thế Nào

Yann LeCun huy động €500 triệu cho AMI Labs trong khi Genie 3 của DeepMind mô phỏng thế giới 3D thời gian thực. Cuộc đua năm 2026 để xây dựng AI hiểu vật lý có thể vượt qua LLMs.

Blake Crosley

Jan 03, 2026 12 min read Disclaimer

Cuộc Đua World Models 2026: LeCun, DeepMind và World Labs Đang Định Nghĩa Lại Con Đường Đến AGI Như Thế Nào

Ba tỷ đô la định giá trước khi ra mắt cho một startup chưa phát hành bất kỳ sản phẩm nào.[^1] AMI Labs của Yann LeCun đại diện cho canh bạc lớn nhất từ trước đến nay vào một luận điểm đã chia rẽ các nhà nghiên cứu AI trong nhiều năm: các mô hình ngôn ngữ lớn sẽ không bao giờ đạt được trí tuệ tổng quát, và con đường phía trước phải đi qua world models.

TL;DR

Mô hình world models bùng nổ vào dòng chính phát triển AI vào cuối năm 2025 và đầu năm 2026. Yann LeCun rời Meta sau 12 năm để thành lập AMI Labs, huy động €500 triệu với định giá €3 tỷ để xây dựng các hệ thống AI hiểu vật lý thay vì chỉ dự đoán văn bản.[^2] Google DeepMind phát hành Genie 3, world model tương tác thời gian thực đầu tiên có khả năng tạo môi trường 3D liên tục ở 24 fps.[^3] World Labs của Fei-Fei Li ra mắt Marble, đưa việc tạo world model vào thương mại với giá từ miễn phí đến $95/tháng.[^4] Nền tảng Cosmos của NVIDIA đã có 2 triệu lượt tải xuống khi các nhà phát triển robot và xe tự hành đón nhận dữ liệu huấn luyện tổng hợp nhận thức vật lý.[^5] Đối với các tổ chức xây dựng hạ tầng AI, world models báo hiệu sự chuyển đổi tính toán từ xử lý văn bản sang tạo video, mô phỏng vật lý và suy luận thể hiện.

Trần LLM

Các mô hình ngôn ngữ lớn đã đạt được khả năng đáng chú ý thông qua quy mô. GPT-4, Claude và Gemini thể hiện khả năng suy luận tinh vi, tạo mã và giải quyết vấn đề nhiều bước.[^6] Tuy nhiên, một hạn chế cơ bản vẫn tồn tại: các mô hình này học các mẫu thống kê từ văn bản, không phải sự hiểu biết về thực tế vật lý.[^7]

Nghiên cứu công bố năm 2024 đã chứng minh toán học rằng LLMs không thể học tất cả các hàm tính toán được và do đó chắc chắn sẽ ảo giác khi được sử dụng như bộ giải quyết vấn đề tổng quát.[^8] Nguyên nhân gốc rễ nằm ở cách LLMs hoạt động: dự đoán token nào theo sau các token trước dựa trên các mẫu học từ dữ liệu huấn luyện, không có bất kỳ sự neo đậu nào trong thực tế vật lý.[^9]

Vấn Đề Ảo Giác

LLMs tạo ra văn bản nghe có vẻ hợp lý có thể mô tả các kịch bản không thể về mặt vật lý, các sự kiện sai lịch sử, hoặc suy luận không nhất quán về logic.[^10] Không giống con người học về trọng lực thông qua trải nghiệm thể hiện, LLMs chỉ học rằng từ "trọng lực" có xu hướng xuất hiện gần một số từ khác nhất định.[^11]

Hạn Chế	Nguyên Nhân	Hậu Quả
Ảo giác thực tế	Không có cơ sở kiến thức được xác minh[^12]	Bịa đặt sự kiện một cách tự tin
Thất bại suy luận vật lý	Không có trải nghiệm thể hiện[^13]	Mô tả vật lý không thể
Nhầm lẫn nhân quả	Khớp mẫu, không phải hiểu biết[^14]	Tương quan được coi là nhân quả
Không nhất quán thời gian	Dự đoán token tuần tự[^15]	Sự kiện theo thứ tự không thể

Yann LeCun đã tranh luận công khai trong nhiều năm rằng việc mở rộng quy mô LLMs sẽ không tạo ra trí tuệ tổng quát.[^16] "LLMs quá hạn chế," LeCun tuyên bố trong bài thuyết trình NVIDIA GTC của mình. "Việc mở rộng quy mô chúng sẽ không cho phép chúng ta đạt được AGI."[^17]

Giải pháp thay thế ông đề xuất: world models học các biểu diễn của thực tế vật lý, cho phép dự đoán, lập kế hoạch và suy luận về nguyên nhân và kết quả.[^18]

AMI Labs của Yann LeCun

LeCun rời Meta vào tháng 12 năm 2025 sau 12 năm, năm năm làm giám đốc sáng lập Facebook AI Research (FAIR) và bảy năm làm nhà khoa học AI trưởng.[^19] Dự án mới của ông, Advanced Machine Intelligence (AMI) Labs, đại diện cho nỗ lực tham vọng nhất từ trước đến nay để thương mại hóa nghiên cứu world model.[^20]

Tài Trợ và Cấu Trúc

AMI Labs bắt đầu các cuộc thảo luận huy động vốn với mục tiêu €500 triệu ở định giá €3 tỷ trước khi ra mắt bất kỳ sản phẩm nào.[^21] Mục tiêu này sẽ đại diện cho một trong những đợt huy động trước khi ra mắt lớn nhất trong lịch sử AI, phản ánh sự tin tưởng của nhà đầu tư vào tầm nhìn và thành tích của LeCun.[^22]

Vai Trò	Người	Nền Tảng
Chủ tịch Điều hành	Yann LeCun	Người đoạt giải Turing, người sáng lập Meta FAIR[^23]
CEO	Alex LeBrun	Cựu CEO của Nabla (AI y tế)[^24]

Công ty dự định thành lập trụ sở tại Paris vào tháng 1 năm 2026.[^25] Mặc dù Meta sẽ không đầu tư trực tiếp vào AMI Labs, hai công ty dự định thiết lập quan hệ đối tác cho phép LeCun tiếp tục các kết nối nghiên cứu.[^26]

Tầm Nhìn Kỹ Thuật

AMI Labs nhằm tạo ra các hệ thống AI hiểu vật lý, duy trì bộ nhớ liên tục và lập kế hoạch các hành động phức tạp thay vì chỉ dự đoán chuỗi văn bản.[^27] LeCun mô tả world model là "mô hình tinh thần của bạn về cách thế giới hoạt động."[^28]

"Bạn có thể tưởng tượng một chuỗi hành động bạn có thể thực hiện, và world model của bạn sẽ cho phép bạn dự đoán tác động của chuỗi hành động đó đối với thế giới," LeCun giải thích.[^29]

Cách tiếp cận này khác biệt cơ bản với LLMs. Trong khi các mô hình kiểu GPT dự đoán từ tiếp theo, world models dự đoán trạng thái tiếp theo của môi trường vật lý dựa trên các hành động được thực hiện trong đó.[^30] Điều này cho phép:

Lập kế hoạch: Mô phỏng kết quả trước khi hành động
Suy luận về vật lý: Hiểu rằng các vật thể có khối lượng, động lượng và mối quan hệ không gian
Hiểu nhân quả: Học rằng các hành động tạo ra hậu quả có thể dự đoán
Bộ nhớ liên tục: Duy trì trạng thái thế giới nhất quán theo thời gian

Nền Tảng I-JEPA

AMI Labs xây dựng trên nghiên cứu I-JEPA (Image Joint Embedding Predictive Architecture) của LeCun tại Meta.[^31] I-JEPA học bằng cách dự đoán các biểu diễn của các vùng hình ảnh từ các vùng khác, phát triển sự hiểu biết trừu tượng về các cảnh trực quan mà không cần nhãn rõ ràng.[^32]

Cách tiếp cận này tương tự cách con người phát triển vật lý trực giác thông qua quan sát. Một đứa trẻ xem các vật thể rơi phát triển mô hình nội tại về trọng lực mà không ai giải thích định luật Newton.[^33] I-JEPA và các kiến trúc kế thừa nhằm tái tạo quá trình học tập này trong các hệ thống nhân tạo.[^34]

Genie 3 của DeepMind

Google DeepMind phát hành Genie 3 vào tháng 8 năm 2025, đại diện cho world model tương tác thời gian thực đa mục đích đầu tiên.[^35] Không giống các hệ thống trước đó tạo môi trường tĩnh hoặc yêu cầu thời gian xử lý đáng kể, Genie 3 tạo ra các thế giới 3D có thể điều hướng ở 24 khung hình mỗi giây.[^36]

Khả Năng Kỹ Thuật

Genie 3 tạo môi trường động từ các prompt văn bản, duy trì tính nhất quán trực quan trong vài phút tương tác thời gian thực.[^37] Hệ thống không dựa vào các engine vật lý mã hóa cứng; thay vào đó, mô hình tự học cách thế giới hoạt động thông qua huấn luyện.[^38]

Khả Năng	Thông Số
Tốc độ khung hình	24 fps thời gian thực[^39]
Độ phân giải	720p[^40]
Thời lượng nhất quán	Vài phút[^41]
Phạm vi bộ nhớ	Lên đến 1 phút nhìn lại[^42]
Vật lý	Tự học, không mã hóa cứng[^43]

"Genie 3 là world model tương tác thời gian thực đa mục đích đầu tiên," Shlomi Fruchter, giám đốc nghiên cứu tại DeepMind tuyên bố. "Nó vượt ra ngoài các world models hẹp đã tồn tại trước đây. Nó không cụ thể cho bất kỳ môi trường đặc biệt nào."[^44]

Kiến Trúc Auto-Regressive

Mô hình tạo từng khung hình một, nhìn lại nội dung đã tạo trước đó để xác định điều gì xảy ra tiếp theo.[^45] Đạt được hiệu suất thời gian thực đòi hỏi tính toán quá trình auto-regressive này nhiều lần mỗi giây trong khi duy trì tính nhất quán với bộ nhớ trực quan có thể đã một phút tuổi.[^46]

Tính nhất quán vật lý xuất hiện từ huấn luyện thay vì lập trình rõ ràng.[^47] Môi trường Genie 3 duy trì vật lý ổn định vì mô hình học các quy luật vật lý từ dữ liệu huấn luyện, không phải vì các nhà nghiên cứu mã hóa thủ công trọng lực hoặc phát hiện va chạm.[^48]

Hàm Ý AGI

DeepMind định vị Genie 3 như một bước đệm hướng tới trí tuệ nhân tạo tổng quát.[^49] Phòng thí nghiệm kỳ vọng công nghệ world model sẽ đóng vai trò quan trọng khi các agent AI tương tác nhiều hơn với môi trường vật lý.[^50]

"Genie 3 đánh dấu bước nhảy vọt lớn hướng tới Trí tuệ Nhân tạo Tổng quát bằng cách cho phép các agent AI 'trải nghiệm', tương tác và học từ các thế giới mô phỏng phong phú mà không cần tạo nội dung thủ công," theo thông báo của DeepMind.[^51]

Hạn Chế Hiện Tại

Genie 3 vẫn ở giai đoạn xem trước nghiên cứu giới hạn thay vì phát hành công khai.[^52] Các ràng buộc đã biết bao gồm:

Không gian hành động hạn chế cho tương tác agent
Sự cố nhất quán sau vài phút
Độ chính xác địa lý thực tế không hoàn chỉnh
Thách thức trong mô hình hóa tương tác đa agent phức tạp

DeepMind tiếp tục mở rộng quyền truy cập thử nghiệm cho các học giả và nhà sáng tạo được chọn.[^53]

World Labs của Fei-Fei Li và Marble

World Labs, được thành lập bởi nhà tiên phong AI Fei-Fei Li, ra mắt Marble vào tháng 11 năm 2025 như sản phẩm world model thương mại đầu tiên.[^54] Startup này ra khỏi chế độ ẩn với $230 triệu tài trợ chỉ hơn một năm trước khi ra mắt Marble.[^55]

Kiến Trúc Sản Phẩm

Marble tạo ra các môi trường 3D liên tục, có thể tải xuống từ các prompt văn bản, ảnh, video, bố cục 3D hoặc hình ảnh toàn cảnh.[^56] Không giống các đối thủ tạo thế giới ngay lập tức trong quá trình khám phá, Marble tạo ra các môi trường riêng biệt mà người dùng có thể chỉnh sửa và xuất.[^57]

Loại Đầu Vào	Đầu Ra
Prompt văn bản	Môi trường 3D
Ảnh	Môi trường 3D
Video	Môi trường 3D
Bố cục 3D	Môi trường 3D được AI nâng cao
Toàn cảnh	Môi trường 3D

Nền tảng cung cấp các công cụ chỉnh sửa AI-native và trình chỉnh sửa 3D hybrid cho phép chặn cấu trúc không gian trước khi AI điền các chi tiết trực quan.[^58] Các tệp xuất ở định dạng tương thích với các công cụ tiêu chuẩn ngành như Unreal Engine và Unity.[^59]

Mô Hình Định Giá

World Labs áp dụng cấu trúc freemium nhắm vào các chuyên gia sáng tạo:[^60]

Gói	Giá	Số Lần Tạo	Tính Năng
Free	$0	4/tháng	Tạo cơ bản
Standard	$20/tháng	12/tháng	Tính năng tiêu chuẩn
Pro	$35/tháng	25/tháng	Quyền thương mại
Max	$95/tháng	75/tháng	Tính năng cao cấp

Ứng Dụng Mục Tiêu

Các trường hợp sử dụng ban đầu tập trung vào gaming, hiệu ứng hình ảnh cho phim và thực tế ảo.[^61] Marble hỗ trợ kính VR Vision Pro và Quest 3, với mọi thế giới được tạo đều có thể xem trong VR.[^62]

Fei-Fei Li định vị Marble là "bước đầu tiên hướng tới việc tạo ra một world model thực sự thông minh về không gian."[^63] Ngoài các ứng dụng sáng tạo, công nghệ này cho phép huấn luyện robot thông qua các môi trường mô phỏng mà việc tạo trong thực tế vật lý sẽ tốn kém hoặc nguy hiểm.[^64]

NVIDIA Cosmos: World Models Quy Mô Công Nghiệp

NVIDIA ra mắt Cosmos tại CES 2025 như một nền tảng phát triển AI vật lý, đặc biệt nhắm vào xe tự hành và robot.[^65] Đến tháng 1 năm 2026, các world foundation models của Cosmos đã được tải xuống hơn 2 triệu lần.[^66]

Kiến Trúc Nền Tảng

Cosmos bao gồm các generative world foundation models, tokenizers tiên tiến, guardrails và pipeline xử lý video được tăng tốc.[^67] Các mô hình dự đoán và tạo các video nhận thức vật lý về trạng thái môi trường tương lai, cho phép tạo dữ liệu huấn luyện tổng hợp ở quy mô lớn.[^68]

Cấp Mô Hình	Tối Ưu Hóa	Trường Hợp Sử Dụng
Nano	Thời gian thực, triển khai edge[^69]	Suy luận trên thiết bị
Super	Baseline hiệu suất cao[^70]	Phát triển chung
Ultra	Chất lượng và độ trung thực tối đa[^71]	Chưng cất mô hình tùy chỉnh

Nền tảng được huấn luyện trên 9.000 nghìn tỷ tokens từ 20 triệu giờ dữ liệu thực tế bao gồm tương tác con người, môi trường, cài đặt công nghiệp, robot và kịch bản lái xe.[^72]

Áp Dụng Trong Ngành

Các công ty robot và ô tô hàng đầu đã áp dụng Cosmos để tạo dữ liệu tổng hợp:[^73]

Công Ty	Lĩnh Vực
1X	Robot hình người
Agility	Robot hai chân
Figure AI	Robot hình người
Waabi	Xe tải tự hành
XPENG	Xe điện
Uber	Xe tự hành chia sẻ chuyến

Các Loại Mô Hình Cosmos

Ba loại mô hình đáp ứng các nhu cầu phát triển AI vật lý khác nhau:[^74]

Cosmos-Predict: Mô phỏng và dự đoán trạng thái thế giới tương lai dưới dạng video **Co

[Nội dung bị cắt ngắn để dịch]

Cuộc Đua World Models 2026: LeCun, DeepMind và World Labs Đang Định Nghĩa Lại Con Đường Đến AGI Như Thế Nào

TL;DR

Trần LLM

Vấn Đề Ảo Giác

AMI Labs của Yann LeCun

Tài Trợ và Cấu Trúc

Tầm Nhìn Kỹ Thuật

Nền Tảng I-JEPA

Genie 3 của DeepMind

Khả Năng Kỹ Thuật

Kiến Trúc Auto-Regressive

Hàm Ý AGI

Hạn Chế Hiện Tại

World Labs của Fei-Fei Li và Marble

Kiến Trúc Sản Phẩm

Mô Hình Định Giá

Ứng Dụng Mục Tiêu

NVIDIA Cosmos: World Models Quy Mô Công Nghiệp

Kiến Trúc Nền Tảng

Áp Dụng Trong Ngành

Các Loại Mô Hình Cosmos

You Might Also Like

AIOps cho Trung tâm Dữ liệu: Sử dụng LLM để Quản lý Hạ tầng ...

Cân bằng tải cho AI Inference: Phân phối yêu cầu trên hơn 10...

Điện toán phân tách cho AI: Kiến trúc hạ tầng có thể kết hợp

Yêu cầu báo giá_

Đã Nhận Yêu cầu_