Cuộc Đua World Models 2026: LeCun, DeepMind và World Labs Đang Định Nghĩa Lại Con Đường Đến AGI Như Thế Nào
Ba tỷ đô la định giá trước khi ra mắt cho một startup chưa phát hành bất kỳ sản phẩm nào.[^1] AMI Labs của Yann LeCun đại diện cho canh bạc lớn nhất từ trước đến nay vào một luận điểm đã chia rẽ các nhà nghiên cứu AI trong nhiều năm: các mô hình ngôn ngữ lớn sẽ không bao giờ đạt được trí tuệ tổng quát, và con đường phía trước phải đi qua world models.
TL;DR
Mô hình world models bùng nổ vào dòng chính phát triển AI vào cuối năm 2025 và đầu năm 2026. Yann LeCun rời Meta sau 12 năm để thành lập AMI Labs, huy động €500 triệu với định giá €3 tỷ để xây dựng các hệ thống AI hiểu vật lý thay vì chỉ dự đoán văn bản.[^2] Google DeepMind phát hành Genie 3, world model tương tác thời gian thực đầu tiên có khả năng tạo môi trường 3D liên tục ở 24 fps.[^3] World Labs của Fei-Fei Li ra mắt Marble, đưa việc tạo world model vào thương mại với giá từ miễn phí đến $95/tháng.[^4] Nền tảng Cosmos của NVIDIA đã có 2 triệu lượt tải xuống khi các nhà phát triển robot và xe tự hành đón nhận dữ liệu huấn luyện tổng hợp nhận thức vật lý.[^5] Đối với các tổ chức xây dựng hạ tầng AI, world models báo hiệu sự chuyển đổi tính toán từ xử lý văn bản sang tạo video, mô phỏng vật lý và suy luận thể hiện.
Trần LLM
Các mô hình ngôn ngữ lớn đã đạt được khả năng đáng chú ý thông qua quy mô. GPT-4, Claude và Gemini thể hiện khả năng suy luận tinh vi, tạo mã và giải quyết vấn đề nhiều bước.[^6] Tuy nhiên, một hạn chế cơ bản vẫn tồn tại: các mô hình này học các mẫu thống kê từ văn bản, không phải sự hiểu biết về thực tế vật lý.[^7]
Nghiên cứu công bố năm 2024 đã chứng minh toán học rằng LLMs không thể học tất cả các hàm tính toán được và do đó chắc chắn sẽ ảo giác khi được sử dụng như bộ giải quyết vấn đề tổng quát.[^8] Nguyên nhân gốc rễ nằm ở cách LLMs hoạt động: dự đoán token nào theo sau các token trước dựa trên các mẫu học từ dữ liệu huấn luyện, không có bất kỳ sự neo đậu nào trong thực tế vật lý.[^9]
Vấn Đề Ảo Giác
LLMs tạo ra văn bản nghe có vẻ hợp lý có thể mô tả các kịch bản không thể về mặt vật lý, các sự kiện sai lịch sử, hoặc suy luận không nhất quán về logic.[^10] Không giống con người học về trọng lực thông qua trải nghiệm thể hiện, LLMs chỉ học rằng từ "trọng lực" có xu hướng xuất hiện gần một số từ khác nhất định.[^11]
| Hạn Chế | Nguyên Nhân | Hậu Quả |
|---|---|---|
| Ảo giác thực tế | Không có cơ sở kiến thức được xác minh[^12] | Bịa đặt sự kiện một cách tự tin |
| Thất bại suy luận vật lý | Không có trải nghiệm thể hiện[^13] | Mô tả vật lý không thể |
| Nhầm lẫn nhân quả | Khớp mẫu, không phải hiểu biết[^14] | Tương quan được coi là nhân quả |
| Không nhất quán thời gian | Dự đoán token tuần tự[^15] | Sự kiện theo thứ tự không thể |
Yann LeCun đã tranh luận công khai trong nhiều năm rằng việc mở rộng quy mô LLMs sẽ không tạo ra trí tuệ tổng quát.[^16] "LLMs quá hạn chế," LeCun tuyên bố trong bài thuyết trình NVIDIA GTC của mình. "Việc mở rộng quy mô chúng sẽ không cho phép chúng ta đạt được AGI."[^17]
Giải pháp thay thế ông đề xuất: world models học các biểu diễn của thực tế vật lý, cho phép dự đoán, lập kế hoạch và suy luận về nguyên nhân và kết quả.[^18]
AMI Labs của Yann LeCun
LeCun rời Meta vào tháng 12 năm 2025 sau 12 năm, năm năm làm giám đốc sáng lập Facebook AI Research (FAIR) và bảy năm làm nhà khoa học AI trưởng.[^19] Dự án mới của ông, Advanced Machine Intelligence (AMI) Labs, đại diện cho nỗ lực tham vọng nhất từ trước đến nay để thương mại hóa nghiên cứu world model.[^20]
Tài Trợ và Cấu Trúc
AMI Labs bắt đầu các cuộc thảo luận huy động vốn với mục tiêu €500 triệu ở định giá €3 tỷ trước khi ra mắt bất kỳ sản phẩm nào.[^21] Mục tiêu này sẽ đại diện cho một trong những đợt huy động trước khi ra mắt lớn nhất trong lịch sử AI, phản ánh sự tin tưởng của nhà đầu tư vào tầm nhìn và thành tích của LeCun.[^22]
| Vai Trò | Người | Nền Tảng |
|---|---|---|
| Chủ tịch Điều hành | Yann LeCun | Người đoạt giải Turing, người sáng lập Meta FAIR[^23] |
| CEO | Alex LeBrun | Cựu CEO của Nabla (AI y tế)[^24] |
Công ty dự định thành lập trụ sở tại Paris vào tháng 1 năm 2026.[^25] Mặc dù Meta sẽ không đầu tư trực tiếp vào AMI Labs, hai công ty dự định thiết lập quan hệ đối tác cho phép LeCun tiếp tục các kết nối nghiên cứu.[^26]
Tầm Nhìn Kỹ Thuật
AMI Labs nhằm tạo ra các hệ thống AI hiểu vật lý, duy trì bộ nhớ liên tục và lập kế hoạch các hành động phức tạp thay vì chỉ dự đoán chuỗi văn bản.[^27] LeCun mô tả world model là "mô hình tinh thần của bạn về cách thế giới hoạt động."[^28]
"Bạn có thể tưởng tượng một chuỗi hành động bạn có thể thực hiện, và world model của bạn sẽ cho phép bạn dự đoán tác động của chuỗi hành động đó đối với thế giới," LeCun giải thích.[^29]
Cách tiếp cận này khác biệt cơ bản với LLMs. Trong khi các mô hình kiểu GPT dự đoán từ tiếp theo, world models dự đoán trạng thái tiếp theo của môi trường vật lý dựa trên các hành động được thực hiện trong đó.[^30] Điều này cho phép:
- Lập kế hoạch: Mô phỏng kết quả trước khi hành động
- Suy luận về vật lý: Hiểu rằng các vật thể có khối lượng, động lượng và mối quan hệ không gian
- Hiểu nhân quả: Học rằng các hành động tạo ra hậu quả có thể dự đoán
- Bộ nhớ liên tục: Duy trì trạng thái thế giới nhất quán theo thời gian
Nền Tảng I-JEPA
AMI Labs xây dựng trên nghiên cứu I-JEPA (Image Joint Embedding Predictive Architecture) của LeCun tại Meta.[^31] I-JEPA học bằng cách dự đoán các biểu diễn của các vùng hình ảnh từ các vùng khác, phát triển sự hiểu biết trừu tượng về các cảnh trực quan mà không cần nhãn rõ ràng.[^32]
Cách tiếp cận này tương tự cách con người phát triển vật lý trực giác thông qua quan sát. Một đứa trẻ xem các vật thể rơi phát triển mô hình nội tại về trọng lực mà không ai giải thích định luật Newton.[^33] I-JEPA và các kiến trúc kế thừa nhằm tái tạo quá trình học tập này trong các hệ thống nhân tạo.[^34]
Genie 3 của DeepMind
Google DeepMind phát hành Genie 3 vào tháng 8 năm 2025, đại diện cho world model tương tác thời gian thực đa mục đích đầu tiên.[^35] Không giống các hệ thống trước đó tạo môi trường tĩnh hoặc yêu cầu thời gian xử lý đáng kể, Genie 3 tạo ra các thế giới 3D có thể điều hướng ở 24 khung hình mỗi giây.[^36]
Khả Năng Kỹ Thuật
Genie 3 tạo môi trường động từ các prompt văn bản, duy trì tính nhất quán trực quan trong vài phút tương tác thời gian thực.[^37] Hệ thống không dựa vào các engine vật lý mã hóa cứng; thay vào đó, mô hình tự học cách thế giới hoạt động thông qua huấn luyện.[^38]
| Khả Năng | Thông Số |
|---|---|
| Tốc độ khung hình | 24 fps thời gian thực[^39] |
| Độ phân giải | 720p[^40] |
| Thời lượng nhất quán | Vài phút[^41] |
| Phạm vi bộ nhớ | Lên đến 1 phút nhìn lại[^42] |
| Vật lý | Tự học, không mã hóa cứng[^43] |
"Genie 3 là world model tương tác thời gian thực đa mục đích đầu tiên," Shlomi Fruchter, giám đốc nghiên cứu tại DeepMind tuyên bố. "Nó vượt ra ngoài các world models hẹp đã tồn tại trước đây. Nó không cụ thể cho bất kỳ môi trường đặc biệt nào."[^44]
Kiến Trúc Auto-Regressive
Mô hình tạo từng khung hình một, nhìn lại nội dung đã tạo trước đó để xác định điều gì xảy ra tiếp theo.[^45] Đạt được hiệu suất thời gian thực đòi hỏi tính toán quá trình auto-regressive này nhiều lần mỗi giây trong khi duy trì tính nhất quán với bộ nhớ trực quan có thể đã một phút tuổi.[^46]
Tính nhất quán vật lý xuất hiện từ huấn luyện thay vì lập trình rõ ràng.[^47] Môi trường Genie 3 duy trì vật lý ổn định vì mô hình học các quy luật vật lý từ dữ liệu huấn luyện, không phải vì các nhà nghiên cứu mã hóa thủ công trọng lực hoặc phát hiện va chạm.[^48]
Hàm Ý AGI
DeepMind định vị Genie 3 như một bước đệm hướng tới trí tuệ nhân tạo tổng quát.[^49] Phòng thí nghiệm kỳ vọng công nghệ world model sẽ đóng vai trò quan trọng khi các agent AI tương tác nhiều hơn với môi trường vật lý.[^50]
"Genie 3 đánh dấu bước nhảy vọt lớn hướng tới Trí tuệ Nhân tạo Tổng quát bằng cách cho phép các agent AI 'trải nghiệm', tương tác và học từ các thế giới mô phỏng phong phú mà không cần tạo nội dung thủ công," theo thông báo của DeepMind.[^51]
Hạn Chế Hiện Tại
Genie 3 vẫn ở giai đoạn xem trước nghiên cứu giới hạn thay vì phát hành công khai.[^52] Các ràng buộc đã biết bao gồm:
- Không gian hành động hạn chế cho tương tác agent
- Sự cố nhất quán sau vài phút
- Độ chính xác địa lý thực tế không hoàn chỉnh
- Thách thức trong mô hình hóa tương tác đa agent phức tạp
DeepMind tiếp tục mở rộng quyền truy cập thử nghiệm cho các học giả và nhà sáng tạo được chọn.[^53]
World Labs của Fei-Fei Li và Marble
World Labs, được thành lập bởi nhà tiên phong AI Fei-Fei Li, ra mắt Marble vào tháng 11 năm 2025 như sản phẩm world model thương mại đầu tiên.[^54] Startup này ra khỏi chế độ ẩn với $230 triệu tài trợ chỉ hơn một năm trước khi ra mắt Marble.[^55]
Kiến Trúc Sản Phẩm
Marble tạo ra các môi trường 3D liên tục, có thể tải xuống từ các prompt văn bản, ảnh, video, bố cục 3D hoặc hình ảnh toàn cảnh.[^56] Không giống các đối thủ tạo thế giới ngay lập tức trong quá trình khám phá, Marble tạo ra các môi trường riêng biệt mà người dùng có thể chỉnh sửa và xuất.[^57]
| Loại Đầu Vào | Đầu Ra |
|---|---|
| Prompt văn bản | Môi trường 3D |
| Ảnh | Môi trường 3D |
| Video | Môi trường 3D |
| Bố cục 3D | Môi trường 3D được AI nâng cao |
| Toàn cảnh | Môi trường 3D |
Nền tảng cung cấp các công cụ chỉnh sửa AI-native và trình chỉnh sửa 3D hybrid cho phép chặn cấu trúc không gian trước khi AI điền các chi tiết trực quan.[^58] Các tệp xuất ở định dạng tương thích với các công cụ tiêu chuẩn ngành như Unreal Engine và Unity.[^59]
Mô Hình Định Giá
World Labs áp dụng cấu trúc freemium nhắm vào các chuyên gia sáng tạo:[^60]
| Gói | Giá | Số Lần Tạo | Tính Năng |
|---|---|---|---|
| Free | $0 | 4/tháng | Tạo cơ bản |
| Standard | $20/tháng | 12/tháng | Tính năng tiêu chuẩn |
| Pro | $35/tháng | 25/tháng | Quyền thương mại |
| Max | $95/tháng | 75/tháng | Tính năng cao cấp |
Ứng Dụng Mục Tiêu
Các trường hợp sử dụng ban đầu tập trung vào gaming, hiệu ứng hình ảnh cho phim và thực tế ảo.[^61] Marble hỗ trợ kính VR Vision Pro và Quest 3, với mọi thế giới được tạo đều có thể xem trong VR.[^62]
Fei-Fei Li định vị Marble là "bước đầu tiên hướng tới việc tạo ra một world model thực sự thông minh về không gian."[^63] Ngoài các ứng dụng sáng tạo, công nghệ này cho phép huấn luyện robot thông qua các môi trường mô phỏng mà việc tạo trong thực tế vật lý sẽ tốn kém hoặc nguy hiểm.[^64]
NVIDIA Cosmos: World Models Quy Mô Công Nghiệp
NVIDIA ra mắt Cosmos tại CES 2025 như một nền tảng phát triển AI vật lý, đặc biệt nhắm vào xe tự hành và robot.[^65] Đến tháng 1 năm 2026, các world foundation models của Cosmos đã được tải xuống hơn 2 triệu lần.[^66]
Kiến Trúc Nền Tảng
Cosmos bao gồm các generative world foundation models, tokenizers tiên tiến, guardrails và pipeline xử lý video được tăng tốc.[^67] Các mô hình dự đoán và tạo các video nhận thức vật lý về trạng thái môi trường tương lai, cho phép tạo dữ liệu huấn luyện tổng hợp ở quy mô lớn.[^68]
| Cấp Mô Hình | Tối Ưu Hóa | Trường Hợp Sử Dụng |
|---|---|---|
| Nano | Thời gian thực, triển khai edge[^69] | Suy luận trên thiết bị |
| Super | Baseline hiệu suất cao[^70] | Phát triển chung |
| Ultra | Chất lượng và độ trung thực tối đa[^71] | Chưng cất mô hình tùy chỉnh |
Nền tảng được huấn luyện trên 9.000 nghìn tỷ tokens từ 20 triệu giờ dữ liệu thực tế bao gồm tương tác con người, môi trường, cài đặt công nghiệp, robot và kịch bản lái xe.[^72]
Áp Dụng Trong Ngành
Các công ty robot và ô tô hàng đầu đã áp dụng Cosmos để tạo dữ liệu tổng hợp:[^73]
| Công Ty | Lĩnh Vực |
|---|---|
| 1X | Robot hình người |
| Agility | Robot hai chân |
| Figure AI | Robot hình người |
| Waabi | Xe tải tự hành |
| XPENG | Xe điện |
| Uber | Xe tự hành chia sẻ chuyến |
Các Loại Mô Hình Cosmos
Ba loại mô hình đáp ứng các nhu cầu phát triển AI vật lý khác nhau:[^74]
Cosmos-Predict: Mô phỏng và dự đoán trạng thái thế giới tương lai dưới dạng video **Co
[Nội dung bị cắt ngắn để dịch]