การแข่งขัน World Models ปี 2026: LeCun, DeepMind และ World Labs กำลังนิยามเส้นทางสู่ AGI ใหม่อย่างไร
มูลค่าประเมินก่อนเปิดตัวสามพันล้านดอลลาร์สำหรับสตาร์ทอัพที่ยังไม่ได้เปิดตัวผลิตภัณฑ์ใดเลย[^1] AMI Labs ของ Yann LeCun เป็นการเดิมพันครั้งใหญ่ที่สุดบนทฤษฎีที่แบ่งแยกนักวิจัย AI มาหลายปี: Large Language Models จะไม่มีวันบรรลุปัญญาทั่วไป และเส้นทางข้างหน้าต้องผ่าน World Models แทน
สรุปย่อ
แนวคิด World Models ระเบิดเข้าสู่การพัฒนา AI กระแสหลักในช่วงปลายปี 2025 และต้นปี 2026 Yann LeCun ลาออกจาก Meta หลังจากทำงานมา 12 ปี เพื่อก่อตั้ง AMI Labs โดยระดมทุน 500 ล้านยูโรที่มูลค่าประเมิน 3 พันล้านยูโร เพื่อสร้างระบบ AI ที่เข้าใจฟิสิกส์แทนที่จะแค่ทำนายข้อความ[^2] Google DeepMind เปิดตัว Genie 3 ซึ่งเป็น World Model แบบโต้ตอบเรียลไทม์ตัวแรกที่สามารถสร้างสภาพแวดล้อม 3D ที่คงอยู่ถาวรได้ที่ 24 fps[^3] World Labs ของ Fei-Fei Li เปิดตัว Marble ทำให้การสร้าง World Model พร้อมใช้งานเชิงพาณิชย์ด้วยราคาตั้งแต่ฟรีถึง $95/เดือน[^4] แพลตฟอร์ม Cosmos ของ NVIDIA มียอดดาวน์โหลดถึง 2 ล้านครั้ง ขณะที่นักพัฒนาหุ่นยนต์และยานยนต์ไร้คนขับหันมาใช้ข้อมูลฝึกสอนสังเคราะห์ที่ตระหนักรู้ฟิสิกส์[^5] สำหรับองค์กรที่กำลังสร้างโครงสร้างพื้นฐาน AI World Models ส่งสัญญาณการเปลี่ยนแปลงการประมวลผลจากการประมวลผลข้อความไปสู่การสร้างวิดีโอ การจำลองฟิสิกส์ และการให้เหตุผลแบบมีร่างกาย
ข้อจำกัดของ LLM
Large Language Models บรรลุความสามารถอันน่าทึ่งผ่านการขยายขนาด GPT-4, Claude และ Gemini แสดงให้เห็นการให้เหตุผลที่ซับซ้อน การสร้างโค้ด และการแก้ปัญหาหลายขั้นตอน[^6] แต่ข้อจำกัดพื้นฐานยังคงอยู่: โมเดลเหล่านี้เรียนรู้รูปแบบทางสถิติจากข้อความ ไม่ใช่ความเข้าใจความเป็นจริงทางกายภาพ[^7]
งานวิจัยที่ตีพิมพ์ในปี 2024 พิสูจน์ทางคณิตศาสตร์ว่า LLMs ไม่สามารถเรียนรู้ฟังก์ชันที่คำนวณได้ทั้งหมด และจึงจะเกิดภาพหลอนอย่างหลีกเลี่ยงไม่ได้เมื่อใช้เป็นตัวแก้ปัญหาทั่วไป[^8] สาเหตุรากฐานอยู่ที่วิธีการทำงานของ LLMs: การทำนายว่าโทเค็นใดจะตามหลังโทเค็นก่อนหน้าตามรูปแบบที่เรียนรู้จากข้อมูลฝึกสอน โดยไม่มีการยึดโยงกับความเป็นจริงทางกายภาพ[^9]
ปัญหาภาพหลอน
LLMs สร้างข้อความที่ฟังดูน่าเชื่อถือซึ่งอาจอธิบายสถานการณ์ที่เป็นไปไม่ได้ทางกายภาพ เหตุการณ์ที่ไม่ถูกต้องทางประวัติศาสตร์ หรือการให้เหตุผลที่ไม่สอดคล้องกันทางตรรกะ[^10] ไม่เหมือนมนุษย์ที่เรียนรู้เกี่ยวกับแรงโน้มถ่วงผ่านประสบการณ์ทางร่างกาย LLMs เรียนรู้เพียงว่าคำว่า "แรงโน้มถ่วง" มักจะปรากฏใกล้กับคำอื่นๆ บางคำ[^11]
| ข้อจำกัด | สาเหตุ | ผลที่ตามมา |
|---|---|---|
| ภาพหลอนเชิงข้อเท็จจริง | ไม่มีฐานความรู้ที่ยืนยันได้[^12] | สร้างข้อเท็จจริงปลอมอย่างมั่นใจ |
| ความล้มเหลวในการให้เหตุผลทางกายภาพ | ไม่มีประสบการณ์ทางร่างกาย[^13] | อธิบายฟิสิกส์ที่เป็นไปไม่ได้ |
| ความสับสนเชิงสาเหตุ | การจับคู่รูปแบบ ไม่ใช่ความเข้าใจ[^14] | ปฏิบัติต่อความสัมพันธ์เหมือนเป็นสาเหตุ |
| ความไม่สอดคล้องทางเวลา | การทำนายโทเค็นตามลำดับ[^15] | เหตุการณ์ในลำดับที่เป็นไปไม่ได้ |
Yann LeCun โต้แย้งต่อสาธารณะมาหลายปีว่าการขยาย LLMs จะไม่ผลิตปัญญาทั่วไป[^16] "LLMs มีข้อจำกัดเกินไป" LeCun กล่าวในการนำเสนอ NVIDIA GTC ของเขา "การขยายมันจะไม่ทำให้เราไปถึง AGI ได้"[^17]
ทางเลือกที่เขาเสนอ: World Models ที่เรียนรู้การแสดงแทนความเป็นจริงทางกายภาพ ทำให้สามารถทำนาย วางแผน และให้เหตุผลเกี่ยวกับเหตุและผลได้[^18]
AMI Labs ของ Yann LeCun
LeCun ออกจาก Meta ในเดือนธันวาคม 2025 หลังจากทำงานมา 12 ปี โดยห้าปีเป็นผู้อำนวยการก่อตั้ง Facebook AI Research (FAIR) และเจ็ดปีเป็นหัวหน้านักวิทยาศาสตร์ AI[^19] กิจการใหม่ของเขา Advanced Machine Intelligence (AMI) Labs เป็นความพยายามที่ทะเยอทะยานที่สุดในการนำงานวิจัย World Model ไปใช้ในเชิงพาณิชย์[^20]
การระดมทุนและโครงสร้าง
AMI Labs เข้าสู่การเจรจาระดมทุนโดยแสวงหา 500 ล้านยูโรที่มูลค่าประเมิน 3 พันล้านยูโร ก่อนเปิดตัวผลิตภัณฑ์ใดๆ[^21] เป้าหมายนี้จะเป็นหนึ่งในการระดมทุนก่อนเปิดตัวที่ใหญ่ที่สุดในประวัติศาสตร์ AI สะท้อนความมั่นใจของนักลงทุนในวิสัยทัศน์และผลงานของ LeCun[^22]
| ตำแหน่ง | บุคคล | ภูมิหลัง |
|---|---|---|
| ประธานบริหาร | Yann LeCun | ผู้ได้รับรางวัล Turing, ผู้ก่อตั้ง Meta FAIR[^23] |
| CEO | Alex LeBrun | อดีต CEO ของ Nabla (AI การแพทย์)[^24] |
บริษัทวางแผนจัดตั้งสำนักงานใหญ่ในปารีสภายในเดือนมกราคม 2026[^25] แม้ว่า Meta จะไม่ลงทุนโดยตรงใน AMI Labs แต่ทั้งสองบริษัทวางแผนสร้างความร่วมมือที่ช่วยให้ LeCun ยังคงเชื่อมต่อกับงานวิจัย[^26]
วิสัยทัศน์ทางเทคนิค
AMI Labs มุ่งสร้างระบบ AI ที่เข้าใจฟิสิกส์ รักษาหน่วยความจำถาวร และวางแผนการกระทำที่ซับซ้อน แทนที่จะเพียงทำนายลำดับข้อความ[^27] LeCun อธิบาย World Model ว่าเป็น "แบบจำลองทางจิตของคุณว่าโลกทำงานอย่างไร"[^28]
"คุณสามารถจินตนาการลำดับการกระทำที่คุณอาจทำ และ World Model ของคุณจะช่วยให้คุณทำนายได้ว่าผลของลำดับการกระทำจะเป็นอย่างไรต่อโลก" LeCun อธิบาย[^29]
แนวทางนี้แตกต่างโดยพื้นฐานจาก LLMs ในขณะที่โมเดลแบบ GPT ทำนายคำถัดไป World Models ทำนายสถานะถัดไปของสภาพแวดล้อมทางกายภาพเมื่อมีการกระทำภายในมัน[^30] สิ่งนี้ทำให้สามารถ:
- การวางแผน: จำลองผลลัพธ์ก่อนลงมือ
- การให้เหตุผลเกี่ยวกับฟิสิกส์: เข้าใจว่าวัตถุมีมวล โมเมนตัม และความสัมพันธ์เชิงพื้นที่
- ความเข้าใจเหตุ-ผล: เรียนรู้ว่าการกระทำผลิตผลที่ตามมาที่คาดการณ์ได้
- หน่วยความจำถาวร: รักษาสถานะโลกที่สอดคล้องกันตลอดเวลา
รากฐาน I-JEPA
AMI Labs สร้างบนงานวิจัย I-JEPA (Image Joint Embedding Predictive Architecture) ของ LeCun ที่ Meta[^31] I-JEPA เรียนรู้โดยการทำนายการแสดงแทนของบริเวณภาพจากบริเวณอื่น พัฒนาความเข้าใจเชิงนามธรรมของฉากภาพโดยไม่ต้องการป้ายกำกับที่ชัดเจน[^32]
แนวทางนี้คล้ายกับวิธีที่มนุษย์พัฒนาฟิสิกส์เชิงสัญชาตญาณผ่านการสังเกต เด็กที่ดูวัตถุตกพัฒนาแบบจำลองภายในของแรงโน้มถ่วงโดยไม่มีใครอธิบายกฎของนิวตัน[^33] I-JEPA และสถาปัตยกรรมที่ตามมามุ่งเลียนแบบกระบวนการเรียนรู้นี้ในระบบประดิษฐ์[^34]
Genie 3 ของ DeepMind
Google DeepMind เปิดตัว Genie 3 ในเดือนสิงหาคม 2025 เป็นตัวแทนของ World Model แบบโต้ตอบเรียลไทม์อเนกประสงค์ตัวแรก[^35] ไม่เหมือนระบบก่อนหน้าที่สร้างสภาพแวดล้อมแบบคงที่หรือต้องใช้เวลาประมวลผลมาก Genie 3 ผลิตโลก 3D ที่นำทางได้ที่ 24 เฟรมต่อวินาที[^36]
ความสามารถทางเทคนิค
Genie 3 สร้างสภาพแวดล้อมแบบไดนามิกจากพรอมต์ข้อความ รักษาความสอดคล้องทางภาพได้หลายนาทีของการโต้ตอบแบบเรียลไทม์[^37] ระบบไม่พึ่งพาเอนจินฟิสิกส์ที่เข้ารหัสแบบตายตัว แต่โมเดลสอนตัวเองว่าโลกทำงานอย่างไรผ่านการฝึกสอน[^38]
| ความสามารถ | รายละเอียด |
|---|---|
| อัตราเฟรม | 24 fps เรียลไทม์[^39] |
| ความละเอียด | 720p[^40] |
| ระยะเวลาความสอดคล้อง | หลายนาที[^41] |
| ขอบเขตหน่วยความจำ | ย้อนกลับได้ถึง 1 นาที[^42] |
| ฟิสิกส์ | เรียนรู้เอง ไม่ได้เข้ารหัสตายตัว[^43] |
"Genie 3 เป็น World Model แบบโต้ตอบเรียลไทม์อเนกประสงค์ตัวแรก" Shlomi Fruchter ผู้อำนวยการวิจัยของ DeepMind กล่าว "มันเกินกว่า World Models แคบๆ ที่มีอยู่ก่อนหน้า มันไม่จำเพาะกับสภาพแวดล้อมใดโดยเฉพาะ"[^44]
สถาปัตยกรรม Auto-Regressive
โมเดลสร้างทีละเฟรม มองย้อนกลับไปที่เนื้อหาที่สร้างก่อนหน้าเพื่อกำหนดว่าจะเกิดอะไรต่อไป[^45] การบรรลุประสิทธิภาพเรียลไทม์ต้องคำนวณกระบวนการ auto-regressive นี้หลายครั้งต่อวินาทีในขณะที่รักษาความสอดคล้องกับหน่วยความจำภาพที่อาจเก่าถึงหนึ่งนาที[^46]
ความสอดคล้องทางกายภาพเกิดจากการฝึกสอนมากกว่าการเขียนโปรแกรมอย่างชัดเจน[^47] สภาพแวดล้อมของ Genie 3 รักษาฟิสิกส์ที่เสถียรเพราะโมเดลเรียนรู้ความสม่ำเสมอทางกายภาพจากข้อมูลฝึกสอน ไม่ใช่เพราะนักวิจัยเข้ารหัสแรงโน้มถ่วงหรือการตรวจจับการชนด้วยมือ[^48]
นัยยะต่อ AGI
DeepMind วาง Genie 3 เป็นบันไดสู่ปัญญาประดิษฐ์ทั่วไป[^49] ห้องปฏิบัติการคาดว่าเทคโนโลยี World Model จะมีบทบาทสำคัญเมื่อตัวแทน AI โต้ตอบกับสภาพแวดล้อมทางกายภาพมากขึ้น[^50]
"Genie 3 เป็นก้าวกระโดดครั้งใหญ่สู่ปัญญาประดิษฐ์ทั่วไปโดยทำให้ตัวแทน AI สามารถ 'ประสบ' โต้ตอบ และเรียนรู้จากโลกจำลองที่อุดมสมบูรณ์โดยไม่ต้องสร้างเนื้อหาด้วยมือ" ตามประกาศของ DeepMind[^51]
ข้อจำกัดปัจจุบัน
Genie 3 ยังคงอยู่ในการตรวจสอบวิจัยแบบจำกัดมากกว่าการเปิดตัวสาธารณะ[^52] ข้อจำกัดที่ทราบ ได้แก่:
- พื้นที่การกระทำที่จำกัดสำหรับการโต้ตอบของตัวแทน
- การพังทลายของความสอดคล้องหลังจากหลายนาที
- ความไม่แม่นยำทางภูมิศาสตร์โลกจริงที่ไม่สมบูรณ์
- ความท้าทายในการจำลองการโต้ตอบหลายตัวแทนที่ซับซ้อน
DeepMind ยังคงขยายการเข้าถึงการทดสอบไปยังนักวิชาการและผู้สร้างที่ได้รับเลือก[^53]
World Labs ของ Fei-Fei Li และ Marble
World Labs ก่อตั้งโดย Fei-Fei Li ผู้บุกเบิก AI เปิดตัว Marble ในเดือนพฤศจิกายน 2025 เป็นผลิตภัณฑ์ World Model ที่พร้อมใช้งานเชิงพาณิชย์ตัวแรก[^54] สตาร์ทอัพนี้โผล่จากโหมดลับด้วยเงินทุน 230 ล้านดอลลาร์เพียงกว่าหนึ่งปีก่อนการเปิดตัว Marble[^55]
สถาปัตยกรรมผลิตภัณฑ์
Marble สร้างสภาพแวดล้อม 3D ที่คงอยู่ถาวรและดาวน์โหลดได้จากพรอมต์ข้อความ ภาพถ่าย วิดีโอ เลย์เอาต์ 3D หรือภาพพาโนรามา[^56] ไม่เหมือนคู่แข่งที่สร้างโลกแบบทันทีระหว่างการสำรวจ Marble ผลิตสภาพแวดล้อมที่แยกต่างหากซึ่งผู้ใช้สามารถแก้ไขและส่งออกได้[^57]
| ประเภทอินพุต | เอาต์พุต |
|---|---|
| พรอมต์ข้อความ | สภาพแวดล้อม 3D |
| ภาพถ่าย | สภาพแวดล้อม 3D |
| วิดีโอ | สภาพแวดล้อม 3D |
| เลย์เอาต์ 3D | สภาพแวดล้อม 3D ที่ปรับปรุงด้วย AI |
| พาโนรามา | สภาพแวดล้อม 3D |
แพลตฟอร์มเสนอเครื่องมือแก้ไขแบบ AI-native และตัวแก้ไข 3D แบบไฮบริดที่ช่วยให้บล็อกโครงสร้างเชิงพื้นที่ก่อนที่ AI จะเติมรายละเอียดภาพ[^58] ไฟล์ส่งออกในรูปแบบที่เข้ากันได้กับเครื่องมือมาตรฐานอุตสาหกรรมเช่น Unreal Engine และ Unity[^59]
รูปแบบการกำหนดราคา
World Labs นำโครงสร้างฟรีเมียมที่กำหนดเป้าหมายไปที่มืออาชีพสร้างสรรค์:[^60]
| ระดับ | ราคา | การสร้าง | คุณสมบัติ |
|---|---|---|---|
| Free | $0 | 4/เดือน | การสร้างพื้นฐาน |
| Standard | $20/เดือน | 12/เดือน | คุณสมบัติมาตรฐาน |
| Pro | $35/เดือน | 25/เดือน | สิทธิ์เชิงพาณิชย์ |
| Max | $95/เดือน | 75/เดือน | คุณสมบัติพรีเมียม |
แอปพลิเคชันเป้าหมาย
กรณีการใช้งานเริ่มต้นเน้นที่เกม เอฟเฟกต์ภาพสำหรับภาพยนตร์ และความเป็นจริงเสมือน[^61] Marble รองรับชุดหูฟัง VR Vision Pro และ Quest 3 โดยทุกโลกที่สร้างขึ้นสามารถดูใน VR ได้[^62]
Fei-Fei Li วาง Marble เป็น "ก้าวแรกสู่การสร้าง World Model ที่มีความฉลาดเชิงพื้นที่อย่างแท้จริง"[^63] นอกเหนือจากแอปพลิเคชันสร้างสรรค์ เทคโนโลยีนี้ช่วยให้การฝึกหุ่นยนต์ผ่านสภาพแวดล้อมจำลองที่จะมีราคาแพงหรืออันตรายในการสร้างในความเป็นจริงทางกายภาพ[^64]
NVIDIA Cosmos: World Models ระดับอุตสาหกรรม
NVIDIA เปิดตัว Cosmos ที่ CES 2025 เป็นแพลตฟอร์มสำหรับการพัฒนา AI ทางกายภาพ โดยกำหนดเป้าหมายเฉพาะยานยนต์ไร้คนขับและหุ่นยนต์[^65] ภายในเดือนมกราคม 2026 World Foundation Models ของ Cosmos มียอดดาวน์โหลดกว่า 2 ล้านครั้ง[^66]
สถาปัตยกรรมแพลตฟอร์ม
Cosmos ประกอบด้วย Generative World Foundation Models, tokenizers ขั้นสูง, guardrails และไปป์ไลน์ประมวลผลวิดีโอแบบเร่งความเร็ว[^67] โมเดลทำนายและสร้างวิดีโอที่ตระหนักรู้ฟิสิกส์ของสถานะสภาพแวดล้อมในอนาคต ทำให้สามารถสร้างข้อมูลฝึกสอนสังเคราะห์ในระดับขนาดใหญ่[^68]
| ระดับโมเดล | การปรับแต่ง | กรณีการใช้งาน |
|---|---|---|
| Nano | เรียลไทม์ การใช้งานที่ edge[^69] | การอนุมานบนอุปกรณ์ |
| Super | baseline ประสิทธิภาพสูง[^70] | การพัฒนาทั่วไป |
| Ultra | คุณภาพและความเที่ยงตรงสูงสุด[^71] | การกลั่นโมเดลแบบกำหนดเอง |
แพลตฟอร์มฝึกบน 9,000 ล้านล้านโทเค็นจากข้อมูลโลกจริง 20 ล้านชั่วโมงที่ครอบคลุมการโต้ตอบของมนุษย์ สภาพแวดล้อม การตั้งค่าอุตสาหกรรม หุ่นยนต์ และสถานการณ์การขับขี่[^72]
การนำไปใช้ในอุตสาหกรรม
บริษัทหุ่นยนต์และยานยนต์ชั้นนำนำ Cosmos มาใช้สำหรับการสร้างข้อมูลสังเคราะห์:[^73]
| บริษัท | โดเมน |
|---|---|
| 1X | หุ่นยนต์ฮิวแมนนอยด์ |
| Agility | หุ่นยนต์สองขา |
| Figure AI | หุ่นยนต์ฮิวแมนนอยด์ |
| Waabi | รถบรรทุกไร้คนขับ |
| XPENG | ยานยนต์ไฟฟ้า |
| Uber | ไร้คนขับสำหรับบริการร่วมเดินทาง |
ประเภทโมเดล Cosmos
โมเดลสามประเภทตอบสนองความต้องการการพัฒนา AI ทางกายภาพที่แตกต่างกัน:[^74]
Cosmos-Predict: จำลองและทำนายสถานะโลกในอนาคตในรูปแบบวิดีโอ **Co
[เนื้อหาถูกตัดสำหรับการแปล]