2026 월드 모델 경쟁: 르쿤, 딥마인드, 월드 랩스가 재정의하는 AGI로 가는 길
단 하나의 제품도 출시하지 않은 스타트업이 출시 전 기업가치 30억 달러를 기록했다.[^1] 얀 르쿤(Yann LeCun)의 AMI 랩스는 수년간 AI 연구자들을 분열시켜 온 하나의 명제에 대한 역대 최대 베팅을 상징한다: 대형 언어 모델은 결코 범용 인공지능을 달성하지 못할 것이며, 그 대신 월드 모델을 통해 앞으로 나아가야 한다는 것이다.
요약
월드 모델 패러다임은 2025년 말과 2026년 초에 주류 AI 개발 분야에서 폭발적으로 성장했다. 얀 르쿤은 12년간 몸담았던 메타를 떠나 AMI 랩스를 설립하고, 단순히 텍스트를 예측하는 것이 아닌 물리학을 이해하는 AI 시스템을 구축하기 위해 30억 유로 기업가치에 5억 유로를 조달했다.[^2] 구글 딥마인드는 24fps로 영구적인 3D 환경을 생성할 수 있는 최초의 실시간 대화형 월드 모델인 제니 3(Genie 3)를 공개했다.[^3] 페이페이 리(Fei-Fei Li)의 월드 랩스는 마블(Marble)을 출시하여 무료부터 월 95달러까지의 가격으로 월드 모델 생성을 상용화했다.[^4] 엔비디아의 코스모스(Cosmos) 플랫폼은 로보틱스 및 자율주행차 개발자들이 물리학 기반 합성 훈련 데이터를 도입하면서 200만 건 이상의 다운로드를 기록했다.[^5] AI 인프라를 구축하는 조직에게 월드 모델은 텍스트 처리에서 비디오 생성, 물리 시뮬레이션, 체화된 추론으로의 컴퓨팅 전환을 예고한다.
LLM의 한계
대형 언어 모델은 규모 확장을 통해 놀라운 역량을 달성했다. GPT-4, 클로드, 제미나이는 정교한 추론, 코드 생성, 다단계 문제 해결 능력을 보여준다.[^6] 그러나 근본적인 한계가 여전히 존재한다: 이러한 모델들은 물리적 현실에 대한 이해가 아닌 텍스트의 통계적 패턴을 학습한다.[^7]
2024년에 발표된 연구는 LLM이 모든 계산 가능한 함수를 학습할 수 없으며, 따라서 범용 문제 해결사로 사용될 때 필연적으로 환각을 일으킬 수밖에 없다는 것을 수학적으로 증명했다.[^8] 근본 원인은 LLM의 작동 방식에 있다: 물리적 현실에 대한 근거 없이, 훈련 데이터에서 학습한 패턴을 기반으로 이전 토큰 다음에 어떤 토큰이 올지 예측하는 것이다.[^9]
환각 문제
LLM은 물리적으로 불가능한 시나리오, 역사적으로 부정확한 사건, 또는 논리적으로 일관성 없는 추론을 그럴듯하게 들리는 텍스트로 생성한다.[^10] 체화된 경험을 통해 중력에 대해 배우는 인간과 달리, LLM은 "중력"이라는 단어가 특정 다른 단어들 근처에서 자주 등장한다는 것만 학습한다.[^11]
| 한계 | 원인 | 결과 |
|---|---|---|
| 사실적 환각 | 검증된 지식 기반 부재[^12] | 확신에 찬 사실 조작 |
| 물리적 추론 실패 | 체화된 경험 부재[^13] | 불가능한 물리학 묘사 |
| 인과관계 혼동 | 이해가 아닌 패턴 매칭[^14] | 상관관계를 인과관계로 처리 |
| 시간적 비일관성 | 순차적 토큰 예측[^15] | 불가능한 순서의 사건 |
얀 르쿤은 수년간 LLM을 확장해도 범용 인공지능은 나오지 않을 것이라고 공개적으로 주장해왔다.[^16] "LLM은 너무 제한적입니다," 르쿤은 엔비디아 GTC 프레젠테이션에서 말했다. "규모를 키워도 AGI에 도달할 수 없습니다."[^17]
그가 제안하는 대안은: 물리적 현실의 표현을 학습하여 예측, 계획, 인과관계 추론을 가능하게 하는 월드 모델이다.[^18]
얀 르쿤의 AMI 랩스
르쿤은 12년 만인 2025년 12월 메타를 떠났다. 그중 5년은 페이스북 AI 연구소(FAIR)의 창립 책임자로, 7년은 수석 AI 과학자로 근무했다.[^19] 그의 새 벤처인 어드밴스드 머신 인텔리전스(AMI) 랩스는 월드 모델 연구를 상용화하려는 역대 가장 야심찬 시도를 대표한다.[^20]
자금 조달 및 구조
AMI 랩스는 어떤 제품도 출시하기 전에 30억 유로 기업가치에 5억 유로를 목표로 자금 조달 협의에 들어갔다.[^21] 이 목표는 AI 역사상 최대 규모의 출시 전 자금 조달 중 하나가 될 것이며, 르쿤의 비전과 실적에 대한 투자자들의 신뢰를 반영한다.[^22]
| 역할 | 인물 | 경력 |
|---|---|---|
| 회장 | 얀 르쿤 | 튜링상 수상자, 메타 FAIR 창립자[^23] |
| CEO | 알렉스 르브룬 | 전 나블라(의료 AI) CEO[^24] |
회사는 2026년 1월까지 파리에 본사를 설립할 계획이다.[^25] 메타는 AMI 랩스에 직접 투자하지 않지만, 르쿤이 연구 연결을 유지할 수 있는 파트너십을 맺을 예정이다.[^26]
기술 비전
AMI 랩스는 단순히 텍스트 시퀀스를 예측하는 것이 아니라 물리학을 이해하고, 영구적인 기억을 유지하며, 복잡한 행동을 계획하는 AI 시스템 구축을 목표로 한다.[^27] 르쿤은 월드 모델을 "세상이 어떻게 작동하는지에 대한 당신의 정신적 모델"이라고 설명한다.[^28]
"당신이 취할 수 있는 일련의 행동을 상상할 수 있고, 당신의 월드 모델은 그 행동 시퀀스가 세상에 어떤 영향을 미칠지 예측할 수 있게 해줍니다," 르쿤이 설명했다.[^29]
이 접근 방식은 LLM과 근본적으로 다르다. GPT 스타일의 모델이 다음 단어를 예측하는 반면, 월드 모델은 환경 내에서 취해진 행동에 따른 물리적 환경의 다음 상태를 예측한다.[^30] 이를 통해 다음이 가능해진다:
- 계획: 행동하기 전에 결과를 시뮬레이션
- 물리학 추론: 물체가 질량, 운동량, 공간적 관계를 가진다는 것을 이해
- 인과관계 이해: 행동이 예측 가능한 결과를 만든다는 것을 학습
- 영구적 기억: 시간에 따른 일관된 세계 상태 유지
I-JEPA 기반
AMI 랩스는 르쿤의 메타에서의 I-JEPA(이미지 결합 임베딩 예측 아키텍처) 연구를 기반으로 한다.[^31] I-JEPA는 다른 영역에서 이미지 영역의 표현을 예측하여 학습하며, 명시적인 레이블 없이 시각적 장면에 대한 추상적 이해를 발전시킨다.[^32]
이 접근 방식은 인간이 관찰을 통해 직관적 물리학을 발전시키는 방식과 유사하다. 물체가 떨어지는 것을 보는 아이는 누구도 뉴턴의 법칙을 설명하지 않아도 중력에 대한 내적 모델을 발전시킨다.[^33] I-JEPA와 후속 아키텍처는 인공 시스템에서 이 학습 과정을 복제하는 것을 목표로 한다.[^34]
딥마인드의 제니 3
구글 딥마인드는 2025년 8월 제니 3를 공개했으며, 이는 최초의 실시간 대화형 범용 월드 모델을 대표한다.[^35] 정적 환경을 생성하거나 상당한 처리 시간이 필요했던 이전 시스템과 달리, 제니 3는 초당 24프레임으로 탐색 가능한 3D 세계를 생성한다.[^36]
기술적 역량
제니 3는 텍스트 프롬프트에서 동적 환경을 생성하며, 수 분간의 실시간 상호작용 동안 시각적 일관성을 유지한다.[^37] 시스템은 하드코딩된 물리 엔진에 의존하지 않는다; 대신 모델이 훈련을 통해 세상이 어떻게 작동하는지 스스로 학습한다.[^38]
| 역량 | 사양 |
|---|---|
| 프레임 레이트 | 24fps 실시간[^39] |
| 해상도 | 720p[^40] |
| 일관성 지속 시간 | 수 분[^41] |
| 메모리 범위 | 최대 1분 이전 참조[^42] |
| 물리학 | 하드코딩이 아닌 자가 학습[^43] |
"제니 3는 최초의 실시간 대화형 범용 월드 모델입니다," 딥마인드 연구 책임자 슐로미 프루흐터(Shlomi Fruchter)가 말했다. "이전에 존재했던 협소한 월드 모델을 넘어섭니다. 특정 환경에 국한되지 않습니다."[^44]
자기회귀 아키텍처
모델은 한 번에 하나의 프레임을 생성하며, 다음에 무슨 일이 일어날지 결정하기 위해 이전에 생성된 콘텐츠를 참조한다.[^45] 실시간 성능을 달성하려면 잠재적으로 1분 전의 시각적 기억과 일관성을 유지하면서 이 자기회귀 프로세스를 초당 여러 번 계산해야 한다.[^46]
물리적 일관성은 명시적 프로그래밍이 아닌 훈련에서 나온다.[^47] 제니 3 환경은 연구자들이 수동으로 중력이나 충돌 감지를 인코딩했기 때문이 아니라, 모델이 훈련 데이터에서 물리적 규칙성을 학습했기 때문에 안정적인 물리학을 유지한다.[^48]
AGI 함의
딥마인드는 제니 3를 범용 인공지능을 향한 디딤돌로 위치시킨다.[^49] 연구소는 AI 에이전트가 물리적 환경과 더 많이 상호작용함에 따라 월드 모델 기술이 중요한 역할을 할 것으로 기대한다.[^50]
"제니 3는 AI 에이전트가 수동 콘텐츠 제작 없이 풍부하게 시뮬레이션된 세계를 '경험'하고, 상호작용하며, 학습할 수 있게 함으로써 범용 인공지능을 향한 큰 도약을 의미합니다," 딥마인드 발표에 따르면.[^51]
현재 한계
제니 3는 공개 출시가 아닌 제한된 연구 프리뷰 상태로 남아있다.[^52] 알려진 제약 사항은 다음과 같다:
- 에이전트 상호작용을 위한 제한된 행동 공간
- 수 분 후 일관성 붕괴
- 불완전한 실제 지리적 정확도
- 복잡한 다중 에이전트 상호작용 모델링의 어려움
딥마인드는 선정된 학자 및 크리에이터들에게 테스트 접근을 계속 확대하고 있다.[^53]
페이페이 리의 월드 랩스와 마블
AI 선구자 페이페이 리가 설립한 월드 랩스는 2025년 11월 최초의 상용 월드 모델 제품인 마블을 출시했다.[^54] 이 스타트업은 마블 출시 약 1년 전에 2억 3천만 달러의 자금을 조달하며 스텔스 모드에서 모습을 드러냈다.[^55]
제품 아키텍처
마블은 텍스트 프롬프트, 사진, 비디오, 3D 레이아웃 또는 파노라마 이미지에서 영구적이고 다운로드 가능한 3D 환경을 생성한다.[^56] 탐색 중에 즉석에서 세계를 생성하는 경쟁사와 달리, 마블은 사용자가 편집하고 내보낼 수 있는 개별 환경을 생성한다.[^57]
| 입력 유형 | 출력 |
|---|---|
| 텍스트 프롬프트 | 3D 환경 |
| 사진 | 3D 환경 |
| 비디오 | 3D 환경 |
| 3D 레이아웃 | AI 강화 3D 환경 |
| 파노라마 | 3D 환경 |
플랫폼은 AI 네이티브 편집 도구와 AI가 시각적 세부 사항을 채우기 전에 공간 구조를 블로킹할 수 있는 하이브리드 3D 편집기를 제공한다.[^58] 파일은 언리얼 엔진 및 유니티와 같은 업계 표준 도구와 호환되는 형식으로 내보낼 수 있다.[^59]
가격 모델
월드 랩스는 크리에이티브 전문가를 대상으로 프리미엄 구조를 채택했다:[^60]
| 티어 | 가격 | 생성 횟수 | 기능 |
|---|---|---|---|
| 무료 | $0 | 월 4회 | 기본 생성 |
| 스탠다드 | $20/월 | 월 12회 | 표준 기능 |
| 프로 | $35/월 | 월 25회 | 상업적 권리 |
| 맥스 | $95/월 | 월 75회 | 프리미엄 기능 |
대상 애플리케이션
초기 사용 사례는 게임, 영화 시각 효과, 가상 현실에 초점을 맞추고 있다.[^61] 마블은 비전 프로(Vision Pro)와 퀘스트 3(Quest 3) VR 헤드셋을 지원하며, 생성된 모든 세계를 VR로 볼 수 있다.[^62]
페이페이 리는 마블을 "진정한 공간 지능 월드 모델 구축을 위한 첫 번째 단계"로 위치시킨다.[^63] 크리에이티브 애플리케이션 외에도, 이 기술은 물리적 현실에서 만들기에 비용이 많이 들거나 위험한 시뮬레이션 환경을 통해 로보틱스 훈련을 가능하게 한다.[^64]
엔비디아 코스모스: 산업 규모의 월드 모델
엔비디아는 2025년 CES에서 자율주행차와 로보틱스를 위한 물리적 AI 개발 플랫폼으로 코스모스를 출시했다.[^65] 2026년 1월까지 코스모스 월드 파운데이션 모델은 200만 회 이상 다운로드되었다.[^66]
플랫폼 아키텍처
코스모스는 생성형 월드 파운데이션 모델, 고급 토크나이저, 가드레일, 가속화된 비디오 처리 파이프라인으로 구성된다.[^67] 모델은 미래 환경 상태의 물리학 기반 비디오를 예측하고 생성하여 대규모 합성 훈련 데이터 생성을 가능하게 한다.[^68]
| 모델 티어 | 최적화 | 사용 사례 |
|---|---|---|
| 나노 | 실시간, 엣지 배포[^69] | 온디바이스 추론 |
| 슈퍼 | 고성능 베이스라인[^70] | 일반 개발 |
| 울트라 | 최대 품질 및 충실도[^71] | 커스텀 모델 증류 |
플랫폼은 인간 상호작용, 환경, 산업 환경, 로보틱스, 주행 시나리오를 포함하는 2천만 시간의 실제 데이터에서 9,000조 개의 토큰으로 훈련되었다.[^72]
산업 채택
선도적인 로보틱스 및 자동차 회사들이 합성 데이터 생성을 위해 코스모스를 채택했다:[^73]
| 회사 | 분야 |
|---|---|
| 1X | 휴머노이드 로봇 |
| 어질리티(Agility) | 이족 보행 로봇 |
| 피규어 AI(Figure AI) | 휴머노이드 로봇 |
| 와비(Waabi) | 자율주행 트럭 |
| 샤오펑(XPENG) | 전기차 |
| 우버(Uber) | 라이드셰어링 자율주행 |
코스모스 모델 유형
세 가지 모델 유형이 다양한 물리적 AI 개발 요구를 해결한다:[^74]
Cosmos-Predict: 비디오 형태로 미래 세계 상태를 시뮬레이션하고 예측 **Co
[번역을 위해 내용 생략]