2026 월드 모델 경쟁: 르쿤, 딥마인드, 월드 랩스가 재정의하는 AGI로 가는 길

얀 르쿤이 AMI 랩스를 위해 5억 유로를 조달하고, 딥마인드의 제니 3가 실시간 3D 세계를 시뮬레이션한다. 물리학을 이해하는 AI를 구축하기 위한 2026년 경쟁이 LLM을 넘어설 수 있다.

2026 월드 모델 경쟁: 르쿤, 딥마인드, 월드 랩스가 재정의하는 AGI로 가는 길

2026 월드 모델 경쟁: 르쿤, 딥마인드, 월드 랩스가 재정의하는 AGI로 가는 길

단 하나의 제품도 출시하지 않은 스타트업이 출시 전 기업가치 30억 달러를 기록했다.[^1] 얀 르쿤(Yann LeCun)의 AMI 랩스는 수년간 AI 연구자들을 분열시켜 온 하나의 명제에 대한 역대 최대 베팅을 상징한다: 대형 언어 모델은 결코 범용 인공지능을 달성하지 못할 것이며, 그 대신 월드 모델을 통해 앞으로 나아가야 한다는 것이다.

요약

월드 모델 패러다임은 2025년 말과 2026년 초에 주류 AI 개발 분야에서 폭발적으로 성장했다. 얀 르쿤은 12년간 몸담았던 메타를 떠나 AMI 랩스를 설립하고, 단순히 텍스트를 예측하는 것이 아닌 물리학을 이해하는 AI 시스템을 구축하기 위해 30억 유로 기업가치에 5억 유로를 조달했다.[^2] 구글 딥마인드는 24fps로 영구적인 3D 환경을 생성할 수 있는 최초의 실시간 대화형 월드 모델인 제니 3(Genie 3)를 공개했다.[^3] 페이페이 리(Fei-Fei Li)의 월드 랩스는 마블(Marble)을 출시하여 무료부터 월 95달러까지의 가격으로 월드 모델 생성을 상용화했다.[^4] 엔비디아의 코스모스(Cosmos) 플랫폼은 로보틱스 및 자율주행차 개발자들이 물리학 기반 합성 훈련 데이터를 도입하면서 200만 건 이상의 다운로드를 기록했다.[^5] AI 인프라를 구축하는 조직에게 월드 모델은 텍스트 처리에서 비디오 생성, 물리 시뮬레이션, 체화된 추론으로의 컴퓨팅 전환을 예고한다.

LLM의 한계

대형 언어 모델은 규모 확장을 통해 놀라운 역량을 달성했다. GPT-4, 클로드, 제미나이는 정교한 추론, 코드 생성, 다단계 문제 해결 능력을 보여준다.[^6] 그러나 근본적인 한계가 여전히 존재한다: 이러한 모델들은 물리적 현실에 대한 이해가 아닌 텍스트의 통계적 패턴을 학습한다.[^7]

2024년에 발표된 연구는 LLM이 모든 계산 가능한 함수를 학습할 수 없으며, 따라서 범용 문제 해결사로 사용될 때 필연적으로 환각을 일으킬 수밖에 없다는 것을 수학적으로 증명했다.[^8] 근본 원인은 LLM의 작동 방식에 있다: 물리적 현실에 대한 근거 없이, 훈련 데이터에서 학습한 패턴을 기반으로 이전 토큰 다음에 어떤 토큰이 올지 예측하는 것이다.[^9]

환각 문제

LLM은 물리적으로 불가능한 시나리오, 역사적으로 부정확한 사건, 또는 논리적으로 일관성 없는 추론을 그럴듯하게 들리는 텍스트로 생성한다.[^10] 체화된 경험을 통해 중력에 대해 배우는 인간과 달리, LLM은 "중력"이라는 단어가 특정 다른 단어들 근처에서 자주 등장한다는 것만 학습한다.[^11]

한계 원인 결과
사실적 환각 검증된 지식 기반 부재[^12] 확신에 찬 사실 조작
물리적 추론 실패 체화된 경험 부재[^13] 불가능한 물리학 묘사
인과관계 혼동 이해가 아닌 패턴 매칭[^14] 상관관계를 인과관계로 처리
시간적 비일관성 순차적 토큰 예측[^15] 불가능한 순서의 사건

얀 르쿤은 수년간 LLM을 확장해도 범용 인공지능은 나오지 않을 것이라고 공개적으로 주장해왔다.[^16] "LLM은 너무 제한적입니다," 르쿤은 엔비디아 GTC 프레젠테이션에서 말했다. "규모를 키워도 AGI에 도달할 수 없습니다."[^17]

그가 제안하는 대안은: 물리적 현실의 표현을 학습하여 예측, 계획, 인과관계 추론을 가능하게 하는 월드 모델이다.[^18]

얀 르쿤의 AMI 랩스

르쿤은 12년 만인 2025년 12월 메타를 떠났다. 그중 5년은 페이스북 AI 연구소(FAIR)의 창립 책임자로, 7년은 수석 AI 과학자로 근무했다.[^19] 그의 새 벤처인 어드밴스드 머신 인텔리전스(AMI) 랩스는 월드 모델 연구를 상용화하려는 역대 가장 야심찬 시도를 대표한다.[^20]

자금 조달 및 구조

AMI 랩스는 어떤 제품도 출시하기 전에 30억 유로 기업가치에 5억 유로를 목표로 자금 조달 협의에 들어갔다.[^21] 이 목표는 AI 역사상 최대 규모의 출시 전 자금 조달 중 하나가 될 것이며, 르쿤의 비전과 실적에 대한 투자자들의 신뢰를 반영한다.[^22]

역할 인물 경력
회장 얀 르쿤 튜링상 수상자, 메타 FAIR 창립자[^23]
CEO 알렉스 르브룬 전 나블라(의료 AI) CEO[^24]

회사는 2026년 1월까지 파리에 본사를 설립할 계획이다.[^25] 메타는 AMI 랩스에 직접 투자하지 않지만, 르쿤이 연구 연결을 유지할 수 있는 파트너십을 맺을 예정이다.[^26]

기술 비전

AMI 랩스는 단순히 텍스트 시퀀스를 예측하는 것이 아니라 물리학을 이해하고, 영구적인 기억을 유지하며, 복잡한 행동을 계획하는 AI 시스템 구축을 목표로 한다.[^27] 르쿤은 월드 모델을 "세상이 어떻게 작동하는지에 대한 당신의 정신적 모델"이라고 설명한다.[^28]

"당신이 취할 수 있는 일련의 행동을 상상할 수 있고, 당신의 월드 모델은 그 행동 시퀀스가 세상에 어떤 영향을 미칠지 예측할 수 있게 해줍니다," 르쿤이 설명했다.[^29]

이 접근 방식은 LLM과 근본적으로 다르다. GPT 스타일의 모델이 다음 단어를 예측하는 반면, 월드 모델은 환경 내에서 취해진 행동에 따른 물리적 환경의 다음 상태를 예측한다.[^30] 이를 통해 다음이 가능해진다:

  • 계획: 행동하기 전에 결과를 시뮬레이션
  • 물리학 추론: 물체가 질량, 운동량, 공간적 관계를 가진다는 것을 이해
  • 인과관계 이해: 행동이 예측 가능한 결과를 만든다는 것을 학습
  • 영구적 기억: 시간에 따른 일관된 세계 상태 유지

I-JEPA 기반

AMI 랩스는 르쿤의 메타에서의 I-JEPA(이미지 결합 임베딩 예측 아키텍처) 연구를 기반으로 한다.[^31] I-JEPA는 다른 영역에서 이미지 영역의 표현을 예측하여 학습하며, 명시적인 레이블 없이 시각적 장면에 대한 추상적 이해를 발전시킨다.[^32]

이 접근 방식은 인간이 관찰을 통해 직관적 물리학을 발전시키는 방식과 유사하다. 물체가 떨어지는 것을 보는 아이는 누구도 뉴턴의 법칙을 설명하지 않아도 중력에 대한 내적 모델을 발전시킨다.[^33] I-JEPA와 후속 아키텍처는 인공 시스템에서 이 학습 과정을 복제하는 것을 목표로 한다.[^34]

딥마인드의 제니 3

구글 딥마인드는 2025년 8월 제니 3를 공개했으며, 이는 최초의 실시간 대화형 범용 월드 모델을 대표한다.[^35] 정적 환경을 생성하거나 상당한 처리 시간이 필요했던 이전 시스템과 달리, 제니 3는 초당 24프레임으로 탐색 가능한 3D 세계를 생성한다.[^36]

기술적 역량

제니 3는 텍스트 프롬프트에서 동적 환경을 생성하며, 수 분간의 실시간 상호작용 동안 시각적 일관성을 유지한다.[^37] 시스템은 하드코딩된 물리 엔진에 의존하지 않는다; 대신 모델이 훈련을 통해 세상이 어떻게 작동하는지 스스로 학습한다.[^38]

역량 사양
프레임 레이트 24fps 실시간[^39]
해상도 720p[^40]
일관성 지속 시간 수 분[^41]
메모리 범위 최대 1분 이전 참조[^42]
물리학 하드코딩이 아닌 자가 학습[^43]

"제니 3는 최초의 실시간 대화형 범용 월드 모델입니다," 딥마인드 연구 책임자 슐로미 프루흐터(Shlomi Fruchter)가 말했다. "이전에 존재했던 협소한 월드 모델을 넘어섭니다. 특정 환경에 국한되지 않습니다."[^44]

자기회귀 아키텍처

모델은 한 번에 하나의 프레임을 생성하며, 다음에 무슨 일이 일어날지 결정하기 위해 이전에 생성된 콘텐츠를 참조한다.[^45] 실시간 성능을 달성하려면 잠재적으로 1분 전의 시각적 기억과 일관성을 유지하면서 이 자기회귀 프로세스를 초당 여러 번 계산해야 한다.[^46]

물리적 일관성은 명시적 프로그래밍이 아닌 훈련에서 나온다.[^47] 제니 3 환경은 연구자들이 수동으로 중력이나 충돌 감지를 인코딩했기 때문이 아니라, 모델이 훈련 데이터에서 물리적 규칙성을 학습했기 때문에 안정적인 물리학을 유지한다.[^48]

AGI 함의

딥마인드는 제니 3를 범용 인공지능을 향한 디딤돌로 위치시킨다.[^49] 연구소는 AI 에이전트가 물리적 환경과 더 많이 상호작용함에 따라 월드 모델 기술이 중요한 역할을 할 것으로 기대한다.[^50]

"제니 3는 AI 에이전트가 수동 콘텐츠 제작 없이 풍부하게 시뮬레이션된 세계를 '경험'하고, 상호작용하며, 학습할 수 있게 함으로써 범용 인공지능을 향한 큰 도약을 의미합니다," 딥마인드 발표에 따르면.[^51]

현재 한계

제니 3는 공개 출시가 아닌 제한된 연구 프리뷰 상태로 남아있다.[^52] 알려진 제약 사항은 다음과 같다:

  • 에이전트 상호작용을 위한 제한된 행동 공간
  • 수 분 후 일관성 붕괴
  • 불완전한 실제 지리적 정확도
  • 복잡한 다중 에이전트 상호작용 모델링의 어려움

딥마인드는 선정된 학자 및 크리에이터들에게 테스트 접근을 계속 확대하고 있다.[^53]

페이페이 리의 월드 랩스와 마블

AI 선구자 페이페이 리가 설립한 월드 랩스는 2025년 11월 최초의 상용 월드 모델 제품인 마블을 출시했다.[^54] 이 스타트업은 마블 출시 약 1년 전에 2억 3천만 달러의 자금을 조달하며 스텔스 모드에서 모습을 드러냈다.[^55]

제품 아키텍처

마블은 텍스트 프롬프트, 사진, 비디오, 3D 레이아웃 또는 파노라마 이미지에서 영구적이고 다운로드 가능한 3D 환경을 생성한다.[^56] 탐색 중에 즉석에서 세계를 생성하는 경쟁사와 달리, 마블은 사용자가 편집하고 내보낼 수 있는 개별 환경을 생성한다.[^57]

입력 유형 출력
텍스트 프롬프트 3D 환경
사진 3D 환경
비디오 3D 환경
3D 레이아웃 AI 강화 3D 환경
파노라마 3D 환경

플랫폼은 AI 네이티브 편집 도구와 AI가 시각적 세부 사항을 채우기 전에 공간 구조를 블로킹할 수 있는 하이브리드 3D 편집기를 제공한다.[^58] 파일은 언리얼 엔진 및 유니티와 같은 업계 표준 도구와 호환되는 형식으로 내보낼 수 있다.[^59]

가격 모델

월드 랩스는 크리에이티브 전문가를 대상으로 프리미엄 구조를 채택했다:[^60]

티어 가격 생성 횟수 기능
무료 $0 월 4회 기본 생성
스탠다드 $20/월 월 12회 표준 기능
프로 $35/월 월 25회 상업적 권리
맥스 $95/월 월 75회 프리미엄 기능

대상 애플리케이션

초기 사용 사례는 게임, 영화 시각 효과, 가상 현실에 초점을 맞추고 있다.[^61] 마블은 비전 프로(Vision Pro)와 퀘스트 3(Quest 3) VR 헤드셋을 지원하며, 생성된 모든 세계를 VR로 볼 수 있다.[^62]

페이페이 리는 마블을 "진정한 공간 지능 월드 모델 구축을 위한 첫 번째 단계"로 위치시킨다.[^63] 크리에이티브 애플리케이션 외에도, 이 기술은 물리적 현실에서 만들기에 비용이 많이 들거나 위험한 시뮬레이션 환경을 통해 로보틱스 훈련을 가능하게 한다.[^64]

엔비디아 코스모스: 산업 규모의 월드 모델

엔비디아는 2025년 CES에서 자율주행차와 로보틱스를 위한 물리적 AI 개발 플랫폼으로 코스모스를 출시했다.[^65] 2026년 1월까지 코스모스 월드 파운데이션 모델은 200만 회 이상 다운로드되었다.[^66]

플랫폼 아키텍처

코스모스는 생성형 월드 파운데이션 모델, 고급 토크나이저, 가드레일, 가속화된 비디오 처리 파이프라인으로 구성된다.[^67] 모델은 미래 환경 상태의 물리학 기반 비디오를 예측하고 생성하여 대규모 합성 훈련 데이터 생성을 가능하게 한다.[^68]

모델 티어 최적화 사용 사례
나노 실시간, 엣지 배포[^69] 온디바이스 추론
슈퍼 고성능 베이스라인[^70] 일반 개발
울트라 최대 품질 및 충실도[^71] 커스텀 모델 증류

플랫폼은 인간 상호작용, 환경, 산업 환경, 로보틱스, 주행 시나리오를 포함하는 2천만 시간의 실제 데이터에서 9,000조 개의 토큰으로 훈련되었다.[^72]

산업 채택

선도적인 로보틱스 및 자동차 회사들이 합성 데이터 생성을 위해 코스모스를 채택했다:[^73]

회사 분야
1X 휴머노이드 로봇
어질리티(Agility) 이족 보행 로봇
피규어 AI(Figure AI) 휴머노이드 로봇
와비(Waabi) 자율주행 트럭
샤오펑(XPENG) 전기차
우버(Uber) 라이드셰어링 자율주행

코스모스 모델 유형

세 가지 모델 유형이 다양한 물리적 AI 개발 요구를 해결한다:[^74]

Cosmos-Predict: 비디오 형태로 미래 세계 상태를 시뮬레이션하고 예측 **Co

[번역을 위해 내용 생략]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중