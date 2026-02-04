구글 딥마인드가 AI 프로젝트 '지니(Genie)'를 공개했습니다. 지니는 텍스트 프롬프트 등을 활용해 가상 환경을 구현할 수 있는 차세대 생성형AI 모델로 요약됩니다. 아직 프로토타입 단계지만, 게임·영화·애니메이션·국방·안보 등 산업에서 큰 영향을 미칠 수 있을지 주목을 받고 있습니다. 이번 이슈진단에서는 총 시리즈 4편으로 지니가 어떤 존재인지, 각 산업에서 실제 활용이 가능한지 등을 살펴봤습니다.

인공지능(AI)이 텍스트 생성을 넘어 물리적 세계의 동역학을 시뮬레이션하는 '월드 모델' 시대로 진입했다.

구글 딥마인드가 선보인 '지니 3'가 사진 한 장으로 상호작용 가능한 가상 세계를 즉석에서 구축하며 게임 산업에 충격을 준 가운데, 일론 머스크의 xAI와 테슬라 역시 실세계 데이터를 결합한 월드 모델로 범용인공지능(AGI)을 향한 개발 속도를 높이고 있다.

코딩 없이 3D 세계 생성… 구글, 차세대 AI 판을 바꾸다

일찍이 업계는 AI가 텍스트 학습만으로는 인간 수준의 지능에 도달하기 어렵다는 데 의견을 모았다. 'AI의 대모'로 불리는 페이페이 리 스탠퍼드대 교수가 지적했듯, 기존 거대언어모델(LLM)은 방대한 지식을 갖췄으나 물리적 실재에 기반하지 못한 상태를 뜻하는 '어둠 속의 단어들'에 머물러 있어서다.

(사진=구글 딥마인드 공식 블로그 갈무리)

진정한 AGI는 로봇이나 자율주행차처럼 물리적 세계를 탐색하고 작업을 수행할 수 있어야 한다. 여기에는 시각과 청각 등 감각 정보를 통해 디지털 비트의 세계와 물리적 원자의 세계를 연결하는 '공간 지능'이 필수적이다. 월드 모델이 그 가교 구실을 한다.

이러한 흐름 속에서 구글은 텍스트와 이미지, 영상 생성을 넘어 차세대 시장인 가상 세계 생성으로 영역을 확장하고 있다. 구글의 지니 3는 복잡한 물리 엔진을 설계하거나 코딩하는 전통적인 3차원(3D) 그래픽 엔진의 문법 대신 데이터 주도 픽셀 예측 방식을 택했다.

작동 원리는 클라우드 스트리밍 게임과 유사하지만 그 실체는 이용자의 입력에 따라 다음 프레임을 실시간으로 예측하는 '블랙박스 신경망'이다. 이용자가 텍스트나 이미지를 입력하면 AI가 즉석에서 상호작용 가능한 세계를 생성하고, 사용자의 움직임에 맞춰 다음 프레임을 실시간으로 추론해 이어 붙인다.

이는 미리 제작된 데이터를 불러오는 기존 가상현실(VR)과 달리, 누구나 즉석 생성 가능한 인터랙티브 환경을 소유하게 됨을 의미한다. 구글의 이러한 시도는 로봇 에이전트 훈련 등 다양한 활용 가능성을 제시하기에 산업적 파급력이 상당할 것으로 보인다.

xAI·테슬라는 '현실 모사'…왜 월드 모델인가

반면 xAI와 테슬라는 현실 데이터를 정교하게 모사하는 실전형 전략에 집중한다. 테슬라는 '생성형 가우시안 스플래팅' 기술을 활용해 로봇이나 자율주행차가 실제 마주할 시야를 사실적으로 시뮬레이션한다.

일론 머스크의 AI 스타트업 'xAI'의 로고 (사진=xAI)

특히 '시맨틱 증강' 기술이 핵심이다. 이 기술은 맑은 날씨의 주행 영상에 눈을 내리게 하거나 가상의 보행자를 추가하는 식으로 현실에서 수집하기 어려운 위험 상황 데이터를 생성한다. 로봇이 실제 환경에 배포되기 전 다양한 변수를 안전하게 학습할 수 있는 샌드박스 역할인 셈이다.

업계가 월드 모델을 차세대 AI 표준으로 꼽는 이유는 현실 그 자체가 AGI의 데이터셋이라는 방향성에 공감하기 때문이다. 미국 AI 스타트업 루마 같은 기업들은 인간이 설정한 수식에 의존하는 대신, AI가 방대한 비디오 데이터를 관찰하며 중력이나 관성 같은 물리 법칙을 스스로 깨우치게 하는 방식을 택하고 있다.

월드 모델 시장은 엔터테인먼트와 로봇 공학이라는 두 축을 중심으로 성장할 전망이다. 할리우드나 게임업계는 시각적 개연성이 충분한 시뮬레이션을 요구하는 반면, 로봇 및 자율주행 업계는 현실과 일치하는 사실적 시뮬레이션이 필요하다.

전문가들은 이 두 영역이 결국 동전의 양면과 같다고 분석한다. 가상 세계를 실시간으로 생성하는 파운데이션 모델이 한쪽에서는 창작 도구가 되고, 다른 쪽에서는 로봇을 훈련하는 시뮬레이터가 되기 때문이다.

업계 관계자는 "가상과 현실을 모두 아우르는 강력한 월드 모델을 누가 먼저 선점하느냐가 향후 AI 패권의 향방을 가를 것"이라고 말했다.