구글 딥마인드가 AI 프로젝트 '지니(Genie)'를 공개했습니다. 지니는 텍스트 프롬프트 등을 활용해 가상 환경을 구현할 수 있는 차세대 생성형AI 모델로 요약됩니다. 아직 프로토타입 단계지만, 게임·영화·애니메이션·국방·안보 등 산업에서 큰 영향을 미칠 수 있을지 주목 받고 있습니다. 이번 이슈진단에서는 총 시리즈 4편으로 지니가 어떤 존재인지, 각 산업에서 실제 활용이 가능한지 등을 살펴봤습니다.

구글이 텍스트 한 줄과 이미지 한 장만으로 사용자가 직접 탐험할 수 있는 가상 세계를 만드는 차세대 AI 프로젝트 '지니(Genie)'를 공개했다.

단순히 고품질 영상을 생성하는 수준을 넘어, 이용자의 조작에 실시간으로 반응하는 '상호작용형 AI' 시대를 열었다는 평가가 나온다. 생성형 AI가 '콘텐츠 생성'에서 '경험 생성'으로 확장되는 흐름이 뚜렷해지고 있다는 분석이다.

구글은 4일 AI 프로토타입 '지니 3(Genie 3)'를 공개했다고 밝혔다. 아직 연구·실험 단계인 만큼 제한된 형태로 공개 중으로 현재 미국 내 구글 AI 울트라 구독자를 중심으로 순차 제공되고 있다.

프로젝트 지니로 만든 스카이다이빙 장면. 키보드로 화면 이동이 가능하다(이미지=구글)

'지니'란?…영상 넘어 '플레이 가능한 세계' 생성하는 월드모델

지니는 구글 딥마인드가 개발한 범용 월드 모델이다. 온라인 등에 공개된 영상 등을 통해 스스로 물리법칙을 학습하고 활용할 수 있는 것이 특징이다. 이를 통해 이용자가 입력한 텍스트 프롬프트를 바탕으로 상호작용 가능한 환경을 생성하고 사용자 행동에 따라 다음 장면을 실시간으로 이어붙일 수 있다.

기존 생성형 AI가 텍스트·이미지·영상 같은 결과물을 만들어냈다면 지니는 사용자가 직접 들어가 움직이며 경험할 수 있는 '환경'을 만든다. 키보드 입력으로 주변을 둘러보거나 이동하는 등 조작이 가능하다는 점에서, 단순 영상 생성을 넘어선 차세대 생성형AI 모델이라는 평이다.

특히 구글은 지니 3가 24프레임 속도로 실시간 탐험 가능한 동적 세계를 생성하며 720p 해상도에서 수분간 일관성을 유지한다고 밝혔다. 이용자가 이동하는 순간마다 세계가 끊기지 않고 이어지는 구조를 만들 수 있다는 설명이다.

업계에서 지니를 주목하는 이유는 생성형 AI의 방향 자체가 바뀌고 있기 때문이다. 그동안 생성형 AI는 텍스트, 이미지, 영상 등 결과물을 만드는 '제작 도구'로 확산됐다.

반면 지니는 사용자 선택을 반영해 다음 장면을 즉시 계산한다. 이용자가 조작하는 순간마다 세계가 새로 생성된다. 게임처럼 플레이되는 환경이 AI에 의해 즉석에서 구성되는 방식이다.

이 변화는 엔터테인먼트 산업뿐 아니라 교육·훈련·시뮬레이션·로봇 연구로까지 확장될 수 있다는 점에서 의미가 크다. 특히 현실에서 반복하기 어려운 상황을 가상 세계에서 무한히 생성할 수 있다는 점이 강점으로 꼽힌다.

구글 슐로미 프럭터 디렉터은 "지니 3는 단순히 이동 가능한 영상을 만드는 것이 아니라, 사용자의 행동을 반영해 세계가 계속 생성되도록 만드는 모델"이라며 "현실에서 일어날 수 있는 수많은 가상 시나리오를 시뮬레이션할 수 있다는 점에서 연구적 가치가 크다"고 설명했다.

딥마인드 '시뮬레이션 연구' 연장선…AGI 핵심 단계로 주목

지니 프로젝트의 기반은 딥마인드가 10년 넘게 이어온 시뮬레이션 연구다. 딥마인드는 실시간 전략 게임을 학습하는 에이전트 개발부터 로봇과 오픈엔디드 학습을 위한 가상 환경 연구를 진행해 왔다.

이 과정에서 등장한 개념이 월드 모델이다. 월드 모델은 환경이 어떻게 변화할지, 사용자의 행동이 세계에 어떤 영향을 미칠지 예측하며 시뮬레이션하는 AI 시스템이다.

구글은 월드 모델을 범용 인공지능(AGI)로 가는 핵심 단계로 보고 있다. 무한히 확장 가능한 시뮬레이션 환경을 만들 수 있다면, AI 에이전트를 현실보다 훨씬 다양한 상황에서 학습시키는 것이 가능해지기 때문이다.

프로젝트 지니로 생성한 월드(이미지=구글)

딥마인드는 지니 1·지니 2를 통해 기반 월드 모델을 제시했고, 이후 비디오 생성 모델 '비오(Veo)' 계열을 통해 물리 이해도까지 확장해 왔다. 지니 3는 이 흐름이 '실시간 상호작용'으로 진화한 결과로 정리된다.

지니 3의 핵심은 실시간 상호작용이다. 이용자가 이동할 때마다 AI가 프레임을 자동회귀 방식으로 생성하면서도, 앞서 생성된 장면과 흐름을 계속 참조해 일관성을 유지해야 한다.

예컨대 사용자가 1분 뒤 다시 같은 장소로 되돌아오면, AI는 1분 전의 정보를 끌어와 자연스럽게 연결해야 한다. 구글은 지니 3가 이런 방식으로 세계의 시각적 기억을 유지한다고 설명했다.

또 다른 기능은 텍스트 입력으로 세계 자체를 바꾸는 방식이다. 단순 이동 조작을 넘어 날씨를 바꾸거나 새로운 물체·캐릭터를 등장시키는 등, 세계 변화 이벤트를 프롬프트로 유도할 수 있다. "만약에" 시나리오를 무한히 만들 수 있다는 점에서 시뮬레이션 가치가 커진다는 평가다.

구글 딥마인드에서 오픈 엔디드 팀을 이끄는 잭 파커-홀더 연구원은 "우리는 이제 장면을 완벽하게 기록하는 수준을 넘어 우리가 직접 발을 들여놓을 수 있는 동적인 시뮬레이션 세계를 구축하는 단계로 나아가고 있다"며 "AI 에이전트가 스스로 학습할 수 있는 가상환경은 단순한 콘텐츠 생성 도구를 넘어 범용 인공지능(AGI)을 위한 핵심 훈련장이 될 것"이라고 설명했다.

"지니 제대로 쓰려면 영화감독처럼"…프롬프트가 곧 연출

구글은 지니 3의 기술을 이용자가 직접 체험할 수 있도록 별도 프로토타입안 '프로젝트 지니(Project Genie)' 공개했다. 이는 현재 미국 내 구글 AI 울트라 구독자를 중심으로 순차 제공되고 있다.

프로젝트 지니의 핵심 기능은 '월드 스케치(World Sketching)', '월드 탐험(World Exploration)', '월드 리믹스(World Remixing)'다.

월드 스케치는 텍스트와 이미지를 프롬프트에 입력해 세계를 구성하는 단계다. 이용자는 캐릭터와 배경을 설정하고, 걷기·라이딩·비행·운전 등 탐험 방식을 직접 정의할 수 있다.

프로젝트 지니 주요 기능은 '월드 스케치, '월드 탐험', '월드 리믹스'(이미지=구글)

구글은 이 과정에서 나노 바나나 프로를 연동해 이미지 프리뷰를 제공한다. 이를 통해 미리보기 이미지를 수정하며 세계의 분위기와 디테일을 조정할 수 있다. 1인칭·3인칭 시점도 선택 가능하다.

월드 탐험은 생성된 세계 속을 실제로 이동하는 기능이다. 이용자가 움직이면 그 행동을 기반으로 다음 장면이 실시간 생성된다. 카메라 앵글도 조정할 수 있다.

월드 리믹스는 이미 만든 세계를 다시 재구성하는 기능이다. 기존 프롬프트를 바탕으로 환경이나 캐릭터를 바꿔 새로운 세계로 확장한다. 완성된 탐험 과정은 영상으로 저장할 수 있다.

구글은 월드를 생성할 때 프롬프트를 짧고 직접적으로 쓰는 것을 권장했다. 이용자 입력을 바탕으로 실시간으로 세계를 이어 붙이는 구조인 만큼, 긴 문장으로 서술하는 방식보다 명령형에 가까운 행동 중심 문장이 더 잘 작동한다는 설명이다.

예를 들어 "황혼의 도시를 배경으로 사이버펑크 분위기의 골목을 걷고 싶다"처럼 분위기를 길게 설명하는 문장도 가능하지만 '네온 간판이 있는 좁은 골목', '젖은 아스팔트', '바닥에 깔린 연기', '비가 내림'처럼 핵심 요소를 끊어 적는 방식이 더 정확한 결과로 이어질 수 있다는 설명이다.

프로젝트 지니 작성 프롬프터(이미지=구글)

이런 짧고 직관적인 설명이 제공되야 모델이 장면을 구성할 때 어떤 요소를 반드시 넣어야 하는지 빠르게 파악하기 때문이다. 특히 캐릭터 조작은 이동 방식이나 행동을 구체적으로 지정할수록 탐험 중 캐릭터가 잘못 움직이거나 제어가 불안정해지는 현상을 줄일 수 있다.

구글 딥마인드 슐로미 프록터 리서치 디렉터는 "지니에게 명령할 때는 영화감독이나 게임 기획자가 되었다고 생각하면 쉽다"며 "카메라 위치, 캐릭터의 구체적인 액션, 화면에 보이는 미장센을 짧고 굵게 명령할 때 지니는 가장 완벽한 세계를 보여줄 것"이라고 조언했다.

아직 초기 연구 모델…완전한 현실 구현은 시간 필요

지니 3는 아직 완성된 서비스가 아닌 실험적 연구 프로토타입인 만큼 한계도 분명하다. 현실 세계의 특정 위치를 지리적으로 완벽하게 재현하지 못하며, 텍스트 렌더링 품질이나 복잡한 다중 에이전트 상호작용은 여전히 해결해야 할 과제로 남아 있다. 연속적인 상호작용 시간도 아직은 '수 분' 수준으로 제한돼 있다.

그럼에도 업계 반응은 긍정적이다. 이미지와 영상을 만드는 도구를 넘어, 사용자가 직접 상호작용할 수 있는 '세계'를 생성할 수 있다는 점에서 새로운 지평을 열었다는 평가가 나온다. 월드 모델이 단순한 연구 개념을 넘어 실제 이용자 체험 단계로 내려왔다는 점이 상징적이라는 분석이다.

프로젝트 지니는 생성한 월드에서 실시간으로 시점도 변경 가능하다(이미지=구글)

기술이 지속적으로 발전할 경우 파급력은 더 커질 것으로 전망된다. 게임은 물론 교육·훈련 시뮬레이션, 로봇 연구 등 다양한 산업에서 활용도가 높아질 수 있기 때문이다. 현실에서 반복하기 어려운 환경을 가상으로 무한히 생성할 수 있다는 점은 AI 학습과 응용 범위를 크게 넓힐 수 있다는 기대감으로 이어진다.

슐로미 프럭터 디렉터는 "지니 3는 월드 모델이 AI 연구와 생성형 미디어 전반에 실질적인 영향을 미치기 시작하는 중요한 순간"이라며 "이용자가 프롬프트로 만든 세계가 곧 콘텐츠가 되고, 그 콘텐츠가 다시 새로운 세계로 이어지는 무한한 확장의 시대가 열릴 것"이라고 강조했다.

잭 파커-홀더 연구원 역시 "지니 3는 단순히 화면을 생성하는 기술이 아니라, 이용자가 탐험하고 경험할 수 있는 환경을 실시간으로 만들어내는 기술"이라며 "월드 모델이 앞으로 교육과 훈련, 에이전트 연구 등 다양한 영역에서 새로운 가능성을 열 것"이라고 말했다.

또한 그는 "우리는 이제 AI가 만들어낸 세계를 바라보는 단계를 넘어, 그 세계 안으로 들어가 상호작용하는 시대로 접어들고 있다"고 덧붙였다.