10억 개 파라미터 규모의 변환기 기반 비디오 확산 모델로 게임 제작 혁신
홍콩대학교와 콰이쇼우 테크놀로지 공동 연구진이 발표한 논문에 따르면, 생성형 AI를 활용해 새로운 게임을 제작하는 '게임팩토리(GameFactory)'를 개발했다. 이 기술은 10억 개의 파라미터를 가진 변환기 기반 텍스트-비디오 확산 모델을 기반으로 하며, 360×640 해상도의 게임 영상을 생성할 수 있다. 기존의 게임 생성 모델들이 도움(DOOM), 아타리(Atari), CS:GO, 슈퍼 마리오 브라더스와 같은 특정 게임에만 국한되었던 것과 달리, 게임팩토리는 장면 일반화 능력을 통해 완전히 새로운 게임을 만들어낼 수 있다.
2,000개 비디오 클립으로 구성된 GF-마인크래프트 데이터셋 구축
연구진은 마인크래프트를 데이터 수집 플랫폼으로 활용해 각각 2,000프레임으로 구성된 2,000개의 비디오 클립을 수집했다. 이 데이터셋은 삼림, 평원, 사막의 세 가지 생물군계와 맑음, 비, 천둥의 세 가지 날씨 조건, 그리고 하루 시작, 정오, 일몰, 밤 시작, 자정, 일출 시작의 여섯 가지 시간대를 포함한다. 데이터 전처리 과정에서는 81프레임 길이의 연속된 시퀀스를 무작위로 샘플링하여 새로운 비디오 클립을 생성했으며, 이는 비디오 확산 모델의 생성 길이인 77프레임보다 약간 큰 규모이다.
3단계 훈련 전략으로 실현한 게임 스타일과 액션 컨트롤의 분리
게임팩토리는 3단계로 구성된 멀티페이즈 훈련 전략을 도입했다. 첫 번째 단계에서는 LoRA를 사용해 게임 비디오에 맞게 미세 조정을 진행하고, 두 번째 단계에서는 사전 훈련된 파라미터와 LoRA를 고정한 채 액션 컨트롤 모듈만 훈련한다. 마지막 단계에서는 게임 스타일 적응을 위한 LoRA 가중치를 제거하고 액션 컨트롤 모듈 파라미터만 유지한다.
실험 결과, 키보드 입력에 대한 Flow-MSE는 7.79, 작은 마우스 움직임은 18.64, 큰 마우스 움직임은 249.54를 기록했으며, 도메인 유사도는 0.7565로 단일 페이즈 훈련의 0.7345보다 우수했다.
k+1 프레임 조건부 생성 방식으로 구현한 무한 길이 게임 영상
연구진은 이전 k+1개 프레임을 조건으로 사용하여 N-k개의 새로운 프레임을 생성하는 자동회귀 방식을 개발했다. 이 방식은 이전 프레임들의 노이즈 수준을 다르게 설정할 수 있어, 후속 프레임이 이전 프레임에 자연스럽게 의존하도록 한다. 또한 조건부 프레임에 작은 노이즈(1000단계 중 15단계에 해당)를 추가하여 장기 생성 과정에서의 오류 축적을 감소시켰다.
시간-공간 압축과 노이즈 예측으로 구현한 비디오 생성 시스템
게임팩토리의 핵심 기술인 비디오 확산 모델은 시공간 압축비 4:1의 잠재 비디오 확산 모델을 기반으로 한다. 이 모델은 먼저 인코더를 통해 비디오를 공간적, 시간적으로 압축한 후, 1+rn프레임의 비디오를 1+n개의 잠재 프레임으로 변환한다. 노이즈 예측기는 이 잠재 표현에서 점진적으로 노이즈를 제거하며, 최종적으로 디코더를 통해 실제 비디오로 변환된다.
연구진은 이 과정에서 프롬프트 교차 주의(Cross Attention)를 통해 텍스트 설명을 반영하고, 액션 제어를 위한 특별한 모듈을 추가하여 사용자의 입력에 반응하는 비디오를 생성할 수 있게 했다.
충돌 감지와 물리 상호작용이 가능한 게임 환경 구현
연구진은 마인크래프트에서 수집한 데이터에 자연스럽게 포함된 충돌 상황들을 학습하여 실제 게임과 유사한 물리적 상호작용을 구현했다. 예를 들어 벽이나 장애물과 충돌할 경우, 입력된 전진 명령에도 불구하고 에이전트가 정지하는 행동을 보인다.
이는 게임팩토리가 단순히 비디오를 생성하는 것을 넘어, 실제 게임 엔진과 같은 물리적 규칙을 학습하고 적용할 수 있음을 보여준다. 연구진은 이러한 물리적 상호작용 능력이 실제 3D 환경에서의 에이전트 훈련이나 로봇 학습에도 활용될 수 있을 것으로 전망했다.
자율주행 데이터 생성까지 가능한 범용 월드 모델로의 확장
관련기사
- 퍼플렉시티-틱톡 합병 제안…퍼플렉시티에게 물었더니2025.01.21
- 생성형 AI가 바꾸는 2030년 일자리 풍경…어떻게 준비해야 할까2025.01.21
- 챗GPT부터 제미나이까지…한국 청소년들 어떻게 쓰나 봤더니2025.01.20
- AI, 사이버 보안 지형 확 바꾼다…기업 66% '내년 최대 영향력"2025.01.20
연구진은 게임팩토리를 데이터 생산자와 시뮬레이터라는 두 가지 관점에서 활용할 수 있다고 제시했다. 데이터 생산자로서 작은 레이블 데이터셋의 지식을 오픈 도메인 시나리오로 전이하여 무한한 액션 주석 데이터를 생성할 수 있으며, 시뮬레이터로서는 실제 작업을 위한 에이전트 훈련 환경을 제공할 수 있다. 특히 레이싱 게임에서 마인크래프트의 시점 제어가 자동차 조향 제어로 자연스럽게 전이되는 것을 확인했으며, 이는 자율주행 시뮬레이션 데이터 생성에도 활용될 수 있음을 시사한다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 논문 바로가기)