게임 개발자의 상상력을 현실로... MS 연구진, 게임 제작용 AI 모델 개발

컴퓨팅입력 :2025/02/21 14:30

마이크로소프트 연구진이 네이처(Nature)에 발표한 연구에 따르면, 게임 개발 과정에서 창의적 아이디어 구현을 지원하는 새로운 생성형 AI 모델 'WHAM(World and Human Action Model)'을 개발했다. 이는 생성형 AI가 텍스트, 이미지, 오디오, 음악, 비디오 등 다양한 분야에서 빠르게 발전하고 있는 가운데 게임 개발 분야에 특화된 혁신적인 모델로 주목받고 있다. (☞ 보고서 바로가기)

2년에서 5년 걸리는 게임 개발...AI로 제작 기간 단축 기대

게임 개발은 매우 시간이 많이 소요되는 과정이다. 인디 게임의 경우 최소 2년 이상, AAA급 게임의 경우 5년 이상이 소요되며, 이 중 절반 가량이 컨셉과 사전 제작 단계에서 소요된다. 한 인디 게임 스튜디오의 CEO는 "새로운 캐릭터를 만들고 레벨을 디자인하는 과정에서 캐릭터 아티스트, 애니메이터, 프로그래머, 게임 디자이너 등 여러 전문가들의 반복적인 작업과 조율이 필요하다"고 설명했다.

글로벌 8개 스튜디오 27명의 개발자가 말하는 이상적인 AI

연구진은 마이크로소프트 파운더스 허브(Microsoft Founders Hub)를 통해 선정된 8개 게임 스튜디오의 27명 개발자들과 심층 인터뷰를 진행했다. 참여 스튜디오는 4개의 인디 스튜디오, 1개의 AAA 스튜디오, 3개의 게임 접근성 개발팀으로 구성되었으며, 미국과 영국을 중심으로 벨기에, 인도, 카메룬 등 다양한 국가의 개발자들이 참여했다. 특히 글로벌 사우스와 장애인 개발자들의 참여를 적극적으로 독려했다.

7년 분량의 게임플레이 데이터로 학습된 16억 파라미터 규모 모델

WHAM은 16억 개의 매개변수를 가진 트랜스포머 기반 모델이다. 2020년 9월부터 2022년 10월까지 닌자 시어리의 게임 '블리딩 엣지'에서 수집된 약 50만 건의 게임플레이 데이터(27.89 TiB)를 학습했다. 이는 7년 분량의 연속 플레이에 해당하는 방대한 양으로, 약 14억 개의 프레임 데이터를 포함한다. 데이터는 학습/검증/테스트 세트로 80:10:10 비율로 나누어졌다.

AI 기반 게임 개발의 새로운 방향성 제시

WHAM은 기존의 AI 모델 개발 방향과는 다른 혁신적인 접근법을 제시했다. 그동안 머신러닝 연구 커뮤니티는 주로 작업 완료의 효율성과 효과성 측정에 중점을 두었다. 그러나 WHAM은 창의적인 작업을 지원하는 AI 개발에 있어 인간 창작자의 요구사항을 우선적으로 고려했다. 특히 수작업으로 도메인별 모델을 만들거나 학습해야 했던 기존 방식과 달리, WHAM은 관련 데이터만 있으면 복잡한 3D 게임의 구조를 자동으로 학습할 수 있다. 이는 음악이나 비디오 등 다른 창작 분야에서도 활용될 수 있는 가능성을 보여준다.

85% 이상의 정확도로 사용자 수정사항 반영하는 세 가지 핵심 기능

WHAM의 성능은 일관성, 다양성, 지속성이라는 세 가지 핵심 지표로 검증되었다. 일관성 측면에서는 FVD를 통해 생성된 게임플레이가 실제 인간 플레이어의 것과 매우 유사함을 입증했다. 다양성 측면에서는 바서스타인 거리를 사용해 모델이 생성한 행동이 실제 플레이어의 행동 분포를 잘 반영함을 확인했다. 지속성 검증에서는 파워셀, 캐릭터, 수직 점프패드에 대해 5개의 수정된 이미지 입력 시 85% 이상의 높은 지속성을 보여주었다.

기술적 한계를 극복한 혁신적 모델 구조

WHAM의 모델 구조는 기존 월드 모델링 접근법을 뛰어넘는 혁신적인 설계를 보여준다. 트랜스포머 아키텍처를 기반으로 하는 WHAM은 게임 이미지를 개별 토큰으로, 엑스박스 컨트롤러 동작을 11개의 버킷으로 이산화하여 처리한다. 각 이미지는 300×180 해상도에서 540개의 토큰으로 변환되며, VQGAN 이미지 인코더를 활용한다. 특히 1.6B WHAM은 기존의 4,096개 어휘 크기를 16,384개로 확장했으며, 이를 통해 더 높은 해상도와 더 정교한 게임 메커닉스 구현이 가능해졌다.

"1초 만에 10가지 게임플레이 시나리오 생성" WHAM 데모 공개

WHAM 데모는 사용자가 시작 프레임을 선택하면 1초 안에 최대 10개의 다양한 게임플레이 시나리오를 생성한다. 사용자는 생성된 시나리오 중 원하는 분기점이나 프레임을 선택하여 새로운 시나리오를 재생성할 수 있으며, 이전 선택으로 돌아가 수정할 수도 있다. 특히 실시간으로 캐릭터나 오브젝트를 추가하거나 수정할 수 있어 개발자의 창의적인 실험을 지원한다.

30억 게이머 시대, AI로 여는 게임 개발의 새 지평

관련기사

전 세계 30억 명 이상의 게이머 시대를 맞아, 게임 스튜디오들은 증가하는 새로운 콘텐츠 수요를 충족시키기 위해 AI 도입을 적극 검토하고 있다. WHAM은 기존 게임의 구조를 학습하여 새로운 게임플레이 시퀀스를 생성할 수 있으며, 이는 향후 음악이나 비디오 등 다른 창작 분야로도 확장될 수 있는 가능성을 보여준다. 마이크로소프트는 이러한 연구 결과를 바탕으로 WHAM의 가중치, 평가 데이터셋, WHAM 데모를 허깅페이스를 통해 공개하여 추가 연구를 지원할 예정이다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)