GPT-4, 게임실력은 어떨까...둠 실행시켜보니

사전학습 없이 GPT-4로 1인칭 슈팅 게임인 둠을 플레이하는 연구가 진행됐다.

연구 결과 기존 강화학습에 비해 낮은 성능을 기록했지만 추가 학습 없이도 스스로 게임을 진행하는 등 잠재적인 발전 가능성을 확인했다.

11일(현지시간) 더레지스터 등 외신에 따르면 마이크로소프트의 수석 응용 과학자이자 영국 요크 대학의 연구원인 아드리안 드 윈터는 연구 논문 ‘GPT-4가 둠을 플레이할 수 있을까(Will GPT-4 Run DOOM?)’를 아카이브를 통해 공개했다.

GPT-4에게 둠을 플레이시킨 결과 학습 없이도 상당부분 게임을 진행할 수 있는 것으로 확인됐다(이미지=ID소프트웨어)

이번 연구는 GPT-4가 둠을 실행하고 플레이할 수 있는지에 대해 조사한 것이다. 대규모 언어 모델(LLM)이 복잡한 환경과 상호작용하며 계획하고 추론할 수 있는지를 탐구하기 위해 수행됐다.

고전 게임인 둠을 선택한 이유는 소스코드가 공개되어 활용이 쉽고, 다양한 분야에서 테스팅 툴로 사용되는 등 개발분야에서 널리 쓰이기 때문이다.

이에 연구팀은 GPT-4가 둠을 플레이하는 능력을 수치화해 이를 LLM의 추론 및 계획 능력을 측정하는 비공식 벤치마킹 수치로 활용하는 방안도 제시했다.

연구팀은 테스트를 진행하기전 GPT-4에 별도의 학습 등은 진행하지 않았다. 대신 GPT-4가 게임의 시각적 상태를 이해할 수 있도록, 게임의 이미지나 스크린샷을 텍스트 설명으로 변환했다. 텍스트 설명은 게임 내의 객체, 상황, 적의 위치 등 게임 상태에 대한 정보를 제공한다.

또한 GPT-4에서 생성한 텍스트가 게임 내 액션으로 변환할 수 있도록 별도의 툴을 개발해 적용했다.

조사 결과 연구팀은 GPT-4의 추론 및 계획 능력이 둠을 실행하고 몇 가지 기본 지침과 게임 상태에 대한 텍스트 설명만으로 게임을 플레이할 수 있음을 발견했다.