슈퍼마리오 게임으로 AI 성능 따져봤더니

추론 모델이 비추론 모델보다 성과 낮아

컴퓨팅입력 :2025/03/04 15:51    수정: 2025/03/04 15:58

슈퍼마리오 브라더스 게임으로 인공지능(AI) 모델들의 성능을 따져 본 연구 결과가 공개됐다고 테크크런치 등 외신들이 3일(현지시간) 보도했다.

보도에 따르면 미국 캘리포니아대학 샌디에이고 캠퍼스 '하오 AI랩'(Hao AI Lab) 연구진은 최근 슈퍼마리오 브라더스 게임에 AI를 투입했다. 

슈퍼마리오 게임으로 AI 모델의 성능을 비교한 연구 결과가 나왔다. (영상=미 캘리포니아 대학 샌디에이고 캠퍼스 하오AI랩)

그 결과 앤드로픽의 클로드 3.7이 가장 좋은 성과를 보였고 클로드 3.5가 그 뒤를 이었다. 반면 구글 제미나이 1.5 프로와 오픈AI GPT-4o는 성능이 떨어졌다.

여기서 사용된 슈퍼마리오 게임은 1985년 출시된 오리지널 슈퍼마리오 브라더스는 아니다. 에뮬레이터에서 게임을 실행했고 ‘게이밍에이전트’(GamingAgent)라는 프레임워크와 통합시켜 AI가 마리오를 실제로 제어할 수 있도록 했다.

연구진이 개발한 게이밍에이전트는 AI에 "장애물이나 적이 가까이 있으면 왼쪽으로 이동/점프해 피하라"와 같은 기본 지침과 게임 내 스크린샷을 제공해 학습시켰다. 이후 파이썬 코드형태로 입력 값을 생성해 AI가 마리오를 제어할 수 있도록 했다.

연구진은 각각의 AI 모델이 복잡한 작전을 계획하고 게임플레이 전략을 개발하도록 훈련시켰다. 흥미롭게도 연구진은 오픈AI의 o1과 같은 추론 모델이 비추론 모델보다 슈퍼마리오 게임 플레이 시 성과가 나쁘다는 것을 발견했다.

추론 모델이 이런 게임을 하는 데 더 불리한 이유 중 하나는 추론 모델의 경우 행동을 결정하는 데 보통 몇 초의 시간이 걸리기 때문이다. 슈퍼 마리오 브라더스 게임은 타이밍이 중요한 게임으로 단 1초 만에 안전하게 점프하냐 추락하냐가 결정된다.

관련기사

게임은 수십 년 동안 AI 성능을 벤치마킹하는 데 사용됐으나 일부에서는 AI의 게임 기술과 AI 성능 사이의 관련성에 의문을 제기해 왔다. 현실 세계와 달리 게임은 추상적이고 비교적 단순하며, AI를 훈련하는 데 이론적으로 무한한 양의 데이터를 제공한다.

안드레이 카파시(Andrej Karpathy) 오픈AI 창업자이자 연구과학자는 이에 ‘평가 위기’(evaluation crisis)라고 지적하며 "지금 당장 어떤 [AI] 지표를 살펴봐야 할지 잘 모르겠다”고 밝히기도 했다.