스타크래프트 II 상황추론 속도 1만 배↑...주식거래 응용 가능

GIST, 기존 몬테카를로 트리탐색 기법 대체모델 기반으로 개발

과학입력 :2024/07/26 03:08    수정: 2024/07/26 07:25

실시간전략게임 '스타크래프트 II'의 상황 추론 속도를 기존 대비 1만배 이상 개선할 수 있는 방법을 국내 연구진이 찾았다.

주식거래나 자율주행, 위험예측 등 실세계 응용 문제 해결을 위한 의사결정에 활용 가능해 연구성과에 관심이 쏠렸다.

광주과학기술원(GIST)은 AI대학원 안창욱 교수 연구팀이 몬테카를로 트리 탐색(MCTS) 기법을 그동안 적용 불가능했던 실시간 게임 환경에서 구현하는데 성공했다고 26일 밝혔다.

'몬테카를로 방법'은 함수의 값을 확률적으로 계산하는 알고리즘이다. 카지노와 도박장으로 유명한 몬테카를로에서 유래한 말이다.

GIST AI대학원 안창욱 교수(왼쪽)와 이동현 박사과정생. 대체 모델을 사용한 스타크래프트 2 전투 모습.(사진=GIST)

'MCTS'는 몬테카를로 방법을 기반으로 한 트리 탐색 알고리즘이다. 효과적인 상황 예측 기법이지만, 많이 복잡하다. 스타크래프트와 같은 실시간 전략 게임(RTS)에는 적용 자체가 불가능했다.

연구팀은 새로운 강화학습법을 통해 가상으로 재현된 게임 데이터를 학습하는 방법으로 대체 모델을 구축했다. 또 이를 활용해 시뮬레이션 일부 결과만으로 상황 예측에 대한 기대값을 추정할 수 있는 대체 모델 기반 MCTS 기법을 설계했다.

이동현 AI대학원 박사과정생(공동 제1저자)은 "기존 MCTS와는 달리 대체 모델을 활용해 게임 내 상태에 대한 기대값을 시뮬레이션 없이 바로 추정할 수 있다"며 "몇 분~몇 시간 걸리던 시뮬레이션 추론 시간을 밀리초(1천분의 1초)~초 단위 범위로 줄이는 데 성공했다"고 말했다.

연구팀은 또 연구 확장성과 재현성을 높이기 위해 대체 모델 학습을 위한 데이터 수집과 스타크래프트 II에서 데이터 분석이 가능한 자체 소프트웨어도 구현했다.

전남대 김만제 AI융합대학 조교수(공동 제1저자)는 "수집된 데이터를 기반으로 대체 모델을 학습한 후 적용한 결과, 게임의 진행 결과를 기존 MCTS 대비 1만 배 빠르게 예측했다"고 설명했다.

데체모델 기반 MCTS 동작 개념도.

안창욱 교수는 “MCTS로 실시간 게임 환경에서 각 개체의 실시간 행동(예, 공격, 후퇴 등) 결정을 가능하게 했다는 데 의의가 있다”며 “향후 상충하는 실세계 응용 문제(자율주행, 주식거래 등)를 푸는데 활용될 수 있을 것"으로 기대했다.

관련기사

이 연구는 한국연구재단 중견연구자지원사업과 정보통신기획평가원(IITP) 인공지능대학원 사업의 지원을 받았다.

연구결과는 다학제 공학 분야 상위 2.5% 국제학술지 '엔지니어링 어플리케이션 오브 아티피셜 인텔리전스' 7월1일자로 게재됐다.