로마 정치인 키케로처럼...메타, 전략 짜고 협상하는 AI 개발

메타, 전략적 사고와 자연어처리 결합해 AI '키케로' 개발

과학입력 :2022/11/25 09:26    수정: 2022/11/28 15:20

인공지능(AI)은 바둑, 체스, 스타크래프트 등의 게임에서 인간을 압도했다. 이들 게임은 2명의 플레이어가 제한된 규칙 안에서 벌이는 제로섬 게임이라는 공통점이 있다.

메타가 개발한 보드 게임 AI '키케로' (자료=메타)

그렇다면 여러 명이 각자 전략을 짜고 서로 대화하며 협상해야 하는 게임에서도 AI는 실력을 보일 수 있을까? 페이스북과 인스타그램을 운영하는 메타의 연구진이 이를 해 냈다.

메타는 고전 보드 게임 '디플로머시(Diplomacy)'를 사람 수준으로 플레이할 수 있는 AI '키케로'를 개발, 학술지 '사이언스'에 최근 공개했다.

메타는 보드 게임 '디플로머시'를 플레이하는 AI 키케로를 개발했다. (자료=메타)

디플로머시는 1954년 처음 나온 인기 보드 게임이다. 7명의 플레이어가 유럽 국가 중 하나가 되어 서로 협력 또는 배신하면서 유럽 주요 지역을 차지하는 것이 목표다. 플레이어들은 서로 대화하며 설득해 동맹을 맺고 협력을 구해야 하며, 이 과정에서 상대의 의도와 목적을 파악해 전략적으로 움직여야 한다. 주사위를 굴리는 등의 우연적 요소는 없다.

또 바둑이나 체스는 상대방의 움직임을 모두 알 수 있지만, 디플로머시는 상대방의 행보를 알지 못한 채 다음 행동을 예측해야 한다는 것도 AI에겐 어려움을 더한다.

키케로 AI의 구조 (자료=사이언스)

키케로는 디플로머시를 온라인에서 즐길 수 있는 '웹디플로머시닷넷' 사이트에 참여, 사람 참가자 평균의 2배 이상 되는 점수를 얻었다. 또 한 번 이상 게임에 참여한 전체 참가자 중 상위 10% 안에 들었다. 이는 바둑이나 체스에서와 같은 압도적 결과는 아니지만, 그간 AI에게 거의 불가능하다 여겨졌던 전략과 추론, 협상의 영역에서 얻은 결과라는 점에서 의미있다는 평가다.

메타의 수석 AI 과학자 얀 르쿤은 "키케로는 전략적 추론과 자연어처리라는 AI의 양대 분야를 결합한 결과"라며 "디플로머시처럼 복잡한 전략적 게임을 인간 수준으로 플레이할 수 있다는 것은 협업적 AI 개발의 큰 진전"이라고 말했다.

키케로의 대화 속 의도가 미치는 영향 (자료=사이언스)

키케로는 가장 유리한 전략을 선택해야 하며, 보통 이 전략은 다른 플레이어에게도 유익해야 한다. 이는 바둑과 같이 두 명이 플레이하는 게임의 수를 예측하는 것보다 훨씬 난이도가 높다. 참가자가 7명이나 되기 때문에 알파고를 훈련시킬 때 썼던 서로 무한히 대국을 반복하는 방법도 쓰기 어렵다.

또 좋은 전략을 선택했더라도 다른 플레이어와의 대화가 어색하면 협력을 끌어낼 수 없기 때문에 고도의 자연어처리 기술이 필요하다. 웹디플로머시닷넷에서 플레이어들은 서로 채팅으로 대화하며, 참가자들은 키케로가 AI라는 사실을 몰랐다.

연구진은 키케로가 게임 중 매번 움직일 떄마다 게임 보드의 상황과 과거 대화 이력을 살피면서 다른 참가자의 행동을 예측하는 모델을 만들게 했다. 이어 이같은 계획을 바탕으로 다른 참가자와 자연스럽게 대화하며 원하는 결과를 끌어내도록 언어모델을 통제하는 '통제적 대화'를 가능하게 했다.

키케로는 디플로머시를 플레이하며 다른 플레이어와 적절한 대화를 나눈다. (자료=메타)

이를 위해 연구진은 27억 개의 파라미터를 가진 자연어처리 모델을 웹디플로머시닷넷에서 플레이된 4만 판의 게임으로 미세 조정해 훈련시켰다.

관련기사

메타는 디플로머시를 플레이하는 키케로를 통해 복잡한 이해관계를 이해하고 조정하며, 자연스러운 언어로 대화하는 AI 개발에 한걸음 다가섰다고 평가했다. 향후 AI가 고객 응대를 위한 단순 질의응답을 넘어 직무 훈련을 위한 길고 복잡한 대화를 이어가거나, 게임에서 플레이어의 의도를 이해하고 그에 맞춰 대화하는 NPC를 개발하는 등에 응용될 수 있으리란 기대다.

메타는 키케로를 오픈소스로 공개, AI 연구자들이 다양한 활용 방안을 찾도록 할 방침이다.