사전학습 없이 알아서 문제 해결하는 AI 가능성 확인

인공지능과 사람과의 게임 대결 등을 진행해 온 오픈AI가 마치 사람이 진화하듯 AI가 스스로 간단한 도구를 사용하는 등 스스로 학습하는 과정을 확인했다고 밝혔다.

AI가 사전 학습 없이 스스로 문제 해결을 할 수 있는 능력을 갖추게 되면 학습 과정이 복잡하거나 데이터가 부족해 사전 교육자료를 만들기 어려운 분야에서도 AI를 활용할 수 있을 것으로 보인다.

비영리 인공지능 연구단체 오픈AI는 사전 학습 없이 AI가 스스로 학습해 문제를 테스트하는 과정을 17일(현지시간) 공식 블로그를 통해 밝혔다.

알파고 등 기존 강화학습 AI는 기본적인 규칙을 학습하기 위해 바둑기사가 둔 기보와 같은 방대한 양의 데이터가 필요했다.

오픈AI는 이런 사전 학습 과정을 없애고 AI가 스스로 해결 방법을 찾는 방식이 어떤 결과를 가져오는지 확인하기 위해 테스트를 진행했다.

이 테스트는 독립적으로 나눠진 다수의 AI가 은신자와 추격자 두 팀으로 무작위로 생성된 벽과 블록이 있는 3D 경기장에서 경쟁하는 방식이다.

두 AI팀은 별도의 사전 학습이 제공되지 않았고 서로에게 높은 점수를 얻어야 한다는 목표만 주어졌다. 모든 은신자가 안전하게 숨으면 은신자 팀에 1점이 추가되고 추격자가 팀은 1점이 차감된다. 추격자가 은신자를 찾으면 점수는 반대로 적용된다.

테스트 시작 초기에는 은신자는 추격자보다 몇 초 먼저 움직일 수 있으며 블록을 움직이거나 상대가 움직일 수 없도록 고정하는 능력을 가지고 있다. 반면 추격자는 은신자가 고정시킨 것을 제외한 모든 블록을 움직일 수 있으며 블록이나 벽으로 시야가 막히지 않은 모든 방향을 보고 추격자를 찾을 수 있다.

학습 초기 은신자는 추적자의 시야에서 멀어지기 위해 단순히 빠르게 움직이는 모습을 보였다.

약 2천 500만 번 테스트를 반복한 결과 은신자는 추적자의 접근을 막기 위해 블록을 집어 들고 이동시켜 문을 봉쇄하는 등 도구를 활용하는 모습을 보였다. 특히 시간이 지날수록 추적자가 움직이기 전에 문을 봉쇄하기 위해 은신자 팀의 두 AI가 각자 문을 막는 등 협동하는 모습도 확인할 수 있었다.

7천 5백만 번 테스트가 반복되면서 추적자는 경사진 블록을 벽에 설치 후 뛰어넘어 상대를 찾아내기 시작했다. 여기에서 다시 은신자는 문을 봉쇄하기에 앞서 미리 방 안쪽으로 경사진 블록을 끌고 들어와 추적자가 사용하지 못하도록 대처하는 식으로 발전했다.

AI는 학습하는 과정을 통해 연구팀이 예상하지 못한 방법을 찾아내기도 했다. 3억 8천만 번의 테스트가 반복되자 추격자 AI는 블록 위에 올라탄 상태에서도 블록을 이동시킬 수 있다는 것을 발견한 이후 블록을 타고 이동하며 은신자를 찾고 이미 블록을 쌓아 만든 대피소도 뛰어 넘어 들어가는 모습을 보였다.