독학으로 알파고 이긴 ‘알파고 제로’ 나왔다

딥마인드 네이처 논문 발표…“인간 지식 없이 자가 학습”

인터넷입력 :2017/10/19 11:47    수정: 2017/10/19 11:48

인간을 이긴 알파고가 바둑 규칙 외에 사전 지식 없이 스스로 바둑을 배우는 방식으로 진화, 알파고 자신을 이겼다.

인간은 물론, 세계적인 바둑 강자들을 꺾었던 알파고 구 버전(알파고 리, 알파고 마스터)의 수준을 뛰어넘는 ‘알파고 제로’가 탄생한 것.

딥마인드 창업자인 데미스 하사비스 대표와 소속 연구원 16명은 19일(한국시간) 과학저널 ‘네이처’에 ‘알파고 제로’의 개발 과정을 담은 ‘인간의 지식 없이 바둑 마스터하기’(Mastering the game of Go without human knowledge)란 제목의 논문을 발표했다.

지난해 3월 이세돌 9단을 4대 1로 꺾은 알파고의 이름은 ‘알파고 리’다. 또 이보다 진화해 커제 9단을 격파한 버전은 ‘알파고 마스터’다. 알파고 리와 알파고 마스터는 인간이 만든 정석을 외우거나 기보를 통해 바둑을 학습한 것이 특징이자 공통점이다.

데미스 하사비스 딥마인드 CEO

이번에 논문에 소개된 알파고 제로는 스스로 바둑을 깨우쳐 인간의 한계뿐 아니라, 기존 알파고 수준을 뛰어 넘었다. 논문에 따르면 알파고 제로는 바둑 규칙 이외에 정석이나 기보 등 어떤 사전 지식도 없는 상태의 신경망에서 출발했다. 혼자서 바둑을 두고 데이터를 쌓아 스스로 바둑의 이치를 깨달은 것이다.

딥마인드는 인간의 지식으로 AI를 교육ㆍ감독하는 ‘지도 학습 시스템’(supervised learning system)이 아닌, 알파고 제로에는 생물의 뇌와 유사하게 시행착오를 통해 이치를 깨닫는 ‘강화 학습 시스템’(reinforcement learning system)을 적용했다.

이를 통해 알파고 제로는 한 수를 불과 0.4초만에 둘 수 있으며, 바둑의 정수를 스스로 깨닫고 독특한 정석을 개발했다. 이세돌을 꺾은 알파고 리의 수준은 독학 36시간 만에 넘어섰고, 40일 간 2천900만 판을 둔 뒤에는 커제를 3대 0으로 이긴 알파고 마스터와의 대국에서 89승 11패란 성과를 거뒀다.

커제 9단과 알파고 마스터 간 바둑 대결에서 결국 AI가 승리를 거머쥐었다. 그러나 알파고 마스터를 개발한 딥마인드는 인간과 협업할 수 있는 AI를 만드는 것이 알파고의 최종 목표라고 밝혔다.

알파고 제로는 컴퓨팅 파워에서도 효율성을 높였다. 알파고 리에는 구글이 만든 반도체 칩 텐서프로세싱유닛(TPU) 48개가 적용됐으나, 알파고 제로는 4개만으로 작동한다.

알파고 제로는 AI 스스로 데이터를 만들어 문제 해결이 가능한 길이 열렸다는 점에서 놀라움을 안긴다. 인간이 알지 못하거나 어려움을 겪는 분야에서 AI가 스스로 학습해 더 뛰어난 성능을 보일 수 있다는 것.

관련기사

딥마인드는 블로그를 통해 “알파고 제로는 새로운 지식을 발견했고 새로운 수를 창조했다”며 “우리는 이런 창조력을 보고 인간의 독창성을 배가할 수 있을 것으로 확신했다”고 밝혔다.

또 허사비스 등 논문 저자들은 알파고 제로가 기존 버전을 압도하는 이유에 대해 “인간 지식의 한계에 더 이상 속박되지 않기 때문”이라고 설명했다.