독학으로 알파고 이긴 ‘알파고 제로’ 나왔다

인간을 이긴 알파고가 바둑 규칙 외에 사전 지식 없이 스스로 바둑을 배우는 방식으로 진화, 알파고 자신을 이겼다.

인간은 물론, 세계적인 바둑 강자들을 꺾었던 알파고 구 버전(알파고 리, 알파고 마스터)의 수준을 뛰어넘는 ‘알파고 제로’가 탄생한 것.

딥마인드 창업자인 데미스 하사비스 대표와 소속 연구원 16명은 19일(한국시간) 과학저널 ‘네이처’에 ‘알파고 제로’의 개발 과정을 담은 ‘인간의 지식 없이 바둑 마스터하기’(Mastering the game of Go without human knowledge)란 제목의 논문을 발표했다.

지난해 3월 이세돌 9단을 4대 1로 꺾은 알파고의 이름은 ‘알파고 리’다. 또 이보다 진화해 커제 9단을 격파한 버전은 ‘알파고 마스터’다. 알파고 리와 알파고 마스터는 인간이 만든 정석을 외우거나 기보를 통해 바둑을 학습한 것이 특징이자 공통점이다.

이번에 논문에 소개된 알파고 제로는 스스로 바둑을 깨우쳐 인간의 한계뿐 아니라, 기존 알파고 수준을 뛰어 넘었다. 논문에 따르면 알파고 제로는 바둑 규칙 이외에 정석이나 기보 등 어떤 사전 지식도 없는 상태의 신경망에서 출발했다. 혼자서 바둑을 두고 데이터를 쌓아 스스로 바둑의 이치를 깨달은 것이다.

딥마인드는 인간의 지식으로 AI를 교육ㆍ감독하는 ‘지도 학습 시스템’(supervised learning system)이 아닌, 알파고 제로에는 생물의 뇌와 유사하게 시행착오를 통해 이치를 깨닫는 ‘강화 학습 시스템’(reinforcement learning system)을 적용했다.

이를 통해 알파고 제로는 한 수를 불과 0.4초만에 둘 수 있으며, 바둑의 정수를 스스로 깨닫고 독특한 정석을 개발했다. 이세돌을 꺾은 알파고 리의 수준은 독학 36시간 만에 넘어섰고, 40일 간 2천900만 판을 둔 뒤에는 커제를 3대 0으로 이긴 알파고 마스터와의 대국에서 89승 11패란 성과를 거뒀다.