돌아온 알파고가 또 다시 세상을 깜짝 놀라게 했다. '알파고 제로'로 명명된 이번 버전은 혼자서 바둑을 깨치면서 범용 인공지능(AI)의 가능성을 보여줬다.
구글 딥마인드는 18일(현지시간) 과학잡지 네이처를 통해 발표한 '인간 지식 없이 바둑 정복하기(Mastering the game of Go without human knowledge)' 논문을 통해 알파고 제로를 소개했다.
알파고 제로는 학습데이터 없이 출발했다. 그냥 바둑판에 검은 돌과, 흰 돌을 놓는 방법만 알려줬다. 그런데도 불과 사흘 만에 이세돌 9단을 꺾었던 알파고 리 수준을 넘어섰다.
그리고 40일 뒤에는 커제 9단을 비롯한 프로 기사들을 완벽하게 제압했던 알파고 마스터와 대국에서도 승리했다.
이런 사실이 알려지면 1년 반 만에 또 다시 '알파고 바람'이 불고 있다. 또 다른 기술적 진전을 이뤄내면서 '범용 AI'로 진화 발전할 가능성을 보여줬다는 평가다.
■ 사람 지식 없이도 똑똑해진 '알파고 제로'
5개월여 전 한층 강력해진 알파고 마스터가 돌아왔을 때 관심이 그리 뜨겁지 않았다. 딥러닝과 강화학습으로 무장한 AI 알고리즘이 인간보다 한 수 위란 건 이젠 기정사실화됐턴 탓이다.
실제로 딥마인드 내부에서도 커제 9단과의 대국 승부에 큰 의미를 두지 않았단 얘기가 들렸을 정도였다.
그런데 알파고 제로에 대한 관심은 뜨겁게 달아오르고 있다.
물론 알파고 제로의 성능은 관심을 갖기에 충분한 수준이다. 불과 사흘 동안 셀프대국만 진행한 뒤에 알파고 리와 둔 100판을 모두 이겼기 때문이다.
그리고 40일 뒤엔 알파고 마스터와 대국에서는 90% 가까운 승률(89승11패)을 기록했다.
하지만 관심이 쏠리는 건 이런 외적인 대국 결과 때문만은 아니었다. 기존 지식이나 데이터 없이 스스로 실력을 배양했다는 부분에 더 큰 관심이 쏠렸다.
알파고 대국 해설을 맡기도 했던 바둑AI 전문가 아주대 감동근 교수는 알파고 제로가 크게 3가지 점에서 의미가 있다고 설명했다.
먼저 알파고 제로가 스스로 대국을 진행하는 강화학습만으로도 이전까지 기보 데이터가 필요한 지도학습 기반 AI 알고리즘을 뛰어넘었다는 사실이다. 감 교수는 "이론적으로 가능할 수도 있던 것을 실제로 성공시켰다는 점에서 알파고 제로 보다 딥마인드 팀이 놀랍다"고 말했다.
두번째는 바둑을 두는데 필요한 기본 지식 중 하나인 '축'에 대한 개념을 사람이 직접 입력하지 않은 상태에서도 나중에 알아내더라는 것이다. 알파고 제로의 경우 현재 바둑판의 상태와 7수 전까지의 상태, 즉 바둑판 자체에 대한 정보가 입력 받고서도 축과 비슷한 방식을 이용하더라는 것이다.
세번째로는 이전 버전에 정책망, 가치망이라는 2개 인공신경망을 썼던 것과 달리 하나의 신경망만으로도 뛰어난 성능을 낼 수 있도록 했다는 사실이다.
■ 에너지 절감-로보틱스서 활용도 커졌다
이런 부분만으로도 알파고 제로에 대한 관심을 다 설명하진 못한다. 더 큰 관심은 '확장 가능성'이다. 범용 학습을 통해 실력을 배양할 수 있다면 다른 영역에도 확대 적용할 수 있다는 얘기이기 때문이다.
그렇다면 바둑에서 뛰어난 성능을 보였던 알파고 제로는 어떤 영역에 활용될 수 있을까
딥마인드 공식 블로그에 그 힌트 일부가 나온다.
"(알파고 제로가 보여준) 창의성은 AI가 인간의 천재성을 높일 것이라는 자신감을 심어줬다. 우리의 목표는 인간이 처한 가장 중요한 문제들을 해결하는데 도움을 주는 것이다."
이어서 딥마인드는 "아직 초기이기는 하지만 알파고 제로는 이런 목표를 이루기 위해 중요한 단계를 넘어서게 한 것"이라며 "이와 유사한 기술들이 단백질 구조 연구, 에너지 절감, 새로운 물질 개발 등 문제를 해결하는데 비약적인 발전을 거두게 할 것"이라고 강조했다.
실제로 알파고 마스터 버전에 쓰인 AI 기술은 구글 데이터센터에도 적용됐다.
데이터센터 내 수천 개 센서로부터 온도, 전력량, 냉각펌프의 운영속도, 각종 설정값 등을 인공신경망에 학습시킨 뒤 이를 적용해 장비나 날씨 등 외부 환경에 따라 최대 40%까지 에너지 소비량을 절감한 것이다.
이전보다 효율성을 개선한 알파고 제로는 이런 분야에서 더 큰 효과를 낼 수 있을 것으로 전망된다.
또 다른 주목할만한 분야는 로보틱스다. 이미 알파고에 쓰인 강화학습은 로봇이 수많은 시행착오 끝에 원하는 목표를 달성할 수 있게 돕는다. IT매체 와이어드 보도에 따르면 구글은 로봇팔이 문고리를 잡아 문을 여는 것을 목표로 강화학습을 활용해보는 테스트를 진행했다. 여기에 알파고 제로를 활용할 경우 시행착오를 줄이면서도 원하는 목표를 이룰 수 있게 될 것으로 예상된다.
일본 히타치 연구개발팀은 지난해 그네 타는 로봇 영상을 공유했다. 여기서는 딥러닝과 강화학습을 적용해 수없이 그네를 타는 동작을 반복한 로봇이 결국에는 사람보다 더 높이 그네를 탈 수 있게 되는 모습을 보여준다.
이와 관련해 카카오AI리포트 8월호에서 딥러닝 개발자인 엄태웅씨는 '딥러닝 연구의 현재와 미래 part2'라는 글에서 "강화학습은 에이전트가 직접 환경변수들을 탐색해 이에 대한 보상을 확인해 최적의 행동에 대한 정책(함수)을 찾아가는 생명체의 학습과 유사한 학습과정을 이용하는 방법론"이라고 정의했다.
이어 "로보틱스 분야에서 딥러닝을 적극적으로 받아들여 물건 집기 등과 같은 작업에서 좋은 결과를 얻고 있다"고 덧붙였다.
■ 강화학습 활용하기 위한 3대 조건
딥러닝 전문 스타트업 보이저X를 차린 남세동 대표는 자신의 페이스북에서 강화학습은 크게 3가지 조건이 필요하다고 설명했다.
먼저 환경이 있어야 한다. 바둑, 슈퍼마리오, 주식시장 등이 그렇다. 또한 이런 환경에서 객관적으로 성과를 측정할 수 있는 점수가 필요하다. 끝으로 이 과정에서 스스로 학습해 더 많은 점수를 따낼 수 있는 함수를 만들어내는 알파고와 같은 에이전트다.
앞서 구글 데이터센터 냉각시설 효율성을 높이고, 로봇 팔이 문고리를 열고, 소형 로봇이 그네를 타는 등 사례는 구체적인 목표가 정해져 있고, 데이터도 바로 쉽게 확보할 수 있다는 점에서 강화학습을 활용하기 적절한 분야로 꼽힌다.
■ 변수 많은 영역은 여전히 미개척지
그러나 이와 달리 단백질 구조 분석, 신약개발 등은 변수가 많고, 바둑이나 다른 게임처럼 룰이 정해져 있고, 여기서 점수를 많이 따는 방식으로 해결하기 힘든 미지의 영역을 개척하는 일은 만만치 않다.
영국 BBC는 딥마인드 알파고 개발팀 총괄인 데이비드 실버와 인터뷰에서 "알파고팀은 새로운 영역에 이런 기술을 활용하기 위한 새로운 프로젝트를 진행할 생각"이라며 "과학과 의료 영역의 최전선에서 진전이 있기를 바란다"고 말했다.
다만 알파고 개발팀 스스로도 알파고 제로가 아직 여러 영역에 활용할 수 있는 범용 AI로 보기는 힘들다고 말한다.
관련기사
- 혼자 바둑 정복한 알파고 제로, 왜 대단한가2017.10.20
- 독학으로 알파고 이긴 ‘알파고 제로’ 나왔다2017.10.20
- 바둑 정복한 구글, 스타크래프트2 AI 개발 착수2017.10.20
- 인간한계 넘은 AI, '인간의 동반자' 될까2017.10.20
"게임처럼 명백한 룰이 있는 분야와 달리 운이 작용하거나 변수가 많고, 예측할 수 없는 현실 세계에 이런 기술을 활용하는 것은 또 다른 일"이라는 뜻이다.
알파고 제로는 인간 지식 없이도 스스로 학습해 특정한 목표를 이룰 수 있는 강화학습을 더 효율적으로 구현할 수 있다는 사실을 입증했으나 여전히 세상 모든 문제를 사람 손 없이 해결할 수 있는 '만능 AI'라 보기는 어렵다.