스스로 학습한 알파고, 앞으로가 더 무섭다

소량 데이터만으로도 성능 향상…범용 AI 탄생도 가능

컴퓨팅입력 :2017/05/25 12:57

손경호 기자

구글 인공지능(AI) 알파고가 무섭게 성장했다. '바둑 최고수'와 대결에서 이겼다는 사실을 넘어 다양한 영역에 활용할 수 있는 가능성까지 보여줬다.

알파고는 지난 23일 저장성 우전 국제인터넷컨벤션센터에서 열린 커제 9단과 대결에서 완벽한 승리를 거뒀다. 겉으로 드러난 건 '한집반' 차이였지만, 사실상 중반 이후부턴 완벽하게 승리했다는 평가를 받았다.

이날 경기 직후 구글 딥마인드의 데미스 하사비스 최고경영자(CEO)는 알파고 승리 비결을 묻는 질문에 의미심장한 대답을 했다.

그는 간담회에서 "알고리즘은 데이터의 양보다 더 중요하다"면서 "알파고는 다양한 작업을 수행할 수 있는 자기 학습 능력을 갖고 있다"고 강조했다. 하사비스는 또 "우리 회사의 핵심 기술은 지도학습과 강화학습의 깊이"라고 덧붙였다.

1년 전 알파고는 인간들의 엄청난 기보를 반복 학습하면서 실력을 키웠다. 하지만 돌아온 알파고는 수많은 데이터를 입력하지 않고서도 알아서 학습하면서 실력을 키웠단 얘기다.

데미스 하사비스 딥마인드 CEO는 데이터 양보다는 지도학습, 강화학습을 통한 인공신경망의 깊이가 중요하다고 강조했다.

■ 스스로 학습하는 AI, 인공신경망 더 깊어졌다

초기 알파고는 2개 심층인공신경망(딥뉴럴네트워크)을 써서 바둑의 복잡한 수를 읽을 수 있도록 했다. 이세돌과 대결했던 알파고는 16만개 기보를 학습하면서 인간 바둑기사들의 수에서 특정한 패턴을 찾아낸 뒤 이러한 기초지식을 바탕으로 셀프대국(강화학습)을 통해 실력을 키웠다.

기계(컴퓨터)를 학습시켜 나중에는 알아서 어떤 행동을 하도록 이끄는 머신러닝 중 더 많은 인공신경망 계층을 쌓아 정확도를 높이는 방법을 '딥러닝'이라고 부른다.

딥마인드에서 알파고팀을 이끌고 있는 데이비드 실버 책임 개발자에 따르면 알파고는 이세돌 버전에서 12개 계층을 뒀지만 마스터 버전은 40개 계층을 쌓았다. 알파고의 경우 이러한 딥러닝을 통해 인공신경망의 계층을 두텁게 쌓았다는 점이 심지어 바둑 대결에서까지 인간 최고수들을 꺾을 수 있었던 비결 중 하나로 꼽힌다.

커제 9단과 알파고의 1국이 중반을 넘어서는 중이다.(사진=바둑TV 화면캡처)

하지만 더 흥미로운 점은 따로 있다. 알파고가 사람이 입력한 데이터에만 의존하지 않고 스스로 학습해 훈련을 거쳐 이러한 인공신경망의 깊이를 더 깊게 만들 수 있는 능력이 개선됐다는 사실이다.

중국에서 개최 중인 바둑의 미래 서밋 둘째날인 24일 열린 AI의 미래 포럼에서 하사비스 CEO는 "이 시스템은 적은 데이터만 있어도 자기 스스로 더 많이 학습할 수 있다"고 강조했다.

새로운 알파고의 경우 아무런 데이터가 없는 상태에서 실력을 키운 것이 아니라 더 적은 데이터만으로도 원하는 결과를 얻을 수 있을 만큼 알고리즘의 성능이 개선됐다는 뜻이다.

딥러닝에서 말하는 지도학습은 사전에 데이터를 입력해서 알고리즘이 학습을 거쳐 특정한 패턴을 발견한 뒤 이를 자신이 갖고 있는 인공신경망에 기록하는 작업을 진행한다. 여러 패턴을 발견해 많은 계층을 쌓아 놓을수록 이후에 새로운 데이터가 주어졌을 때 더 정확하게 임무를 수행한다.

이에 더해 스스로 게임을 두는 방법으로 이길 확률이 높은 수를 찾아가는 과정을 강화학습이라고 부른다.

지난해 이세돌과 겨뤘던 알파고와 비교해 커제와 대결을 펴고 있는 새로운 알파고는 강화학습 능력을 끌어올리면서 바둑 뿐만 아니라 헬스케어, 전력효율관리, 로봇 등 분야에서 쓰일 수 있다는 사실을 증명했다.

■ 알아서 학습하는 AI, 활용영역 무궁무진해

앞서 알파고에 쓰인 AI는 이미 구글 데이터센터의 냉각설비를 구동해 전력효율성을 최대치로 끌어올리는 것은 물론 별다른 지시 없이도 실패를 거듭한 로봇팔이 끝내 알아서 문을 여는 등 미션을 수행했다.

딥마인드가 알파고를 통해 구현한 기술은 영국 전력망의 효율성을 높이는 프로젝트에 적용되기도 했다.

영국 국민보건서비스(NHS)도 이 회사가 개발한 AI시스템을 활용, 지역이나 병원 내 특정 진료과에 상관없이 동일한 의료 서비스를 지원받을 수 있게 했다. AI시스템이 사전에 학습한 내용을 바탕으로 환자에 대한 초진을 빠르게 완료해 의사들이 어떤 부분을 중점으로 봐야하는지를 돕는다.

IT매체 와이어드에 따르면 이러한 강화학습은 알파고 외에도 우버가 인공지능(AI) 에이전트를 활용해 GTA라는 게임 속에서 차를 운전하도록 하는 실험, 일론머스크가 만든 오픈AI를 통한 많은 게임, 시뮬레이션 분야에 적용해 보는 중이다.

지난 2월에는 수 읽기 보다는 상대방을 속이는 심리전이 필요한 포커게임에서도 AI가 인간 대표들을 이겼다. 미국 카네기멜론대 연구팀이 개발한 '리브라투스(Libratus)' 역시 스스로 포커게임을 벌이며 시행착오를 줄인 강화학습이 쓰였다.

관련기사

구글 브레인 제프 딘 책임자는 "우리가 가려는 방향은 시스템(AI)이 그들 스스로 더 많은 것을 배울 수 있는가, 그들이 주변 환경과 어떤 방식으로든 상호작용해서 그 환경에서 어떻게 하면 더 잘 해낼 수 있는지를 배울 수 있는가에 달렸다"고 설명했다.

때문에 "만약 연구자들이 정확한 시뮬레이션과 AI 에이전트를 만들어 충분한 시간을 학습시킬 수 있다면 이들이 거의 모든 업무를 다루는 법을 배울 수 있게 될 것"이라는 그의 말은 더욱 의미심장하게 다가온다.