인간한계 넘은 AI, '인간의 동반자' 될까

돌아온 알파고는 더 강력했다. 이와 함께 인공지능(AI)의 존재감도 한층 커졌다.

지난 해 3월 이세돌 9단을 격파하면서 세상을 깜짝 놀라게 했던 구글 알파고가 1년 만에 또 다시 대형 사고를 쳤다. 이번엔 한층 업그레이드된 알파고 마스터는 세계랭킹 1위 커제 9단과 3번의 바둑 대결에서 모두 승리하면서 'AI 파워'를 유감 없이 과시했다.

물론 이는 어느 정도 예견됐던 결과였다. 올해 초 온라인 바둑 대국에서 마스터라는 ID를 쓰는 새로운 알파고가 커제 9단을 포함한 인간과 대결에서 이미 60전60승을 올리며 실력을 과시했다.

대회 전 이세돌 9단의 압승을 점쳤던 지난 해와 달리 올해는 "제 아무리 커제9단이라고 알파고를 이기긴 힘들 것"이란 분위기가 우세했다.

이런 가운데 구글 딥마인드는 올해는 '인간과의 대결'을 넘어선 새로운 가능성을 선보이는 데 많은 공을 들였다. 인간과 알파고가 한 팀을 이뤄 상대팀과 겨루는 복식전(Pair Go), 정상급 프로 바둑기사들과 알파고가 5:1로 겨루는 단체전(Team Go) 등을 연이어 마련했다.

알파고를 개발한 딥마인드는 이제는 인간과 경쟁이 아니라 어떻게하면 잘 협업할 수 있을가에 대한 메시지를 던지는데 집중했다.

커제 9단과 알파고 마스터 간 바둑 대결에서 결국 AI가 승리를 거머쥐었다. 그러나 알파고 마스터를 개발한 딥마인드는 인간과 협업할 수 있는 AI를 만드는 것이 알파고의 최종 목표라는 점을 거듭 강조했다.(사진=구글)

23일부터 27일까지 5일 간 중국 저장성 우전 국제인터넷컨벤션센터에서 열린 '바둑의 미래 서밋'을 몇 개 키워드로 정리해 봤다.

■삼삼수, 커제의 역공...알파고의 반격

올해 대결에서 가장 눈길을 끈 것은 '알파고를 응용한 바둑'이었다. 인간 최고수 커제 9단의 알파고의 전유물인 '삼삼(三三)수'를 들고 나와 관심을 모았다.

바둑용어 중 하나인 삼삼은 바둑판에 돌을 놓는 위치를 나타내는 말이다. 네 모서리에서 가로 3번째, 세로 3번째 위치를 삼삼이라고 부른다.

커 9단은 알파고 마스터와 1국 3번째, 7번째 수에서 좌상귀 삼삼, 우하귀 삼삼에 돌을 놨다. 경기를 지켜보던 바둑 해설가들도 깜짝 놀랄만한 수였다. 프로바둑에서는 초반부터 네 곳 귀퉁이를 노리는 이런 수가 나오지 않기 때문이다.

삼삼은 네 곳의 모서리에서 자신의 집을 안전하고 짓고 이를 지키기 위한 방법으로 쓰인다. 반대로 상대방이 바둑판에 굵은 점으로 표시된 네 귀퉁이(화점) 중 어느 한 곳에 수를 놓았을 경우 해당 지역에서 실리를 취하기 위한 방법으로도 쓰인다.

그러나 초반 삼삼수는 바둑 고수들 사이에선 오히려 좋지 않은 수로 꼽힌다. 귀퉁이의 집을 상대에게 내주는 대신 중앙으로 진출할 수 있는 기회를 도모할 수 있는 등 파해법이 많기 때문이다.

그럼에도 불구하고 커 9단은 왜 초반 삼삼에 두 번이 흑돌을 놓았을까?

그동안 알파고는 초반 삼삼을 공략하는 수를 자주 뒀다. 인간 고수들과는 전혀 다른 방식으로 바둑에 접근한 것이다. 커 9단은 알파고가 즐겨두는 곳에 자신이 돌을 놓으면서 흔들기를 시도했으나 알파고에게는 통하지 않았다.

2국에서는 흑돌을 쥔 알파고가 소목에 첫 수를 둔 다음 좌하귀에 삼삼수를 두면서 자신의 장기를 발휘했다. 커 9단과 대결에서 알파고 마스터는 1국에서는 커 9단의 초반 삼삼수에 대응하는가하면, 2국에서는 자신이 삼삼수를 공략하며 커 9단을 압박했다.

인간 프로 바둑기사들 사이에서는 불문율처럼 여겨지는 초반 삼삼수가 알파고에게는 두면 좋고, 안 둬도 이길 수 있는 그저 그런 수였던 모양이다.

1국에서는 커제 9단이, 2국에서는 알파고 마스터가 초반에 삼삼에 수를 뒀다.(자료=구글)

3국에서는 초반 삼삼수는 나오지 않았다.

■ 이세돌 버전보다 10분의1 컴퓨팅 파워 TPU의 힘

"최신 버전 알파고는 지난 구글I/O에서 공개된 단일 TPU머신을 통해 작동하며 지난해 버전보다 컴퓨팅 파워를 10분의 1수준으로 쓰면서도 더 빨리 배운다."

커제 9단과 알파고 마스터의 1국이 끝난 뒤 현지에서 열린 기자간담회에선 깜짝 발언이 나왔다. 딥마인드 알파고팀을 총괄한 데이비드 실버 책임 개발자가 알파고에 사용된 컴퓨팅 파워를 공개하면서 머신러닝 개발자들을 놀라게 만들었다.

커 9단과 대국에 나선 알파고 마스터는 최근 구글 연례 개발자 회의에서 공개된 차세대 텐서프로세싱유닛(TPU)인 클라우드TPU를 활용했다.

클라우드TPU는 프로세서 모듈 1개에 연산성능 45테라플롭스(TFLOPS) 짜리 칩 4개를 얹어 180TFLOPS 성능을 낸다.

알파고 마스터는 클라우드TPU를 탑재한 1개 머신을 통해 이세돌과 겨뤘던 버전 대비 10분의 1의 컴퓨팅 파워만 소모한다.(사진=구글)

이를 통해 수많은 데이터를 학습해 특정한 패턴을 찾아내는 머신러닝, 그 중에서도 여러 계층을 복잡하게 얹어 더 정교하게 의사결정을 할 수 있게 도와주는 딥러닝을 1년만에 훨씬 적은 비용으로 더 빠르게 수행할 수 있다는 사실을 확인했다.

■강화학습, 뭐가 다르길래

데미스 하사비스 딥마인드 최고경영자(CEO)는 커제 9단과 알파고 마스터의 대결이 열린 '바둑의 미래 서밋'에서 알파고 성능 향상의 비결로 '강화학습(Reinforcement Learning)'을 거듭 강조했다.

기계를 학습시키는 방법을 말하는 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 구분된다.

카카오AI리포트 Vol.1에 따르면 지도학습은 입력된 데이터에 대한 판단 결과가 명확히 주어진 경우 사용된다. 예를들어 아이들에게 자동차 종류에 대한 그림책을 보여주면서 승용차, 버스, 트럭이 뭔지를 알려주면 밖에 나간 아이들이 도로를 지나가는 차를 보면서 승용차인지, 버스인지를 구분할 수 있게 되는 식이다.

이와 달리 비지도학습은 입력된 데이터에 대한 판단 결과가 명확히 주어지지 않은 경우 사용된다. 예를들어 서울로 출퇴근하는 사람들의 이동경로데이터만 알고 있는 경우 기계가 이 데이터를 활용해 이들이 사는 지역, 출근 지역 등 특정 패턴에 따라 분류해낸다.

강화학습은 주어진 문제의 답이 명확하게 뭔지 떨어지지는 않지만 결과에 따라 보상과 손실이 주어질 경우 보상을 최대한 많이 받는 방법을 학습하는 식이다. 아타리사가 개발한 벽돌깨기 게임에서 처음에는 공이 오더라도 별다른 행동을 취하지 않다가 이후에는 학습을 통해 공을 받아내는 모습을 확인할 수 있다.