인공지능의 한 갈래인 머신러닝에 대한 관심이 뜨겁다. 시장 판세에 큰 영향을 미칠 수 있는 기술 패러다임으로 대접받는 모습이다. 그러나 머신러닝에 대한 과도한 환상을 지적하는 목소리들도 적지 않다. 머신러닝 현장에 뛰는 이들은 한목소리로 냉정하고 현실적인 접근이 필요하다고 강조한다. 가볍게 보면 큰코 다칠 수 있다는 경고의 메시지일 것이다. 지디넷코리아는 3회에 걸쳐 머신러닝 기술에 담긴 의미, 업계 상황, 제대로 쓰기 갖춰야할 요소들을 짚어봤다. <편집자주>
---------------------------------------
*글 싣는 순서
1)구글CEO도 흥분시킨 머신러닝의 세계
---------------------------------------
듣기만 해선 무슨 의미인지 잘 와닿지가 않는 머신러닝(Machine Learning)이란 기술이 글로벌 IT시장의 격전지로 급부상했다. 구글, 페이스북, 야후, 트위터 같은 거물급 글로벌 IT기업들이 경쟁력 강화를 위해 머신러닝 전문 업체를 삼켰다는 소식이 줄을 잇고 있다.
머신러닝을 좀 해봤다는 스타트업이나 인력들의 몸값도 껑충 뛰었다. 머신러닝에 '머'지만 꺼내놔도 관심을 끄는 것이 요즘 글로벌 IT 업계 분위기다.
머신러닝은 인공 지능의 한 분야로 컴퓨터가 데이터를 통해 학습하고 사람처럼 어떤 대상 혹은 상황을 이해할 수 있게 하는 기술이다. 스스로 학습할 수 있는 컴퓨터가 사용자를 이해한다면 이전에 할 수 없었던 방식의 서비스가 가능해진다는게 업계 설명이다.
머신러닝은 컴퓨터가 데이터를 분석할 수 있게 하는 알고리즘을 짜는 것이 핵심이다. 데이터를 활용하는 알고리즘을 정교하게 만들면 컴퓨터가 스스로 학습해가며 사용자들에게 의미있는 결과물을 제공할 수 있다는 것이다.
머신러닝 분야 전문가들은”‘사용자로부터 나오는 데이터는 계속 증가하는데 이걸 갖고 무엇을 할 것이냐는 문제가 있을 수 밖에 없다’면서 “머신러닝은 피해갈 수 없는 대세가 될 것이다”고 말한다.
머신러닝이란 대세는 IT업계와 일반 사용자들에게 어떤 변화를 몰고올까? 초기 단계다보니 전문가들이 아니고서는 머신러닝의 디테일을 체감하기 힘든 것이 현실이다. 내일 당장 영화 '허(Her)'처럼 인공지능을 갖춘 환상적인 서비스가 뚝딱 만들어질것 같는 근거없는 낙관론까지 나오는 실정이다. 기대가 크면 실망 또한 큰법, 머신러닝에 대한 과도한 환상은 또 하나의 기술 거품으로 이어질 수 있다. 머신러닝에 대해 오버하지 말고 처음부터 제대로 바라보는 것이 중요하다는 것이 전문가들의 지적이다.
■머신러닝, 빅데이터나 인공지능과 다른 건가?
머신러닝 기술은 뭐할려고 쓰는지 얘기할 때 ‘예측’이라는 말이 빼놓지 않고 등장한다. 머신러닝 기술을 이용하면 과거 데이터를 기반으로 미래를 예측할 수 있다는 것이다.
개념만 보면 머신러닝은 빅데이터에 담긴 메시지와 비슷해 보인다.
결론부터 말하면 빅데이터와 머신러닝은 연관성은 있지만 각자의 길을 걷는 기술이다. SW개발 업체 티그레이프에서 머신러닝을 이용한 주가예측 애플리케이션을 개발한 유인관 박사는 빅데이터는 대규모 데이터를 처리하는 기술이고, 머신러닝은 빅데이터에서 어떻게 유용하게 정보를 이용할 수 있을까 생각하다 보니 나오게 된 것이다”고 설명했다. 데이터를 이용하기 위해선 모델링이 필요한데, 이걸 사람이 아니라 컴퓨터가 알아서 하게 하는 것이 머신러닝이라는 얘기다.
네이버랩스의 김정희 수석연구원은 머신러닝을 데이터 드리븐(중심적) 모델링 방법이라고 설명한다. 그는 머신러닝을 사용해 네이버 N드라이브에서 사진을 카테고리 별로 자동 분류해 주는 서비스를 개발하고 있다.
그에 따르면 머신러닝은 데이터 드리븐 모델링을 기반으로 인풋이 들어오면 아웃풋을 내놓는 기술로 룰베이스와는 반대개념이다. 룰베이스는 A라는 인풋이 들어왔을 때 B라는 아웃풋을 내 주겠다고 미리 사람이 룰을 만들어 주는 것이다.
데이터만 넣으면 아웃풋이 툭툭 튀어 나올 수 있으려면 컴퓨터가 엄청나게 많은 데이터를 학습해서 특정 패턴을 찾아내야 한다. 기존 룰베이스에서는 이런 일은 사람이 미리 짐작해서 알려줬지만 머신러닝에선 기계가 스스로 찾아내는 구조다.
네이버 N드라이브 사진 분류를 예로 들어보자. N드라이브 사진 분류는 사용자가 드라이브에 사진을 업로드하면 동물, 음식, 텍스트 등으로 카테고리를 나눠 사진을 자동으로 분류해 주는 기능이다. 사전에 컴퓨터가 동물 사진 데이터를 많이 학습했기 때문에 동물 사진의 패턴을 이미 알고 있고 유사한 패턴을 가진 동물 이미지가 들어오면 카테고리에 자동으로 넣어 줄 수 있게 된다.
컴퓨터가 학습을 하고 데이터에서 스스로 패턴을 찾아낸다고 하니 인공지능과 머신러닝이 같은 기술인지도 헷갈린다. 결론부터 말하면 머신러닝의 인공지능의 한 부분이다.
한국마이크로소프트의 이건복 이사는 ‘인공지능은 워낙 광범위한 범위를 포함하고 있고 그 중 머신러닝은 예측에 대한 부분을 주로 맡는다고 설명했다.
그는 또 기존 IT 시스템은 학습이란 과정이 배제돼 있었다. 정확한 길을 만들어 주고 따라가게만 했다면 머신러닝은 뭔가 잘못 된 부분이 있으면 다음엔 그러지 말라고 하는 학습과정이 있다. 이렇게 시스템 이 계속 발전하는 건데 사람이 교정해 주는 것이 아니라 시스템이 갈수록 스스로 발전하는 것이 머신러닝”이라고 덧붙였다.
머신러닝도 어려운데, 요즘에는 딥러닝이라는 말까지 등장했다. 역시나 머신러닝과 딥러닝이 같은건지 다른 것이 헷갈리기 시작한다. 네이버랩스 김정희 수석연구원은 ” 딥러닝은 머신러닝의 방법 중 하나로 아주 복잡한 모델링까지 가능하면서 인기를 끌고 있다” 며 딥러닝은 컴퓨터 공학자들이 사람 뇌가 어떻게 작동하고 있나를 단순하게 모델링한 것이다”고 설명했다.
■컴퓨터는 어떻게 스스로 모델링 할까?
티그레이프 유인관 박사는 컴퓨터가 어떻게 스스로 모델링을 하는지 설명하기 위해 사인그래프를 하나 그려 보였다. 그는 사인그래프 주위에 점들을 여러 개 찍은 후 다시 그래프만 살짝 지웠다.
그래프가 없다고 생각해보세요. 점들만 가지고 이게 만들어 내는 그래프가 뭔가를 찾아내는 작업이 머신러닝입니다. 이 점들 사이에 오차가 있지 않습니까. 이 오차를 최소화하는 어떤 선이 만들어지는데 우리는 그 선을 찾고 싶은 겁니다
수 많은 데이터에서 이렇게 어떤 패턴을 찾으면 크게 두 가지로 활용할 수 있다. 첫 째는 이 패턴이 미래에도 유사하게 이어질 것 이라고 ’예측’ 해볼 수 있다. “어떤 주식 종목의 주가 데이터가 오랫동안 쌓이면 이렇게 점들로 표현할 수 있는데 이렇게 점 사이의 평균을 내서 선의 형태를 알게 되면 앞으로 주가 추이를 예측하는 도움이 된다는게 유 박사의 설명이다.
어떤 데이터가 들어왔을 특정 패턴과 유사한지 비교해 보는 것도 가능하다. 머신러닝을 이용해 패턴을 일치시키면 동영상이나 사진에서 객체를 인식하는 데 활용할 수도 있다. 네이버 N드라이브 사진 분류나 구글 컴퓨터가 유튜브에서 고양이를 스스로 찾아낸 것도 이 때문이었다.
관련기사
- 머신러닝, 제대로 쓰기 위한 3가지 키워드2014.12.14
- 머신러닝이 몰고올 IT진화 시나리오2014.12.14
- 시만텍 "내년 보안 키워드는 'IoT'와 '머신러닝'"2014.12.14
- 구글, 옥스포드大 머신러닝 전문가 대거 영입2014.12.14
글로벌 기업들은 머신러닝 기술을 어떻게 서비스에 이용하고 있을까? 또 머신러닝 기술은 앞으로 어떻게 발전할까? 궁금증은 꼬리에 꼬리를 물고 이어진다.
2편, 머신러닝이 몰고올 IT진화 시나리오에서 계속 ☞바로가기