인공지능(AI) 서비스를 구현하기 위한 핵심 기술인 머신러닝(기계학습)은 그동안 일부 전문가들의 전유물이었다. 하지만 최근 머신러닝 진입장벽이 낮아지고 있어 주목된다. 마이크로소프트(MS)는 개발자 누구나 쉽게 맞춤형 머신러닝 모델을 만들 수 있는 서비스를 제공하고 나섰다. 텐서플로 같은 머신러닝 프레임워크를 어떻게 다뤄야 할지 몰라도, 일반적인 개발 지식만으로 충분히 머신러닝 모델을 학습시키고 서비스에 적용할 수 있게 된 것이다.
13일 서울 양재동 엘타워에서 개최된 MS빌드투어 행사에서 MS 본사 에반젤리스트(기술전도사)인 맷 벨로조(Mat Velloso) 수석 개발자는 MS가 지원하는 코그니티브 서비스를 소개하며 “개발자들은 머신러닝을 전문으로 할 필요가 없다”며 “단지 (어떤 서비스를 만들 수 있을지) 상상력을 발휘하면 된다”고 강조했다.
MS는 클라우드 서비스 애저에서 코그니티브 서비스라는 이름으로 머신러닝 기술을 쉽게 활용할 수 있게 API로 제공하고 있다. 지난 2015년 처음 서비스를 시작해 현재 29개의 API를 제공하고 있고, 약 56만8천명의 전세계 개발자가 사용중이다.
MS뿐아니라 아마존웹서비스(AWS), 구글 클라우드 플랫폼도 머신러닝 기능을 클라우드 상에서 결합할 수 있도록 서비스로 제공하고 있다.
하지만 지금까지 이런 서비스들은 표준적인 시나리오에 기반한 기능을 제공하는데 그쳐, 한계가 있었다. 예컨대 아이들과 대화할 수 있는 교육 로봇을 만든다고 생각해 보자. 클라우드 서비스에서 제공하는 음성인식 API를 그냥 사용했다가는, 서비스가 제대로 작동하지 않을 수 있다. 아이들의 목소리 톤이나 말투, 어휘가 독특하기 때문이다. 표준적인 음성을 기준으로 만들어진 API로 아이들의 음성을 제대로 인식하지 못할 가능성이 높다.
이날 맷 벨로조 수석은 이런 한계를 뛰어넘을 수 있는 새로운 API로, 커스텀 비전(사진 인식)과 커스텀 스피치(음성인식)를 소개했다. 기존 비전 및 스피치 API가 미리 학습된 모델을 제공했다면, 커스텀 비전과 커스텀 스피치 API는 사용자가 목적에 따라 적합한 데이터를 입력해 학습시킬 수 있다.
학습 방법이 쉽고 학습 속도가 빠르다는 것도 장점이다. 사진이나 음성 녹음 파일을 업로드만 하면 자신만의 모델을 학습시킬 수 있다.
그는 광대분장을 한 사람을 구분해 내는 챗봇을 만드는 과정을 시연했다. 커스텀 비전 API에 광대 코분장을 한 사람, 광대 나비넥타이를 맨 사람 등 광대의 특징을 보여주는 사진을 업로드 했다. 각 30장 정도씩 업로드하는데 약 10분이 걸렸다고 했다. 그리고 연결된 챗봇 서비스에 광대분장한 사람의 사진을 보여주고 이 사람이 광대인지 묻자 “상당해 광대 같네요”라는 대답이 돌아왔다.
그는 더 많은 학습 사진을 업로드할 수록 서비스의 정확도는 높아지지만 단 수십장의 사진으로도 서비스를 만들 수 있다고 설명했다.
관련기사
- "AI 가상비서, 똑똑함은 구글-MS-애플 순"2017.06.13
- MS, 딥러닝 툴킷 새버전 오픈소스로 공개2017.06.13
- MS, 진짜 안경 같은 홀로렌즈 만든다2017.06.13
- 머신러닝 새 도전…“클라우드를 벗어나라"2017.06.13
스피치 API도 보다 쉽게 다양한 시나리오의 음성인식에 활용될 수 있다. 맷 벨로조 수석은 커스텀 스피치 API를 소개하며 “주식 정보 챗봇을 만들려면 머신러닝 모델이 전문 용어를 많이 알아야 한다. 일반적인 스피치 API를 썼을 때 일부 용어를 이해하지 못할 수도 있기 때문에 학습이 필요하다. 또 영어를 쓰더라도 이탈리아 사람처럼 액센트가 있는 경우, 아주 시끄러운 곳에서 음성을 인식해야 하는 경우, 또 아이들이 말하는 방식에 대해서도 학습시킬 수 있다.”고 말했다.
그는 코그니티브 서비스에 대해 “비전(사물 인식), 얼굴 인식, 감정 인식, 언어 인식, 지식 찾기, 음성 인식 등 많이 쓰이지만 어려운 머신머닝 문제들을 API로 패키징해서 제공하는 것”이라고 소개하며 “이 서비스를 이용하면 개발자인 우리도 머신러닝 박사학위가 없이 이런 기능들을 이용할 수 있다”고 강조했다.