구글 포토 사용자라면 업로드한 사진이 자동으로 분류되고 검색으로 사진을 찾을 수 있는 기능을 써봤을 것이다. 기계가 데이터를 기반으로 스스로 학습해 더 정확하게 발전하는 기계학습(머신러닝)을 이미지 인식에 적용한 서비스다. 기계학습을 이용한 이미지 인식 기술을 머신 비전(Machine Vision)이라고 한다. 머신 비전은 구글뿐만 아니라 페이스북, 마이크로소프트, 트위터, 핀터레스트 등 글로벌 테크 기업들이 최근 가장 높은 관심을 보이고 투자하는 기술 중 하나다. 사람이 눈으로 주변을 인식하는 것처럼 컴퓨터가 이미지에서 주요 객체를 인식할 수 있다면 좀 더 스마트하고 개인 맞춤화된 서비스 개발이 가능해진다.
이제 더 많은 개발자들이 머신 비전에 관심을 가질 필요가 있어졌다. 구글, MS 등이 내부에서 사용하던 기술을 외부 개발자들에게 계속해서 공개하고 있기 때문이다.
지난주 구글은 머신 비전 기술을 외부개발자들이 쉽게 활용할 수 있게 클라우드비전API를 공개했다. 아직 제한된 프리뷰 버전으로 신청서를 구글에 제출해야 사용할 수 있지만, 향후 정식 서비스로 공개된다면 누구나 API를 통해 자신의 앱, 서비스, 하드웨어에 구글의 머신 비전 기술을 적용할 수 있게 될 전망이다. 앞서 마이크로소프트도 '옥스포드 프로젝트'를 통해 얼굴 인식, 음성인식, 이미지 분석, 자연어 처리와 관련된 머신러닝 API를 개발자들에게 무료로 공개한 바 있다.
그동안 막대한 자금력으로 강력한 컴퓨팅 리소스와과 고급 머신러닝 인재를 확보한 몇몇 기업들이 전유물로 여겨졌던 기술에 쉽게 접근할 수 있게 된 것이다. 머신러닝 기술이 일부 전문가들만 다룰 수 있는 것이 아니라 API를 다룰 수 있는 정도의 개발자라면 누구나 쉽게 활용할 수 있게 됐다는 점에서 머신러닝의 대중화가 시작됐다고도 볼 수 있다.
■구글 클라우드 비전API란?
클라우드비전API를 이용하면 외부 개발자들도 자신의 앱에 구글 포토 같은 이미지 인식 기술을 결합시킬 수 있다.
구글이 블로그에 공개한 설명에 따르면 API는 우선 이미지 안에 있는 지배적인 객체를 찾아내고 수천개의 카테고리로 분류해 준다. 서비스에 비전API를 적용해 쉽게 보유하고 있는 이미지에 쉽게 메타데이터를 구축할 수 있고 이를 기반으로 이미지 검색과 사용자 맞춤 추천 등의 기능을 제공할 수 있다.
또 클라우드 비전 API는 사람의 얼굴 이미지에서 감정을 읽어 낼 수도 있다. 얼굴에서 눈, 코, 입 위치 같은 정보를 인식하고 또 기쁨, 슬픔 등 8개 이상의 감정을 읽어 낼 수 있다.
광학 문자 인식(OCR) 기능도 담고 있다. 영어뿐만 아니라 다양한 언어를 탐지할 수 있고 어떤 언어인지 자동 인식하는 기능이 탑재돼 있다. 따라서 이미지에 포함된 텍스트를 검색하는 기능을 서비스에 적용할 수 있다.
또 이미지 안에 브랜드 로고가 포함돼 있다면 이를 인식할 수도 있다. 사진 속 인물이 어떤 브랜드 옷을 입고 있는지 확인하고 관련된 맞춤형 정보나 광고를 제공하는 서비스 개발도 가능하다.
이미지 안에 부적절하거나 불쾌한 콘텐츠가 포함돼 있다면 이를 검출해 낼 수 있다. 불특정 다수의 사용자로부터 수집한 이미지에서 부적절한 이미지를 걸러내는데 활용할 수 있다.
이 밖에도 잘 알려진 경치나 인공 구조물을 위도, 경도 값과 함께 인식할 수 있다.
■기계에 눈이 달린다면…?
구글은 라즈베리파이 보드로 만들어진 소형 로봇에 클라우드비전API를 어떻게 적용할 수 있는지 보여주는 데모영상을 공개했다. 로봇이 카메라를 통해 웃는 사람의 얼굴을 인지하고 그 사람 앞으로 이동하는 모습이 영상에 담겨있다. 이미지 분석은 클라우드에서 처리되기 때문에 컴퓨팅 파워가 낮은 모바일이나 작은 디바이스에서도 API 활용해 다양한 서비스를 구현할 수 있다는 점을 보여준다.
그래서 클라우드비전API를 활용해 개발자들은 상상하기 나름대로 다양한 서비스를 만들 수 있다. 예컨대 로봇청소기에 머신 비전 기술이 적용된다면 기분이 안 좋아 보이는 사람 발 밑은 청소하지 않을 수 있다. 또 바닥에 떨어져 있는 것이 치워야할 쓰레기인지 아닌지도 구분해 낼 수 있다. 작은 카메라가 시각장애인들의 눈이 되어 줄 수도 있을 것이다. 가정용 보안 감시 시스템에 적용되면 문 밖을 어슬렁거리는 것이 길고양이인지 도둑인지 구분하는 것도 가능하다. 배달용 드론이 공중에 새나 다른 드론과 부딪히는 사고를 예방하는데 쓰일 수도 있다.
이렇듯 머신 비전 기술은 로봇, 장난감, 애플리케이션이 사용자의 표정이나 주변 환경을 파악하고 그때 그때 상황에 맞게 상호작용할 수 있게 만들 수 있게 해준다. 기계에 사람처럼 눈을 달아주는 셈이다.
이미 소니모바일은 자회사를 통해 개발한 초고속 드론 에어로센스(Aerosense)에 구글 클라우드비전API를 적용해 드론이 촬영한 사진을 분류하고 조직화하는데 활용하고 있다. 에어로센스는 블로그를 통해 “드론이 한번 비행하면 수천장의 사진을 찍기 때문에 엄청난 숫자의 사진을 정리하기 위해 구글클라우드비전API이 최선의 방법이라고 생각하고 있다. 수집한 이미지에서 의미 있는 인사이트를 만들어 내기 위해 자동으로 정리하는 과정에서 활용되고 있다.”고 설명했다.
OCR, 얼굴 인식 등의 기능을 제공하는 API는 별로 새로운 것은 아니다. 하지만 구글이 제공하는 API라는 점에서 정확도가 훨씬 높을 것이라는 점에 주목해야한다. 구글은 이미지 인식 머신러닝 알고리즘을 겨루는 이미지넷 대회에서 지난해 우승을 차지했다. 이 대회는 오류 비율은 단지 6.65%에 불과했다. 같은 이미지를 사람이 분류했을 때와 비슷한 수준이다. 또 이미지 분석이 클라우드에서 처리되기 때문에 컴퓨팅 파워가 낮은 디바이스도 API를 통해 이 서비스를 이용할 수 있다.
관련기사
- 구글-페북, 머신러닝 승부 "핵심은 바둑"2015.12.09
- 발전하는 딥러닝...이미지 보며 컴퓨터와 대화까지2015.12.09
- 오픈소스 머신러닝 기술 확산...IBM도 가세2015.12.09
- 구글 이어 MS도 머신러닝 기술 개방2015.12.09
마이크로소프트도 지난 5월 머신러닝 API 묶음인 옥스퍼드 프로젝트를 공개하기도 했다. 옥스퍼드 프로젝트에는 총 4 개의 API가 제공되는데 그 중 얼굴을 인식하는 페이스 API와 이미지 분석 및 OCR인식이 가능한 비전API가 포함돼 있다. MS는 옥스퍼드 프로젝트를 활용한 레퍼런스 사이트로 사진 속 인물의 나이를 알아 맞추는 ‘하우올드닷넷’과 사진 속 인물의 상태를 수치화해 보여주는 '감정 데모’ 사이트를 공개했다.
구글, MS는 메일이나 검색 같은 서비스를 더 지능화하기 위해 계속해서 머신러닝 기술을 향상시키고 있다. 또 동시에 그들이 제공하는 퍼블릭 클라우드로 더 많은 개발자들을 끌어들이기 위해 내부적으로 사용하던 머신러닝 기술을 API로 공개하고 있다. 앞으로 이런 추세는 지속될 것으로 예상된다.