'터치 앤 탭(touch and tap)'의 시대가 저물고 있다.
음성인식 비서가 스마트폰 기술경쟁 핵심으로 떠올랐다. 애플 시리를 필두로 구글 어시스턴트, 마이크로소프트(MS) 코타나, 삼성전자 빅스비까지 연이어 경쟁 대열에 가세했다.
이런 추세가 시사하는 바는 적지 않다. 지난 10년 간 스마트폰의 핵심 이용자 인터페이스(UI)였던 '터치 앤 탭'을 뛰어넘는 새로운 시대가 열리고 있다는 신호탄이나 다름 없기 때문이다.
이젠 비서에게 말로 뭔가를 지시하듯 스마트폰에 음성으로 모든 종류의 명령을 내리는 시대가 조금씩 열리고 있다.
최근 삼성과 네이버가 연이어 음성기술 전문업체 사운드하운드에 관심을 보인 것도 이런 흐름과 무관하지 않다.
모하저가 이끄는 사운드하운드는 최근 삼성전자, 네이버, 라인 등과 함께 그래픽처리프로세서(GPU)로 유명한 엔비디아 등으로 구성된 컨소시엄으로부터 7천500만달러(약 853억5천만원) 투자 유치에 성공했다.
■ 하운드파이, 더 정교한 대화 위해 협업 AI 내세워
2005년 미국 캘리포니아주 산타클라라에서 창업한 사운드하운드는 '하운드'라는 음성인식앱을 서비스 중이다. 이 앱은 '스피치투미닝(Speech-to-Meaning)'이라는 기술을 활용한다. 이를 통해 사용자가 말한 음성을 인식하고, 무슨 뜻인지를 이해해 필요한 결과를 내놓는다.
케이반 모하저 사운드하운드 최고경영자(CEO)는 2015년 테크크런치와 인터뷰에서 "개발자들이 어떤 앱에서도 음성 기반 인터페이스를 적용할 수 있도록 할 것"이라며 "시리, 구글검색 등과 경쟁하는 것 뿐만 아니라 가장 익숙한 스마트폰 기본작동방식인 '터치 앤 탭'을 음성 인터페이스가 대체하게 될 것"이라고 강조했다.
여기까지만 보면 애플 시리나 구글 어시스턴트 등과 무슨 차이가 나는지 알기 어렵다. 차이점을 알기 위해서는 하운드와 연동된 하운디파이라는 플랫폼에 주목할 필요가 있다.
이 플랫폼은 자동 대화 인식(ASR)과 자연어 이해(NLU)를 하나의 엔진에 담아 대화에 대한 반응속도와 정확도를 높였다. 보다 주목할 점은 하운디파이가 여러 외부 서비스들과 협업을 통해 자연어 이해, 처리를 위한 AI를 더 정교하게 만들고 있다는 사실이다. 여러 개발자들이 자신들의 서비스에 하운디파이 API를 끌어다 쓰면 쓸수록 이와 연동된 음성인식비서가 더 똑똑한 대답을 내놓게 된다.
이러한 아이디어는 다시 '콜렉티브AI'라는 기술을 통해 빛을 발한다. 개발자들이 API를 통해 연동해서 사용할수록 AI가 더 많은 학습과정을 거쳐 보다 정확하게 사용자의 질문에 대한 답을 내놓을 수 있기 때문이다. 예를 들어 익스피디아와 협업을 하다가 우버, 옐프까지 연동범위를 확대할 경우 콜렉티브AI가 종합적으로 분석해 여행은 물론 택시, 식당예약 등에 대한 정보들을 서로 연결시켜 보다 질문 의도에 맞는 정확한 답을 제시한다.
실제로 하운디파이 플랫폼에는 차량용 지능형 내비게이션, 인포테인먼트 등을 개발하는데 쓰이는 엔비디아 드라이브 CX 플랫폼, 우버 택시 예약, 익스피디아 호텔/비행기 예약 등이 참여하는 중이다.
하운디파이는 또한 '딥미닝언더스탠딩(Deep Meaning Understanding)'이라는 기술을 적용해 복잡한 질문에 대해서도 한번에 답을 내놓을 수 있게 했다.
예를 들면 이렇다.
"내일 샌프란시스코에서 묶을 호텔을 보여줘. 300달러 이하로 200달러 이상이어야 하고, 애완동물도 데려갈 수 있어야해. 운동시설과 수영장이 있고, 3성에서 4성급으로 이틀 묵을 것이고, 와이파이가 없는 곳은 빼줘."
이러한 질문에 여러가지 요소를 종합해 가장 적합한 호텔을 추천해 주는 식이다.
■ 구글 등 공룡기업 넘어 음성인식비서 홀로서기 나서나
삼성전자, 네이버와 라인은 왜 이러한 회사에 투자를 하게 된 것일까? 아직은 컨소시엄을 구성해 전략적 투자를 했다는 사실만 알려졌을 뿐 정확하게 이 회사들이 어떤 방식으로 사운드하운드와 협업하게 될지 등에 대해 구체적인 내용이 알려진 것은 없다.
다만 이 회사들은 모두 구글, 애플, 아마존 알렉사, 마이크로소프트 등 공룡기업들에게 의존하지 않고서도 자연스럽게 음성을 이해하고 처리할 수 있는 기술을 확보하려는 의도를 내비치고 있는 것만은 분명하다.
삼성전자는 차기 스마트폰인 갤럭시S8에 지난해 인수한 비브랩스의 음성인식, 자연어 이해/처리 기술을 가진 빅스비를 탑재할 계획이다.
네이버와 라인주식회사는 미래 기술개발 태스크포스팀인 '프로젝트J'를 통해 아마존 에코, 구글홈처럼 음성인식비서 역할을 수행할 수 있는 '라인 스피커(가칭)'를 만들 예정이다. 두 회사는 이미 네이버 기술자회사인 네이버랩스가 개발한 인공지능 기반 음성 대화 시스템 '아미카(AMICA)'를 갖추고 있지만 이 시스템이 아직 한국어에만 집중하고 있다는 사실은 글로벌 진출에 제약이 될 수 있다.
관련기사
- 네이버-라인, 美 음성인식기술기업 투자2017.02.23
- 통신사 새해 고민…“AI 전문가 어디 없소”2017.02.23
- 카카오는 어떻게 음성인식-합성 해낼까2017.02.23
- 스마트폰 이후…'AI비서 전쟁' 승자는2017.02.23
라인 스피커가 글로벌 진출을 노릴 경우 영어나 다른 외국어에 대한 음성인식, 자연어 이해/처리 역량이 필요하다. 사운드하운드와 협업해 콜렉티브AI를 활용하는 방안을 생각해 볼 수 있는 이유다.
이와 관련 네이버 관계자는 "아직까지는 투자를 진행한 단계라 어떤 식으로 협업하게 될지 등에 대해서는 결정된 바 없다"고 말했다.