애플 홈팟 분석을 통해 본 음성 주도 시대

[박재현 칼럼] 음성 인터페이스, 이젠 기본

전문가 칼럼입력 :2017/07/24 13:28    수정: 2017/07/24 15:30

박재현 칼럼니스트
박재현 칼럼니스트

음성 인터페이스 주도 시대가 도래하고 있다.

기계학습 기술 발전에 따라 그 간 답보상태에 머물렀던 음성 인식 성공률이 크게 높아졌다. B2C 제품의 사용자 인터페이스로 음성을 사용하는 것이 확산되고 있다. 사용자는 그간 복잡한 리모컨이나 앱에서 제공하는 IFTTT (If This Then That) 방식으로 제품을 직접 제어해야만 했다.

음성 인터페이스는 이런 문제를 해결해 준다. 또 비즈니스적으로도 음성인식 스피커 시장은 크다. 가트너에 따르면 2020년까지 인공지능 스피커 시장 규모가 20억 달러(약 2조2천740억 원)에 달할 것으로 예상된다.

음성 인터페이스 시대를 주도하기 위한 업체들의 경쟁도 치열하다.

● 마이크로소프트(MS)는 5월 8일 인공지능 음성비서 코타나를 탑재한 하만 카돈 인보크(Harman Kardon Invoke)를 선보였고 3분기 상용 판매될 예정이다.

● 애플은 6월 7일 홈팟을 선보이고 올해 12월 공식 판매한다.

● 라인은 6월 15일 네이버의 AI 플랫폼인 클로바(Clova)를 탑재한 웨이브(WAVE)를 시연하고, 올 가을 출시한다고 발표했다.

● 알리바바는 6월 30일 AI 스피커를 출시할 것이라고 발표했다.

● 삼성전자도 빅스비를 지원하는 스피커를 선보일 예정이다(WSJ , 7월 4일)

● 음성 스피커 분야를 리드하고 있는 아마존은 터치 스크린을 장착한 고급형 에코 스피커를 출시할 예정이다.

현재 아마존 에코(Amazon Echo)는 180달러(약 20만원), 에코 닷(Echo Dot)의 49.95달러(약 5만5천800원), 구글 홈(Google Home)은 129달러(약 14만4천원), 라인 웨이브(Wave)는 1만5천엔(약 15만원, 선행 모델은 1만 엔), 애플 홈팟은 349달러(약 39만원)에 판매된다. 대부분의 업체들은 초기에 사용자를 확보하고 시장의 주도권을 잡기 위해 저가전략을 구사하고 있다.

그러나 애플은 홈팟의 가격을 349달러로 책정하고 경쟁자와 다른 전략을 펼치고 있다. 과연 어떤 가치가 있는지 꼼꼼히 살펴보자.

애플 홈파드 (사진=애플)

■ 우수한 품질의 음향 스피커

홈팟은 애플의 첫 번째 원거리 음성지원 기기이다. 자체 오디오 기술과 AI 소프트웨어를 통해 어떤 위치에서나 풍부한 하이파이(High Fidelity, Hi-Fi) 사운드를 들을 수 있다. 또한 고출력 우퍼(woofer)와 맞춤형 앰프, 20mm 진동 막을 사용하여 깊고 풍부한 저음을 다양한 형태로 재생할 수 있다.

홈팟은 인공지능 기반의 제어 알고리즘을 통해 음악을 지속적으로 분석하고 조절함으로써 부드럽고 왜곡 없는 최상의 저음을 구현했다. 그리고 7개의 고음 스피커인 빔 포밍 트위터가 장착되어 아주 좁은 빔으로도 정확한 음향을 찾아내어 생생하며 안정적인 360도 서라운드 오디오 효과를 낼 수 있다.

또한 어떤 장소에 설치해 어떤 위치에서 감상하더라도 주위 공간 곳곳에 빔을 쏴 트위터를 통한 몰입적인 환경을 만들 수 있다고 한다. 아이튠스 등을 통해 얻은 사운드에 관한 경험과 기술을 적용한 우수한 와이파이 스피커 임은 분명해 보인다.

홈팟에서 가장 가치 있는 혁신은 음악 스트리밍 기술이다.

아마존 에코쇼 (사진=애플)

홈팟은 주방보다는 거실이나 방 안에 설치하는 게 좋다. 아마존의 에코는 주방에 최적화된 형태로 출시되었으며 최근 출시된 에코 쇼도 터치스크린과 카메라 등이 추가되어 더욱 주방에 적합하다.

고성능 애플 A8칩을 사용하여 버퍼링 속도를 업계 최고 수준으로 높였다. 이를 통해 우퍼의 강력한 음향 효과를 실시간으로 바로 표현하고 음악 스트리밍 시 끊김 현상이 발생하지 않는다 필자도 거실에 음성인식 스피커를 사용 중이다.

거실에서 사용 시 가장 짜증 나는 순간이 TV 등에서 나오는 소리에 반응하는 것이다. 홈팟은 6개의 원거리장 빔 포밍 마이크를 사용한 반향 소거 기술을 통해 음악 재생 중 울림이나 주위의 소음 속에서도 사용자의 목소리를 구별하여 이 문제를 해결한다.

■ 거실에 최적화된 홈팟

홈팟은 에어플레이2(AirPlay 2)로 제어되는데, 에어플레이2 네트워크는 여러 개의 스피커 장치를 추가할 수 있도록 설계됐다.

에어플레이2는 같은 공간 안에 2대의 홈팟을 설치할 경우 각각의 사운드를 분리하여 보다 폭넓은 스테레오 효과를 낼 수 있는 강력한 기능을 제공한다.

주요 특성은 다음과 같다.

● 애플 자체 A8 칩 탑재

● 은색(SpaceGrey) 또는 흰색 색상의 부드러운 메쉬 형태

● 고출력 우퍼

● 저주파 측정형 마이크 내장으로 저음 자동 조절

● 원거리장 빔 포밍 방식의 마이크 6개 내장

● 혼형태의 빔 포밍 트위터 7개에 각각 맞춤형 앰프 연결

● 터치 감지 방식의 LEDWaveform 표시 및 제어 기능

애플 홈파드 (사진=애플)

■ 암호화 및 익명화 통해 개인정보 보호하는 유일한 제품

“헤이, 시리(Hey Siri)”라는 호출 명령을 내리면 홈팟 위쪽 LED Waveform 표시 화면의 불빛이 켜지며 시스템의 음성인식 기능이 작동 중임을 알려 준다. 이후 녹음된 음성은 클라우드 인식 및 의미 추출을 위해 암호화 및 익명화된다.

그에 따른 사운드 파일은 사용자의 요청에 따라 생성된다. 필자의 실험 결과 홈팟은 기능 호출 명령어 인식률이 가장 높은 혁신적인 기술을 사용하고 있는 것으로 나타났다.

홈팟과 시리(Siri)에서 이루어지는 이 같은 익명화 기능은 앞으로 중요한 역할을 할 것으로 생각된다. 애플은 홈팟의 음성 인식 기능이 “Hey Siri”라는 음성 명령을 내릴 때에만 이루어지며 이때 LEDWaveform이 작동한다는 점을 강조하고 있다.

각 명령어에 암호화 및 익명화 처리가 이루어진다는 점을 명시한 것으로는 홈팟이 유일하다. 또한 애플에 따르면, 시리를 통해 사용자 명령의 의미 추출이 이루어진 후 오디오 및 그에 따른 데이터는 삭제된다.

시리를 통한 다양한 비서 기능을 제공하고 있다.

음악, 뉴스, 단위 변환, 메시지 , 일정 알림, 팟캐스트, 알람 및 타이머 , 번역 , 주식, 상식, 날씨 , 교통 및 주변 상황, 스포츠, 홈(앱 목록)

■ 감성 인터페이스

작동중인 코타나

홈팟의 아날로그 사용자 경험을 제공한다. 기기 위쪽에는 사용자가 하는 말을 할 때마다 LED 파형이 표시되어 시리가 작동 중이라는 사실을 알려준다. 별로 특별할 게 없는 듯하나 직접 사용해 보면 사용자는 이러한 반응에 따라 기기가 실제로 자신의 말을 듣고 있다는 느낌을 받게 되며, 따라서 일부러 큰 소리를 내지 않고 좀 더 자연스러운 말투를 사용하게 된다.

■ 음악으로 차별화를 이루다.

애플의 발표 내용에 따르면 홈팟은 음악 분야의 전문가로서 시리의 이미지를 부각할 예정이다. 애플은 음악에 중점을 둔 시리를 Musicologist라 부르고 있다. 여기에는 애플 뮤직(Apple Music) 확장 버전을 비롯해 타 음악 플랫폼들도 추가될 예정이다. 초기 음악에 집중하는 것은 홈팟을 인기 음악 재생 시스템으로 만들기 위한 계획이자 이를 통해애플 뮤직의 사용자 층을 확대하고 여러 경쟁 서비스들을 견제하려는 전략이기도 하다. 또한 기존 아이튠 등 음악 컨텐트 사업의 강화이기도 하다.

음성 커머스 기능은 아직 보이지 않는다.

현재 수준의 음성 커머스에 대해서는 냉정히 생각해 볼 것들이 많다. 지난 7월 5일 경제전문지 블룸버그에 재미난 기사가 실렸다. "아마존의 AI 스피커 에코가 특별 할인 쇼핑정보를 제공했지만 사용자들은 이를 이용하지 않았다. 여전히 소비자들은 마우스로 클릭하는 쇼핑을 선호하고 있다"라는 기사이다.

또한 딜 뉴스닷컴은 "음성인식 쇼핑에 있어 가장 큰 문제는 목소리 크기나 억양 같은 것이 아니라 소비자에게 쇼핑에 필요한 정보를 PC쇼핑에 비해 현저하게 적다는 것이다"라고 한다. 이러한 소비자의 반응은 현재 음성인식 스피커가 가전제품을 제어하거나 음악 스트리밍 등에는 유용하나 쇼핑,예약처럼 의사결정에 많은 정보가 필요한 서비스에는 아직 부족하다는 것이다.

현재 아마존은 에코로 구매 시 할인 행사를 하는 등 지속해서 음성 커머스 경험 확산을 하고 있다. 또한 라인 웨이브도 음성 커머스를 강화할 예정이다. 이에 반해 애플은 아직 음성 커머스는 제공치 않고 있다. 음성 커머스로 풍부한 구매 관련 정보를 어떻게 제공할 것인지 고민이 필요하다. 가령, 음성 구매 요청 시 관련 정보를 자동으로 등록된 사용자의 스마트폰에 푸쉬를 해주는 것 등이 필요하다.

■ 음성 앱 플랫폼의 출시는?

사용자들이 원하는 다양한 음성 기능을 자체적으로 제공하는 것은 불가능하다. 가장 효율적인 해결 방법은 음성 스피커용 앱 스토어 플랫폼을 만드는 것이다. 현재 아마존과 구글, 마이크로소프트는 음성 앱 플랫폼을 제공하고 있다.

지난 7월 4일 IT 전문매체 테크크런치 기사에 의하면 현재 아마존 알렉사(Alexa)의 ‘스킬’은 1만 5000개를 돌파했다고 한다. 스킬은 알렉사에 쓰이는 ‘음성 응용프로그램’을 말한다. 구글의 AI 스피커 ‘구글 홈’은 6월 30일 기준 378개의 음성 응용 프로그램을 갖췄고 마이크로소프트의 음성 AI 비서 ‘코타나’는 현재 65개이다.

아직 애플의 음성 앱 플랫폼 소식은 들리지 않는다. 그러나 기존 앱 스토어에 추가되거나 별도로 제공되거나 어떤 형태이든 새로운 전략을 갖고 등장할 것은 분명하다. 아마 그 제공 시점은 홈 파드의 확산 속도에 달려있을 것이다.

■ 음성 인터페이스 시대의 미래

올해 미국에서 인공지능 음성 스피커를 쓰는 활성 이용자 수는 3억 5600만 명에 이를 것으로 예상된다. 이는 2016년과 비교하면 활성 사용자 수가 2배 이상 늘어날 것이라는 시장조사기관 이마케터의 조사 발표가 지난 5월 있었다.

이 조사는 단순히 음성 인식 스피커 시장 성장만을 의미하는 것이 아니라 기존 텍스트나 그래픽 중심의 사용자 인터페이스가 음성 인터페이스로 전환되고 있다는 것을 의미한다.

이제 음성 인터페이스가 지원되지 않는 B2C 제품은 소비자의 외면을 받을 것이다. 이를 해결하기 위해서는 B2C 제품을 기획할 때부터 음성 인터페이스와 새로운 사용자 경험을 고려해야 한다.

관련기사

이때 어떤 음성 인식 플랫폼을 쓸 것인지 크게 고민할 필요는 없다. 왜냐하면 다양한 버티컬 음성 앱 플랫폼이 출현할 것이기 때문에 적합한 것을 선택하여 사용하면 된다. 사용자는 하나의 스피커만을 쓰지 않을 것이다.

거실에는 애플이나 삼성전자의, 주방에는 아마존이나 MS의 스피커를, 아이들 방에는 아이들의 교육을 도와줄 스피커를 쓰는 것이 더 자연스럽다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.

박재현 IT컬럼니스트

포항공대에서 DBMS와 Mining 등을 전공 후 현대전자 S/W연구소에서 DBMS,OLTP 엔진 등을 개발했으며 Core Java , Core CORBA 등 다수의 책을 집필,번역하였다. 에이전텍과 와이즈프리를 창업해 에이전트와 검색엔진, 텍스트 마이닝 기술 기반의 솔루션을 개발했으며 , 씽크프리에서 웹 오피스와 삼성전자에서 챗온 메세징 서비스와 삼성페이 서비스를 비롯하여 빅데이타 플랫폼 등 다스의 글로벌 플랫폼과 서비스 개발을 주도했다. 현재 차세대 모바일 디바이스인 자동차를 중심으로 공유 경제, 인공지능 , 핀테크 등 다양한 분야의 개발을 하고 있다.