100m 밖 목소리 알아듣는 음성비서 가능할까

장준혁 한양대 교수 "잔향-에코 제거, 방향추정 기술 필요"

컴퓨팅입력 :2017/06/20 14:56

인공지능(AI) 기반 음성비서 서비스가 인기다. 스피커형 음성비서 서비스의 원조격인 아마존 에코는 세계적으로 1천만대 이상 판매됐다. 국내에도 KT 기가지니, SK텔레콤 누구가 기대 이상의 인기를 누리고 있다.

하지만 성능면에선 여전히 개선할 점이 많은 것도 사실이다. 사용자의 음성을 제대로 인식하지 못하게 만드는 요인이 적지 않기 때문이다. 어떻게 하면 음성인식 성능을 높일 수 있을까?

한양대학교 융합전자공학부 장준혁 교수

한양대학교 장준혁 교수(융합전자공학부)는 20일 서울 그랜드 인터컨티넨탈 파르나스 호텔에서 열린 '제8회 클라우드 프론티어2017’ 기조연설을 통해 “AI 음성비서의 성능을 떨어뜨리는 모든 문제는 사용자와 스피커 사이 엠비언스(자연적인 공간성)에서 발생한다”고 강조했다.

쉽게 생각해도, 사용자 음성을 음성비서가 제대로 인식하기 어려운 상황이 많다. 청소기 소리 같이 큰 소음이 발생할 때나 TV에서 사람이 얘기하는 소리가 나올 때 등이 그렇다.

장 교수는 실제 음성비서 스피커의 음성인식률을 떨어뜨리는 문제를 기술적으로 나눠 설명했다. 그는 “사람과 AI스피커 간의 상대적 위치가 계속 바뀔 수 있다. 마이크와 스피커가 붙었기 때문에 스피커에서 나오는 소리가 마이크로 들어간다. 스피커와 사용자의 거리가 너무 멀 수 있고, 등록된 화자가 아닌 다양한 사용자가 대화시에 오검출률이 급증한다”고 말했다.

그렇다면, 어떻게 이런문제를 해결할 수 있을까. 장 교수는 이런 문제들을 해결할 수 있는 방안들을 하나씩 소개했다.

이런 문제를 해결하기 위해선 잔향(음원이 진동을 그친 뒤에도 계속 들리는 현상) 제거와 에코(스피커에서 돌아오는 소리) 제거가 필요하다. 이런 기술이 들어가면, 스피커 볼륨이 7단계여도, 사용자의 목소리를 파악해 낼 수 있다. 아마존은 "락음악을 듣고 있어도 에코가 음성을 인식할 수 있다"고 강조하기도 한다.

또 음원이 어디에서 들려오는지 방향을 추정하는 기술도 필요하다. 마이크 개수가 많을 수록 유리하다. 아마존 에코는 7개, KT 기가지니와 SK텔레콤 누구는 2개를 탑재했다. 방향이 특정된 후에는 그 방향의 소리만 증폭될 수 있도록 빔을 쏴줘야 한다. 빔포밍이라고 하며, 멀티채널 음성비서 기술에서 핵심요소로 여겨지고 있다.

원거리에서 말하는 소리도 인식할 수 있도록 소리를 증폭해줘야 한다. 하지만 모든 소리를 증폭할 경우 잡음이 커지기 때문에 잡음을 제거하는 기술도 필요하다. 아마존 에코의 경우 7미터(m) 떨어진 곳에서 말하는 소리도 인식할 수 있다. 최근엔 100m 떨어진 음성도 인식하는 기술도 등장했다.

관련기사

장 교수는 “잔향 제거, 에코 제거 등 전처리는 단말기에서 이뤄지고, 이 과정이 끝나면 데이터를 압축해 클라우드로 넘어간다. 클라우드에서 음성인식, 자연어 처리, 음성합성을 거쳐 다시 기기로 보내준다”고 설명했다.

장 교수는 이어 “이 속도가 느리면 사람들이 사용하지 않기 때문에 이 모든 과정이 단 몇 초안에 이뤄져야 한다”며 “성능을 얼마나 높이느냐와 시간을 얼마나 단축하느냐는 서로 트레이드 오프 관계에 있다”고 말했다.