트럼프·김정은 목소리 뚝딱...“음성합성에 감정까지”

김태수 네오사피엔스 대표 “글로벌 톱 목표”

인터넷입력 :2019/07/29 15:35    수정: 2019/07/29 16:53

어색하게 들리던 음성합성 서비스가 머신러닝과 딥러닝 등 인공지능(AI) 기술을 만나면서 실제 사람 목소리처럼 자연스러워지고 있다.

이 같은 기술로 문재인 대통령, 김정은 위원장, 트럼프 대통령 등 유명인 목소리도 어렵지 않게 만들 수 있다. 텍스트를 입력하고 원하는 목소리를 선택하면 특유의 발음과 높낮이 등을 감정까지 살려 읽어주는 기술이 곧 상용화 서비스에 들어간다.

AI 기반 감성음성합성 원천기술을 보유한 네오사피엔스는 트럼프, 김정은의 목소리를 재현해 화제를 모았던 스타트업이다. 최근 백범 김구 선생의 서거 70주년을 기념해 그의 목소리를 생생하게 재탄생 시켜 주목을 받기도 했다.

김태수 네오사피엔스 대표

■ 퀄컴서 근무하다 딥러닝 가능성 보고 창업

이 회사 김태수 대표는 퀄컴에서 음성인식 관련 기술을 연구했고, ‘시리’처럼 저전력 대기모드 상태에서 스마트폰이 외부 소리를 들을 수 있는 기술을 상용화 하는 데 성공했다. 이 때 그는 프로토타입 기술이 나오고 시장에서 사용되기까지 3~5년 정도의 시간이 걸린다는 것을 간파하고, 정교한 음성합성 기술이 수년 내에 시장에서 쓰일 것으로 내다봤다.

“과거에도 머신러닝 기술이 음성에 적용됐지만, 딥러닝 기술이 뜨면서 모든 걸 혁신할 것 같다는 생각이 들었어요. 프로토타입에서 상용화까지 항상 시간이 걸리기 마련인데, 딥러닝으로 나오는 무언가에 도전해서 시장에서 가장 빨리 쓰이도록 해보자는 생각에 창업을 결심했습니다.”

결국 그는 퀄컴에서 같이 근무하던 직원과 모교인 카이스트 후배를 설득해 회사를 차렸다. 창업 당시에도 음성합성에 딥러닝 기술이 쓰였지만, 그는 여기에 감정을 넣고 외국어도 할 수 있는 목소리를 담으려 했다. 그러나 생각처럼 결과물이 쉽게 나오진 않았다. 트럼프 대통령의 새해 인사, 문재인 대통령의 영어 인사 등을 시도했으나 실패했다. 그러다 남북 정상회담을 앞두고 김정은 영어버전 등이 어느 정도 성과를 거뒀다. 이 같은 결과물을 미국 소셜 사이트 레딧에 올리면서 구글과 아마존 개발자들이 네오사피엔스 기술에 흥미를 보였다.

네오사피엔스 '타입캐스트'

읽어주는 음성합성에서 느껴지는 음성합성으로...

김태수 대표는 기존 음성합성 기술을 대체하는 것을 넘어, 목소리에 좀 더 감성과 개성을 집어넣는 데 힘을 쏟고 있다. 음성합성 기술은 국내에서도 네이버를 비롯해, 카카오, KT 등 다양한 대기업들이 시도 중인데, 김 대표에 따르면 아직 ‘끝판왕’이라 부를 수 있을 만큼 완성도가 높거나 인정받는 기업은 없다. 다양한 콘셉트와 방향에서 여러 연구들이 활발히 일어날 뿐이다.

이 같은 상황에서 네오사피엔스는 미디어 엔터테인먼트 산업을 혁신하겠다는 방향성을 잡고 음성합성 서비스를 고도화하고 있다. 현재 오픈베타 서비스 중인 ‘타입캐스트’가 바로 네오사피엔스의 결과물이다. 텍스트를 넣으면 컴퓨터가 성우처럼 자연스럽게 읽어주는 것뿐만 아니라, 기분과 감정까지 담아서 속도를 조절하며 읽어주는 것이 특징이다. 팟캐스트 등 오디오 콘텐츠가 사랑을 받고 있고, 유튜버들도 자신의 영상물에 내레이션을 적극 사용하는 만큼 이쪽 시장에서 적지 않은 수요가 발생할 것으로 김 대표는 예상하고 있다.

“사용자들을 직접 접하면서 의견을 받은 것과, 기술만 개발한 것에는 천지차이가 있다고 생각해요. 베타 서비스 하면서 느낀 건, 안 해본 사람은 모르겠다는 걸 확신하게 됐죠. 사용자들 요구에 맞는 목소리를 확보하는 다양성 전략으로 나가면 대기업들과 싸워도 경쟁력이 있다고 자부합니다.”

구글 논문에 네오사피엔스 음성합성 기술이 인용됐다.

네오사피엔스 음성합성 기술, 구글·아마존 등 논문서 인용

김 대표는 네오사피엔스의 음성합성 기술 관련 논문을 구글이나 아마존 등 글로벌 기업들이 자주 인용한다고 설명했다. 올해 발간된 구글, 아마존 논문에 감정을 넣는 네오사피엔스 음성합성 기술이 수차례 인용됐다는 것이다.

“연예인 목소리로 오디오북을 한 권 제작하는 데 보통 1천만원이 들어요. 가격 부담이 크죠. 저희는 저렴한 가격에 빠르고 많이 오디오 콘텐츠를 만들 수 있는 시스템을 구축했습니다. 유튜브와 팟캐스트 등 오디오 콘텐츠를 만드는 데 적합하죠. 감정 상태를 바꾸거나 다른 스타일의 목소리 톤, 느낌을 넣는 원천기술을 갖고 있습니다. 사람처럼 리드미컬하게 발음하고 자연스러움을 추구합니다.”

김태수 대표에 따르면 현재 타입캐스트의 단점은 낮은 음질이다. 딥러닝 기술을 활용해 감정 표현은 뛰어나지만, 음질이 떨어지는 한계가 있다. 그러나 고음질 음성합성 기술을 올 10월 내 구현하겠다는 것이 김 대표의 계획이다.

네오사피엔스 음성합성 기술.

“음질이 약간 떨어지는 경향이 있는 데 이는 곧 극복될 거예요. 디지털카메라를 보면 처음에는 화질이 안 좋았지만, 빠르게 찍고 바로 확인할 수 있다는 강점 때문에 파괴적 혁신이 일어났잖아요? 그러다 금세 일반 카메라 이상의 화질을 따라잡았듯, 저희도 고음질 음성합성 서비스를 10월 전 내놓고, 내년쯤에는 그 이상의 음질을 선보일 계획입니다.”

■ 부정사용 음성 검색 기술로 대응...하반기 영미권 진출

컴퓨터 목소리가 너무 정교하다 보니 부정사용에 대한 고민도 크다. 유명인의 목소리를 이용해 가짜뉴스를 만들어내거나, 보이스피싱 같은 데 오용할 수 있는 위험이 존재한다. 김 대표도 이 같은 문제점을 잘 알고, 비슷한 우려를 안고 있다.

“인터스피치라는 음성학회에 낸 논문이 있어요. 음성을 검색할 수 있는 기술인데요, 내가 하지 않은 말인데 어디에선가 잘못된 방법으로 사용될 경우 이를 찾아낼 수 있는 거죠. 또 어찌됐든 알고리즘에 의해 생기는 효과들이 신호에 남는데, 이런 걸 감지할 수 있는 것도 가능하다고 봐요. 창과 방패의 싸움이겠지만, 어느 정도 이 같은 기술로 부정 사용을 방지할 수 있다고 생각합니다.”

관련기사

네오사피엔스는 하반기 영어 서비스 출시와 함께 영미권 진출을 계획 중이다.

“글로벌 원톱을 잡고 싶은 게 목표예요. 캐나다의 라이어버드라는 회사가 저희가 따라 잡고 싶은 회사입니다. 음성합성 기술과 서비스가 재미있어 보이고 오픈소스도 많아 시도하는 회사가 많은데, 시장에서 쓰일 만한 품질이냐를 따져보면 거의 대부분 의문인 수준이에요. 이 한계를 넘어 저희 서비스를 써야 한다는 말이 나오는 수준만큼 기술력을 향상시켜 해외로 진출하는 게 목표입니다.”