구글 딥마인드, 사람처럼 말하는 '웨이브넷' 개발

50% 더 자연스러워..."당장 상용화는 어려워"

컴퓨팅입력 :2016/09/11 17:50    수정: 2016/11/06 15:06

송주영 기자

알파고 개발사로 잘 알려진 딥마인드가 인공지능 기술을 이용해 이번에는 사람처럼 말하는 컴퓨터 기술을 개발했다. 말하는 컴퓨터의 역사는 오래됐지만 딥마인드가 개발한 말하는 컴퓨터는 처음 본 단어도 읽을 수 있다는 점에서 기존 컴퓨터와는 크게 다르다.

9일(현지시간) 블룸버그에 따르면 딥마인드가 선보인 이 기술의 이름은 ‘웨이브넷’이다. 웨이브넷은 인공지능 기술의 종류인 신경망을 이용해 목소리를 낸다. 딥마인드가 개발한 컴퓨터의 음성은 이전 기술에 비해 50% 더 자연스럽다.

딥마인드는 웨이브넷의 영어와 중국어 버전의 블라인드 테스트 내용을 공개했다. 참석자들에게 구글 ‘텍스트-투-스피치’와 웨이브넷을 이용해 만들어낸 목소리를 각기 들려주고 어느 쪽이 더 자연스러운지 선택하도록 했다. 참석자들은 웨이브넷이 만든 음성이 더 자연스럽다고 평가했다. 그러나 인간의 음성 수준에는 미치지 못한다는 평가를 받았다.

딥마인드

현재 말하는 컴퓨터에는 문자를 잘개 쪼개고 이를 다시 사람의 음성으로 변환하는 기술이 주로 적용된다. 이 방식을 이용하면 컴퓨터가 할 말의 내용을 쉽게 수정할 수 있다는 장점이 있지만 처음 몇 마디만 들어도 컴퓨터가 말하고 있다는 것을 알 수 있을 정도로 부자연스럽다는 단점이 있다.

현존하는 컴퓨터의 음성이 부자연스럽게 들리는 이유는 규칙에 따라 전자적으로 구현하기는 하지만 사람이 특정 단어를 소리내는 방식까지 감안해 구현하지는 못하기 때문이다.

그러나 딥마인드는 인공지능 기술을 이용해 기존 기술에 의한 음성 변환보다 훨씬 더 자연스럽게 말하는 컴퓨터를 구현했다. 장기적으로 웨이브넷을 이용하면 연설하는 컴퓨터도 개발할 수 있게 될 전망이다.

웨이브넷은 신경망 기술을 이용해 훈련을 통해 목소리를 내도록 만들어졌다. 신경망은 훈련을 통해 스스로 규칙을 만들어내는 기술이다. 딥마인드는 웨이브넷을 훈련시키기 위해 초당 1만6천개 이상에 달하는 음성신호를 사용했다.

관련기사

웨이브넷은 각각의 음성신호가 만들어낸 음파를 토대로 또 다른 음성신호의 음파를 예측하는 방식을 이용한다. 딥마인드 연구진은 이에 대해 “도전과제”라고 설명했다.

딥마인드는 웨이브넷을 구동하기 위해 대량의 컴퓨터 자원이 필요해 당장 상용화 하기는 어려울 것으로 전망했다.