딥마인드 음성변조 AI 기술, 성별까지 바꿔

사람 고유 음성 특징 제거...알파벳-음소만 학습

컴퓨팅입력 :2017/11/12 10:06    수정: 2017/11/12 10:12

손경호 기자

일본 인기 애니메이션 '명탐정 코난'에서나 등장할 법한 음성변조 기술을 이전보다 훨씬 자연스럽게 구현할 수 있는 방법이 고안됐다.

구글 딥마인드 아론 반 덴 올드 연구원은 최근 '인공신경 개별 표현 학습(Neural Discrete Representation Learning)'이라는 논문을 발표했다. 여기에는 딥러닝 기술을 활용해 학습해야 할 음성 데이터를 사전에 별도 처리하는 작업을 거치지 않은 원본 데이터를 입력하더라도 해당 데이터가 가진 고유 특징을 추출하는 방법이 담겼다.

논문에 따르면 'VQ-VAE(Vector Quantised-Variational AutoEncoder)'를 통해 비지도 학습으로도 보다 손쉽고 자연스럽게 한 사람의 목소리를 다른 사람의 목소리로 변환시킬 수 있다.(논문링크)

AI 스타트업 보이저X 남세동 대표는 자신의 페이스북을 통해 이 같은 내용에 대해 소개하기도 했다.

그의 설명에 따르면 VQ-VAE는 사람이 선별한 데이터를 입력하는 지도 학습과 달리 가공되지 않은 데이터를 입력하는 비지도 학습으로 여러 사람들의 목소리(웨이브)를 64배로 압축했다가 푸는 과정을 거친다. 이를 통해 사람들 고유 목소리 특징은 제거하고 알파벳이나 음소를 어떻게 발음하는지에 대한 특징만 남긴다.

관련기사

이를 활용하면 "A라는 사람의 목소리를 압축해서 알파벳, 음소 정보만 남긴 후 B의 목소리 정보를 가미해서 풀어줬더니 A의 목소리가 B의 목소리로 그럴듯하게 변환돼서 나오더라"는 것이다.

실제로 반 덴 올드 연구원이 공개한 목소리 샘플에서는 원본 음성을 심지어 여자 목소리로까지 변조한 내용을 확인해 볼 수 있다.(관련링크)

음성 샘플을 64배로 압축하는 방법으로 저마다 다른 사람이 가진 고유 음성의 특징을 제거하고 알파벳, 음소 등에 대한 내용만 남는다.(자료=아론 반 덴 올드 연구원 블로그)