네이버 음성합성 기술 진화...수십시간→4시간→30분

네이버 오디오클립 서비스에서 연예인 목소리로 책 줄거리를 들을 수 있는 ‘음성합성’ 속도가 획기적으로 빨라졌다.

네이버 클로바 AI 김성훈 리더는 5일 서울 삼성동 그랜드 인터컨티넨탈 호텔에서 열린 AI 산학 행사 ‘AI 콜로키움’에서 클로바가 지난해 개발한 음성기술, 비전 및 비디오 기술, 언어 처리 기술 성과를 공개했다.

김 리더에 따르면 네이버의 최신 음성합성 기술은 약 30분 녹음만 해도 가능한 수준으로 발전했다. 지난해까지 네이버 음성합성 기술로는 4시간 가량 녹음을 해야 가능했다. 그 이전에는 음성 합성에 수십 시간이 걸렸다.

YG와 네이버랩스는 유인나 목소리와 엔보이스 기술을 이용해 오디오북을 제작했다.

특히 김 리더는 발표의 앞부분을 합성된 목소리의 립싱크로 진행해 눈길을 끌었다. 약 40분간 500문장 녹음으로 얻어진 음성 정보를 통해 합성됐다.

네이버는 더욱 자연스러운 음성합성을 위해 목소리에 다양한 톤을 입힐 수 있는 기술을 연구 중이다.

음성과 이미지가 결합된 정보에 대한 기술 연구 성과도 공개했다.

김 리더가 소개한 ‘입술 읽기’ 기술은 입술의 움직임 만으로 여러 명이 말하거나 주변이 시끄러운 상황에서도 무리 없이 음성인식이 가능했다.

또한 연속된 동작을 인식하는 ‘포즈 인식’과 ‘장면 인식’ 기술의 발전으로, 아이돌 영상 속 춤추는 움직임을 인식해 나의 춤과 비교해 점수를 자동 계산해주는 게 가능해졌다. 드라마 속 주인공들의 얼굴이나 움직임을 인식해 식사하는 장면, 키스하는 장면 등도 구별할 수 있다.