네이버가 40분짜리 녹음 데이터만으로 고품질의 합성음을 제작할 수 있는 클로바의 음성 합성 신기술 ‘NES(Natural End?to-end Speech Synthesis)’을 선보인다고 14일 밝혔다.
네이버는 NES 기술이 사용된 비즈니스 서비스도 제공한다.
NES는 40분 수준의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술이다.
이전까지는 40~100시간 정도의 음성이 필요했으나 이 시간을 대폭 줄인 것이다.
이 기술은 특정 분야에 대한 제약 없이 사용할 수 있다. 기본 목소리 외에 기쁨이나 슬픔 등 감정이 반영된 목소리도 제공한다.
현재 클로바 보이스 홈페이지에서 무료로 NES 기술로 제작한 음성합성을 체험해볼 수 있다.
네이버는 기업 이용자를 대상으로, NES 기반의 보이스 비즈니스 서비스인 ‘클로바 프리미엄 보이스(CPV)’도 판매한다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.
관련기사
- 네이버 검색·추천 기술 뒤에 숨은 ‘데이터&AI’ 플랫폼2019.11.14
- 네이버 라인-야후 재팬, ‘결제·쇼핑·AI’ 힘 합친다2019.11.14
- 日야후·라인 통합...소뱅·네이버, 합자사 설립키로2019.11.14
- 네이버, 악플 걸러주는 AI '클린봇' 전체 뉴스로 확대2019.11.14
네이버 클로바 보이스 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.
네이버는 연내 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다.