네이버 "스피치X 고도화 중...내년 2분기 공개"

텍스트·음성 모달리티 결합...LLM이 직접 음성 다뤄

인터넷입력 :2024/11/11 21:28

네이버가 AI 기반 음성 합성 기술 '스피치X'를 내년 2분기에 일반 이용자들이 사용할 수 있도록 공개한다. 회사는 현재 스피치X의 정확성과 품질을 높이는 고도화 작업 중이다. 

유강민 네이버클라우드 하이퍼스케일 AI 파운데이션 리서치팀 리더는 11일 서울 강남 코엑스에서 열린 '단24' 컨퍼런스에서 'HyperCLOVA X Audio: 자연스러운 음성 대화를 위한 기술' 발표를 진행하며 스피치X 개발 현황에 대해 설명했다.

스피치X는 실제 사람 목소리와 유사한 허상 인물의 목소리를 생성한다. 텍스트와 음성 모달리티가 결합돼 LLM이 직접 음성을 다룰 수 있다는 점에서 앞서 네이버가 공개한 클로바 스피커, 클로바 더빙 등과 차이가 있다. 다양한 음성 데이터를 학습해 언어의 구조 및 발음의 정확성을 개선한다. 언어적 뉘앙스, 감정적 표현 등 인간과 유사한 소통방식을 구현한다.

유강민 네이버클라우드 하이퍼스케일 파운데이션 리서치팀 리더

해당 기술은 우선적으로 쇼핑라이브, AI CALL, 치지직 등 네이버 내부 서비스로 공급된다. 이후 정확성과 품질을 향상한 후 내년 2분기 클로바X를 통해 보이스 엔진을 붙인 합성형태로 일반 이용자에게 제공될 예정이다.

스피치X는 개인화 음성 서비스, 실시간 음성 번역, 감정 표현 음성 합성, 대화형 AI 응답 등 다양한 분야에 적용될 전망이다. 이날 유 팀 리더는 스피치X로 가상의 축구 해설가의 목소리를 만든 합성 음성을 공개하며 "실제 사람 목소리와 구분이 안 될 정도로 매우 깔끔하게 합성이 되고 있는 것을 확인할 수 있다"고 강조했다.

관련기사

개발에는 범죄나 개인정보 문제와 무관한 데이터를 수집해 활용한다. 유 팀 리더는 "각 데이터에 개인정보가 많이 들어 있거나 회사의 정책이 복잡하게 얽혀 있는 등 실제 쓸 수 있는 데이터는 많지 않다"며 "최대한 많은 이들의 음색을 고려하기 위해 범죄, 개인정보 이슈가 없는 데이터를 수집 중"이라고 했다.

유 팀 리더는 "음성 기술을 계속 다듬고 앞으로 실시간 인터랙션이 가능한 형태를 만들어갈 것"이라고 말했다.