메타, 6개국 음성 생성AI ‘보이스박스' 공개

영어·프랑스어·스페인어·독일어·폴란드어·포르투갈어 지원

컴퓨팅입력 :2023/06/19 11:47

메타가 여러 국가의 음성 클립을 간단하게 만들고 편집할 수 있는 생성 인공지능(AI) 모델을 공개했다.

최근 실리콘앵글 등 외신에 따르면 메타는 음성 생성AI 모델 '보이스박스'를 공식 블로그를 통해 발표했다.

보이스박스는 추가 학습 없이 영어, 프랑스어, 스페인어, 독일어, 폴란드어, 포르투갈어 등 6개 언어의 음성을 만들어낼 수 있는 생성AI 모델이다.

보이스방식 구조(이미지=메타)

메타는 보이스박스의 음성을 보다 자연스럽게 만들기 위해 자체 개발한 플로우 매칭 모델을 기반으로 모델을 구축했다. 생성 AI는 변형에 특별히 레이블을 지정하지 않고도 다양한 음성 데이터에서 학습할 수 있습니다. 이를 통해 AI는 다양한 작업을 수행하고 더 큰 규모의 교육 데이터를 수집할 수 있다

메타 관계자는 "이미지 및 텍스트를 위한 생성 시스템과 마찬가지로 보이스박스는 다양한 스타일로 출력을 생성하며 처음부터 출력을 생성할 수 있을 뿐만 아니라 제공된 샘플을 수정할 수 있다"라고 말했습니다. "

모델이 학습해야 하는 모든 것은 원시 오디오와 수반되는 전사입니다. 연구원에 따르면 다른 모델은 여러 작업에 걸쳐 일반화할 수 없으며 전문 교육을 통해 다양한 작업에 대해 특별히 사전 교육을 받아야 합니다. 특정 교육 없이 여러 가지 작업을 수행할 수 있으므로 보이스박스 모델이 차별화됩니다.

메타는 확산 모델을 개선한 플로우 매칭을 사용해 공용 도메인 오디오북으로 5만 시간 이상, 녹음된 음성 및 녹취록으로 교육을 진행했다고 밝혔다. 이를 통해 단어 오류율을 5.9%에서 1.9%로 줄였으며 문맥에 따라 음성을 바꾸거나 어떤 단어가 이어질 지 있는지 예측하고, 음성 클립 중간에 중단될 경우 어떻게 들릴지 결정할 수 있다.

또한, 억양이나 톤 등을 조절해 말하는 방식을 설정할 수 있으며, 사전에 만들어진 음성도 편집 가능하다.

보이스박스는 2초 정도의 짧은 오디오를 사용하여 샘플 스타일을 일치시키고 이를 텍스트 음성 변환 생성에 사용할 수 있다. 말을 할 수 없는 개인, 가상 비서 및 비디오 게임의 음성 연기를 위한 향후 응용 프로 그램에 사용될 수 있다.

관련기사

메타 연구원은 “기존 음성 합성기는 준비된 데이터로만 훈련할 수 있어 깨끗한 데이터의 입력으로만 가능하다”며 “그래서 영상 수정 범위가 한정적이고 결과물도 단조로웠다”고 설명했다.

이어서 “우리는 “텍스트와 음성 간 비결정적 매핑을 학습할 수 있는 비자동회귀 생성 모델을 발전시킨 플로우 매칭 모델을 보이스박스에 적용했다”며 “이를 통해 더 다양한 데이터를 거 큰 규모로 활용해 생성AI를 개발하는 만큼 더욱 고객의 서비스에 많은 도움을 제공할 것”이라고 강조했다.