마인즈랩 "음성변환 '코타트론' 논문, 인터스피치에 게재"

최대 100명 이상 음성변환 학습 가능

컴퓨팅입력 :2020/08/28 17:07

마인즈랩은 자사 딥러닝 기반의 음성 변환 응용 기술인 '코타트론'에 대한 논문이 세계 최정상 인공지능(AI) 학회인 '인터스피치'에 게재돼 그 기술력을 입증받았다고 28일 밝혔다.

인터스피치는 음성신호처리 분야에서 세계 최대 규모의 음성처리 분야 국제 학회로, 국내외 글로벌 기업이나 연구소에서 매년 참가해 최신 기술 및 연구성과를 공유하는 권위있는 자리다.

코타트론이란 입력 음성이 주어지면 마치 다른 사람이 그 음성을 똑같은 어조로 읽은 듯한 음성을 합성해내는 AI 기술이다.

마인즈랩 브레인팀 박승원 수석 연구원

음성변환 기술은 그동안 엔터테인먼트, 콜센터 등의 분야에 활용될 가능성으로 주목받은 기술이지만 상용화가 되기에는 구현이 까다롭고 성능이 부족하다고 시장 내에서 평가됐다. 이전 음성변환 기술은 대체로 2~4명 정도의 제한된 수의 화자 사이의 음성변환만 학습이 가능했다.

마인즈랩의 코타트론 기술을 활용하면 많게는 100명 이상의 화자 사이의 음성변환을 학습할 수 있어 데이터 부족 문제를 해결하고, 상용화에 드는 비용을 크게 줄일 수 있는 장점이 있다.

관련기사

마인즈랩의 코타트론 논문은 이미 아카이브와 깃허브를 통해 공유됐다. 지난 8월 아카이브를 통해 발표된 음성변환 분야 최고 석학들이 작성한 논문에서 해당 논문이 인용되기도 했다.

연구 논문의 저자인 마인즈랩 박승원 수석 연구원은 "코타트론 기술을 활용해 임의의 화자의 음성을 다른 화자의 음성으로 변환할 수 있게 되어, 음성변환 기술의 활용 가능 분야를 크게 확장했다”며 "코타트론 기술을 잘 응용한다면 전 세계적으로 음성합성 관련 수요가 많은 엔터테인먼트, 콜센터 등의 분야에서 큰 경제적 가치를 창출해낼 것"이라고 말했다.