"음성변환, CPU·10초 대화로 가능"…KT, AI 원팀 성과 공개

GPU 아닌 CPU로 비용 4분의 1로 줄여

방송/통신입력 :2021/02/24 07:49

10초 가량의 짧은 음성 소스만으로도 인공지능(AI)이 다른 사람의 목소리를 변환시키고, 이때 GPU가 아닌 CPU 기반의 컴퓨팅 시스템으로 시간과 비용을 절감해 ‘두 마리 토끼’를 모두 잡은 연구 성과가 공개됐다.

김회린 카이스트 전기 및 전자공학부 교수는 지난 18일 지디넷코리와의 인터뷰를 통해 최근 KT와의 ‘AI 원팀’ 연구 과제로 참여한 CPU 기반 딥러닝 음성합성 기술과 음성변환 기술 성과에 대해 설명했다.

AI 원팀은 인공지능(AI) 1등 대한민국을 목표로 KT, 현대중공업그룹, LG전자, LG U+, 한국투자증권, 동원그룹 등 산업계와 카이스트, 한양대, 한국전자통신연구원(ETRI) 학계가 공동으로 참여한 산학 협력체다.

김회린 카이스트 교수

KT는 AI 원팀과의 공동 R&D를 통한 첫 성과로 4종의 AI 기술 개발에 성공했다. AI 원팀 발족 후 약 10개월만이다. 개발된 4개 기술은 ▲딥러닝 음성합성(P-TTS) ▲E2E 음성인식 ▲무빙 픽처 ▲AI 기반 로봇 고장 진단 기술이다. 여기서 만들어진 4개 연구 성과 가운데 3개는 KT 사업의 핵심기술로 활용하고, 1개는 현대중공업그룹의 산업 현장에 적용할 예정이다.

이번 KT와 김 교수와의 협력으로 기존 대비 비용을 4분의 1로 줄이고, 속도는 10배로 향상시킨 '딥러닝 개인화 음성합성' 기술이 개발됐다.

실제로 김 교수가 제공한 관련 실험 음성을 들어보면, 10초도 안 되는 발화 음성을 재료로 말하고자 하는 대화의 음성에 덧입힌 결과를 확인할 수 있다. 발화자의 목소리뿐 아니라 스타일을 학습할 수 있다.

이같은 성능 및 효율 개선은 기존처럼 시계열 예측이 아닌 비시계열 예측으로 음성합성 모델을 변경했기 때문이다. 덕분에 10~20초의 상대적으로 저용량의 데이터를 처리할 수 있는 CPU를 채택할 수 있었다. GPU 기반일 경우 비용이 많이 드는 문제가 있다.

KT 콜센터

KT는 올해 1분기 중으로 이 기술을 상용화 해 AI 콜센터(AICC), 차세대 기가지니 등에 활용할 계획이다.

김 교수는 “GPU를 사용하지 않고 CPU만으로 합성하기 때문에 장비값이 4분의 1로 줄은 것”이라며 “최근 음질이 엄청나게 향상되면서 연산량이 수천배 증가해 GPU를 썼었던 건데, 모델을 순차처리에서 병렬처리로 바꿈으로써 10배 정도 향상된 성능을 얻을 수 있었다”고 설명했다.

김 교수의 프로젝트에 참여한 박재한 KT 텍스트음성변환(TTS) 프로젝트 팀장은 “GPU 비용이 비싸고 할당하기에 엔비디아 등에 요청하다보니 컴퓨팅 자원을 확보하는데 어려움이 있었다”며 “GPU가 CPU보다 계산이 빠른 장점이 있지만, 모델 구조를 바꿈으로써 CPU 계산도 빠르게 만들었다”고 덧붙였다.

10초의 적은 분량의 음성 소스만으로도 충분히 음성변환을 해내는 것도 큰 성과다.

관련기사

김 교수는 “타사의 경우 40분 분량의 음성으로 음성변환 한다고 할 때, 맨땅부터 훈련해 합성기를 만든다는 의미는 아닌 것으로 안다”며 “기존에는 10~20시간의 음성 녹음본이 필요했는데, 음성 소스가 10초 내지 40분 정도만 있어도 가능한 것은 이미 완성된 음성합성기에 약간 변조를 가하기 때문”이라고 말했다.

이어 “짧은 시간 안에 목소리를 완벽하게 흉내내는 건 쉽지 않지만 근접하게는 가능하다”며 “우리는 단기 과제로 10~20초의 특정인의 음성을 흉내내는 음성합성 기술을 연구한 것”이라고 덧붙였다.