"음성변환, CPU·10초 대화로 가능"…KT, AI 원팀 성과 공개

10초 가량의 짧은 음성 소스만으로도 인공지능(AI)이 다른 사람의 목소리를 변환시키고, 이때 GPU가 아닌 CPU 기반의 컴퓨팅 시스템으로 시간과 비용을 절감해 ‘두 마리 토끼’를 모두 잡은 연구 성과가 공개됐다.

김회린 카이스트 전기 및 전자공학부 교수는 지난 18일 지디넷코리와의 인터뷰를 통해 최근 KT와의 ‘AI 원팀’ 연구 과제로 참여한 CPU 기반 딥러닝 음성합성 기술과 음성변환 기술 성과에 대해 설명했다.

AI 원팀은 인공지능(AI) 1등 대한민국을 목표로 KT, 현대중공업그룹, LG전자, LG U+, 한국투자증권, 동원그룹 등 산업계와 카이스트, 한양대, 한국전자통신연구원(ETRI) 학계가 공동으로 참여한 산학 협력체다.

KT는 AI 원팀과의 공동 R&D를 통한 첫 성과로 4종의 AI 기술 개발에 성공했다. AI 원팀 발족 후 약 10개월만이다. 개발된 4개 기술은 ▲딥러닝 음성합성(P-TTS) ▲E2E 음성인식 ▲무빙 픽처 ▲AI 기반 로봇 고장 진단 기술이다. 여기서 만들어진 4개 연구 성과 가운데 3개는 KT 사업의 핵심기술로 활용하고, 1개는 현대중공업그룹의 산업 현장에 적용할 예정이다.

이번 KT와 김 교수와의 협력으로 기존 대비 비용을 4분의 1로 줄이고, 속도는 10배로 향상시킨 '딥러닝 개인화 음성합성' 기술이 개발됐다.

실제로 김 교수가 제공한 관련 실험 음성을 들어보면, 10초도 안 되는 발화 음성을 재료로 말하고자 하는 대화의 음성에 덧입힌 결과를 확인할 수 있다. 발화자의 목소리뿐 아니라 스타일을 학습할 수 있다.

이같은 성능 및 효율 개선은 기존처럼 시계열 예측이 아닌 비시계열 예측으로 음성합성 모델을 변경했기 때문이다. 덕분에 10~20초의 상대적으로 저용량의 데이터를 처리할 수 있는 CPU를 채택할 수 있었다. GPU 기반일 경우 비용이 많이 드는 문제가 있다.

KT는 올해 1분기 중으로 이 기술을 상용화 해 AI 콜센터(AICC), 차세대 기가지니 등에 활용할 계획이다.

김 교수는 “GPU를 사용하지 않고 CPU만으로 합성하기 때문에 장비값이 4분의 1로 줄은 것”이라며 “최근 음질이 엄청나게 향상되면서 연산량이 수천배 증가해 GPU를 썼었던 건데, 모델을 순차처리에서 병렬처리로 바꿈으로써 10배 정도 향상된 성능을 얻을 수 있었다”고 설명했다.

김 교수의 프로젝트에 참여한 박재한 KT 텍스트음성변환(TTS) 프로젝트 팀장은 “GPU 비용이 비싸고 할당하기에 엔비디아 등에 요청하다보니 컴퓨팅 자원을 확보하는데 어려움이 있었다”며 “GPU가 CPU보다 계산이 빠른 장점이 있지만, 모델 구조를 바꿈으로써 CPU 계산도 빠르게 만들었다”고 덧붙였다.

10초의 적은 분량의 음성 소스만으로도 충분히 음성변환을 해내는 것도 큰 성과다.