"전기차로 넘어가듯이”…AI 음성인식 기술도 세대교체

‘AI 원팀’으로 도전적 과제 시도, 재빠르게 글로벌 수준 도달

인터뷰입력 :2021/02/22 13:34    수정: 2021/02/22 14:45

“고전적인 인공지능 음성인식을 내연기관 차량이라고 본다면, 엔드투엔드(E2E) 음성인식은 전기차로 볼 수 있다.”

장준혁 한양대 교수는 ‘E2E 음성인식’ 기술을 두고 이처럼 비유했다. E2E 음성인식은 KT가 1년 전 인공지능 국가대표 산학연 협의체 ‘AI 원팀’을 꾸린 뒤 공동 연구성과로 꼽은 4종의 AI 기술 가운데 하나다.

불과 몇 년 전 CES를 통해 아마존 알렉사로 음성인식이 AI 기술의 주요 활용 분야로 떠올랐고, 내로라하는 테크 기업들은 서둘러 AI 음성인식 스피커를 내놨다. 세계 여러 나라와 기업에서 가장 똑똑하다는 연구자들은 기계가 사람의 말을 더욱 잘 알아듣게 하는데 집중했다.


■ E2E 음성인식이 뭐길래...

그런 가운데 최근 AI 음성인식 기술 분야에서 최대 화두는 E2E 음성인식이다.

이전까지의 음성인식 기술은 사람의 언어를 기계가 인식해 데이터 처리가 가능한 텍스트로 바꾸는데 다양한 개별 부품과 알고리즘이 작동했다. 사람의 음성에서 음소를 찾아내 단어를 뽑아내고 문장으로 처리하는데 기능에 따라 나뉜 모듈 별로 복잡한 처리 절차를 거치게 된다.

반면 E2E 음성인식은 하나의 모듈 안에서 음성이 입력되면 바로 문장 텍스트가 처리된다. 과거의 음성인식 기술과 비교해 보다 인간의 지식처리 과정과 유사하다. 사람이 생각하는 지능을 그대로 모방해 패턴대로 입력되면 출력이 나오는 식이다. 여러 컴퓨팅 결과를 조합하는 형태가 아니기 때문이다.

KT AI 원팀에서 E2E 음성인식 기술 개발을 주도한 한양대 장준혁 교수

당연히 E2E 기술이 뛰어나 보이지만 AI 음성인식 기술 개발에 뛰어든 모든 회사가 이 방식을 택하고 있지는 않다. 현재 AI 활용 단계에서 효율적인 면을 고려할 수 밖에 없기 때문이다.

장준혁 교수는 “기술발전 과정에서 보면 E2E 음성인식은 고전적인 음성인식 기술과 경쟁을 벌이고 있다”며 “E2E 음성인식이 한 단계 위의 기술이지만 이전 음성인식 기술이 뛰어난 장점이 아직은 앞선다고 볼 수도 있다”고 말했다.

새롭게 공들여 개발한 기술이 과거 기술보다 뒤처지는 점이 있다는 이야기가 의아할 수도 있다. 장 교수는 이를 두고 고전적 음성인식 기술이 빠르게 성능을 개선할 수 있는 점을 꼽았다.

그는 “고전적인 음성인식 기술은 모듈 별로 설계가 이뤄졌기 때문에 특정 성능을 끌어올리려고 할 때 어느 한 부분씩만 뜯어 고치면 실제 상용 서비스에서 품질 개선이 눈에 띄게 나타난다”며 “E2E 음성인식 기술은 성능을 개량한다고 하면 전체 딥러닝 구조를 모두 고쳐야 한다”고 설명했다.

이어, “더 이상 발전하기 어려워 보이는 내연기관일지라도 당장은 성능이 좋지 않냐”면서 “반대로 전기차는 배터리 기술이 발전되면 주행거리가 더 늘어나고 차 플랫폼이 더욱 가벼워질 수도 있고 발전 가능성이 크다”고 덧붙였다.


■ 시도조차 쉽지 않은 과제, 글로벌 무대로

KT AI 원팀에서 장 교수가 개발을 주도한 E2E 음성인식 기술을 갖춘 회사는 국내서 드물다. 세계 수준에서도 AI 개발에 앞서가는 몇몇 기업이 한발자국 앞섰을 뿐이다.

과거 기술의 효율적인 면 때문에 새로운 기술이 정착하기 어려운 점 때문이다. 장 교수는 “당장 내연기관 차량이 좋은 것처럼 효율적인 점 때문에 국내에선 E2E 음성인식 기술에 개발에 아직 나서지도 못한 기업이 많다”고 말했다.

당장 효율을 낼 수 있는 과거 기술을 두고 새로운 기술을 개발하는데 인력과 비용을 들이기는 쉽지 않은 부분으로 꼽힌다. 내연기관과 전기차, 화석 에너지와 재생 에너지 관계와 비슷한 부분이다.

장 교수는 그럼에도 KT AI 원팀을 통해 개발을 시도할 수 있었고, 만족할 성과도 거두고 있다고 밝혔다.

그는 “구글이 단연 앞서있고 애플, 아마존, 페이스북, 바이두와 같은 회사의 AI 기술 개발 흐름에 견준다면 우리는 논문도 별로 없고 결과물을 이제야 냈기 때문에 다소 늦었다”면서도 “하지만 AI 원팀에서 개발한 E2E 음성인식 기술을 성능 수치로 따진다면 특정 환경 결과에서는 이미 따라잡았다”고 말했다.

장 교수 연구팀이 개발한 E2E 음성인식 기술은 단어 오류율을 대폭 개선시켰다는 점을 두고 학계서 관심을 받기도 했다. 음성인식의 딥러닝 재료인 발화 음성의 주파수를 일부러 훼손시켜 학습시키는 방법을 통해 더욱 까다로운 환경에서 음성인식률을 끌어올렸다.

이와 같은 성과는 단순히 AI 원팀이란 산학연 연합체의 결과물에 그치지 않고, 해외 AI 기술 무대에도 오를 예정이다.

관련기사

장 교수는 “내연기관과 전기차처럼 E2E 음성인식 기술은 과거 방식과 함께 쓰여 마치 하이브리드카처럼 당장은 발전할 가능성이 있다”면서 “KT에서 발표한 것처럼 우선 AI 기반 콘택트 센터(콜센터) 등에 도입되고, 더욱 경량화한다면 E2E 음성인식 플랫폼이 소형 단말 안으로 들어갈 수도 있다”고 말했다.

이어, “개발 시작조차 하지 못하는 회사도 있지만 AI 원팀으로 도전적인 과제에 뛰어들었고, 성능으로 보면 일부분에서는 세계 최고 수준에 도달하기도 했다”며 “개발 진행 측면에서는 더욱 경량화하고 성능을 끌어올릴 계획이고, 현재까지의 연구 성과물은 글로벌 AI 업계 시선이 모이는 컨퍼런스에서 발표할 준비를 하고 있다”고 밝혔다.