전 세계적으로 널리 쓰이는 인공지능(AI) 음성인식 기술이 새로운 모델을 접목해 정확도를 높일 수 있을 전망이다.
중국 알리바바그룹의 다모아카데미 기계지능연구실이 차세대 음성인식 모델 'DFSMN(Deep Feedforward Sequence Memory Network)'을 발표했다. 전 세계 언어 인식 및 식별 정확도를 96.04%까지 끌어올렸다는 것이 알리바바측의 설명이다. 이 정확도 수치는 기존 세계 최대 무료 음성인식 데이터베이스인 '리브리스피치(LibriSpeech)' 테스트를 근거로 도출된 것이다.
다모아카데미 기계지능연구실의 음성인식 연구진이 일종의 딥러닝 알고리즘으로서 이 새 모델의 연구개발을 주도했다. 동시에 전 세계 기업과 개인 개발자에 공표했다.
알리바바는 이 모델이 기존에 업계에서 가장 널리 사용해온 LSTM( Long Short-Term Memory) 모형과 달리 훈련 속도가 더 빠르고 인식 정확도가 더 높다고 설명했다. 완전히 새로운 DFSMN 모형을 스마트 음향 혹은 가전 설비에 적용할 경우 기존 기술에 비해 딥러닝 훈련 속도는 3배, 음성인식 속도는 2배 향상된다고 부연했다.
최근 알리바바가 개최한 '윈시대회' 우한 포럼에서 DFSMN 음성인식 모형의 'AI 계산원'이 실제 인간과 겨룬 결과 복잡한 환경에서 음성 주문에 빠르게 대처해 놀라움을 안긴 바 있다. 시연에서 AI 계산원은 49초 내에 34잔의 커피에 대한 주문 처리를 완료했다. 이 음성인식 기술을 적용한 자동 집표기기는 상하이 지하철에 이미 적용됐다.
관련기사
- 中 알리바바, AI 스피커 판매 300만대 돌파2018.06.11
- 中 AI 스피커 시장...알리바바·샤오미가 90% 점유2018.06.11
- 알리바바 "AI 캐셔, 커피 34잔 주문에 49초 소요"2018.06.11
- 中 알리바바, 세계 '자바' 표준 조직 입성2018.06.11
중국의 유명 음성인식 전문가인 시베이공업대 셰레이 교수는 "알리바바가 이번에 개발한 DFSMN 모형은 음성인식 정확도 측면에서 돌파구적 성과를 이뤘다"며 "최근 수 년간 딥러닝이 음성인식 영역에서 이룬 대표적인 성과"라고 평가했다. 알리바바의 새 모형이 글로벌 학술계와 기술 전문가들 사이에서도 큰 영향을 미칠 것으로 내다봤다.
DFSMN 모형이 LSTM의 뒤를 이어 글로벌 음성인식 영역의 주요 식별 모델로 자리잡을 것이란 기대다.