전 세계적으로 널리 쓰이는 인공지능(AI) 음성인식 기술이 새로운 모델을 접목해 정확도를 높일 수 있을 전망이다.
중국 알리바바그룹의 다모아카데미 기계지능연구실이 차세대 음성인식 모델 'DFSMN(Deep Feedforward Sequence Memory Network)'을 발표했다. 전 세계 언어 인식 및 식별 정확도를 96.04%까지 끌어올렸다는 것이 알리바바측의 설명이다. 이 정확도 수치는 기존 세계 최대 무료 음성인식 데이터베이스인 '리브리스피치(LibriSpeech)' 테스트를 근거로 도출된 것이다.
다모아카데미 기계지능연구실의 음성인식 연구진이 일종의 딥러닝 알고리즘으로서 이 새 모델의 연구개발을 주도했다. 동시에 전 세계 기업과 개인 개발자에 공표했다.
알리바바는 이 모델이 기존에 업계에서 가장 널리 사용해온 LSTM( Long Short-Term Memory) 모형과 달리 훈련 속도가 더 빠르고 인식 정확도가 더 높다고 설명했다. 완전히 새로운 DFSMN 모형을 스마트 음향 혹은 가전 설비에 적용할 경우 기존 기술에 비해 딥러닝 훈련 속도는 3배, 음성인식 속도는 2배 향상된다고 부연했다.
![](https://image.zdnet.co.kr/2018/06/11/hjyoo_yXhWzpQu3W2Nih.jpg)
최근 알리바바가 개최한 '윈시대회' 우한 포럼에서 DFSMN 음성인식 모형의 'AI 계산원'이 실제 인간과 겨룬 결과 복잡한 환경에서 음성 주문에 빠르게 대처해 놀라움을 안긴 바 있다. 시연에서 AI 계산원은 49초 내에 34잔의 커피에 대한 주문 처리를 완료했다. 이 음성인식 기술을 적용한 자동 집표기기는 상하이 지하철에 이미 적용됐다.
관련기사
- 中 알리바바, AI 스피커 판매 300만대 돌파2018.06.11
- 中 AI 스피커 시장...알리바바·샤오미가 90% 점유2018.06.11
- 알리바바 "AI 캐셔, 커피 34잔 주문에 49초 소요"2018.06.11
- 中 알리바바, 세계 '자바' 표준 조직 입성2018.06.11
중국의 유명 음성인식 전문가인 시베이공업대 셰레이 교수는 "알리바바가 이번에 개발한 DFSMN 모형은 음성인식 정확도 측면에서 돌파구적 성과를 이뤘다"며 "최근 수 년간 딥러닝이 음성인식 영역에서 이룬 대표적인 성과"라고 평가했다. 알리바바의 새 모형이 글로벌 학술계와 기술 전문가들 사이에서도 큰 영향을 미칠 것으로 내다봤다.
DFSMN 모형이 LSTM의 뒤를 이어 글로벌 음성인식 영역의 주요 식별 모델로 자리잡을 것이란 기대다.