컴퓨터 음성 인식 기술이 또 한 단계 발전했다. 이번엔 대화를 듣고 글자로 옮겨 적을 때 정확도를 측정하는 테스트에서 사람 전문가 팀을 따라잡는 결과를 냈다.
20일(현지시간) 마이크로소프트(MS) 연구소는 블로그를 통해 자사 대화식 음성 인식 기술이 에러율을 5.1%로 낮추는데 성공했다고 밝혔다.
테스트는 음성인식 벤치마크 시스템인 스위치보드를 통해 이뤄졌다. 스위치보드는 스포츠, 정치 등 다양한 주제의 전화 통화 녹음을 2천400 건 이상 보유하고 있는 테스트 플랫폼으로, 지난 20여년간 음성 인식 학계에서 성능 평가에 활용돼 왔다.
지난해 10월 MS연구소는 이 테스트에서 단어 에러율 5.9%를 기록했다. 100개의 단어를 들었을 때 6개 정도 오류를 낸 것이다. 이는 구술 기록(트랜스크립션) 전문가 한 사람이 평균적으로 내는 오류와 동일한 수준이다.
MS는 구술 기록 전문가 여럿이 팀을 이뤄 작업하는 수준으로 시스템의 성능을 끌어올리는 것을 다음 목표로 잡았는데 이번에 그 목표를 달성한 것이다.
사람 전문가 팀의 평균 에러율도 5.1%이다.
MS 연구소는 이번 연구는 “음성 인식 시스템의 인공신경망 기반 청음 및 언어 모델을 향상시킨 결과”라고 설명했다.
관련기사
- AI로 워터마크 제거..."감쪽같네"2017.08.22
- 일론 머스크 "AI는 북한보다 더 큰 위협"2017.08.22
- 앤드류 응 "AI로 AI가 만드는 문제 해결한다"2017.08.22
- 전문가 뺨치는 '만능 사진사' AI 나온다2017.08.22
MS는 음성 인식기가 대화 전체를 이용해 사람이 대화할 때 처럼 문맥을 고려하고 다음에 이어질 단어나 문장을 예측할 수 있게 했다.
한편 MS는 음성 인식 기술을 디지털 비서 서비스 코타나, 프리젠테이션 변역기, 코그너티브 서비스 등에 활용하고 있다.