바이두 AI 연구소, 음성→문자 변환 프로그램 개발

딥 스피치2 기반 제작…작업 시간 40% 단축

인터넷입력 :2017/03/20 16:32

바이두가 인공지능(AI)의 핵심기술 중 하나인 딥러닝 기술로 음성을 문자로 변환시키는 웹 응용 프로그램을 선보였다.

15일 왕이커지는 바이두의 실리콘밸리 AI 연구소(SVAIL)가 음성을 문자로 변환하는 ‘스위프트스크라이브(SwiftScribe)’를 개발했다고 보도했다.

이 프로그램은 wav 혹은 mp3 형식 음성 파일을 지원한다. 1분 가량의 녹음 파일이 문자로 전환되는 데는 30초, 1시간 길이의 파일은 20분 가량 소요된다. 아직까지 대소문자 구별, 문장 부호 달기, 문단 나누기 등 기능은 지원되지 않는다. 수정이 필요하면 텍스트 상자에서 따로 편집할 수 있다.

이번 프로젝트를 담당한 바이두 매니저 텐우(田武)는 “이 프로그램은 의료기구, 법률, 상업, 매체 등 광범위한 영역에서 생산력을 높이고 지대한 영향을 끼칠 것”이라며 “1시간의 녹음 자료를 (사람이) 작성하기 위해 소요되는 4~6시간의 40%를 단축했다”고 말했다.

스위프트스크라이브는 바이두의 AI 기반 음성 인식 시스템 ‘딥 스피치(Deep Speech)2’를 기반으로 제작됐다. 바이두는 2014년 처음으로 자연어를 인공지능으로 분석해주는 딥 스피치를, 2015년 9월에는 한층 개선된 딥 스피치2를 선보였다.

바이두가 개발한 음성 문자 변환 프로그램 '스위프트스크라이브(SwiftScribe)'.(사진=왕이커지)

딥 스피치2는 소음이 많은 환경에서 영어 음성 인식률의 정확도를 높이는 데 목표를 두고 개발됐으며 다양한 말투, 사투리, 시끄러운 환경에서의 음성 인식 정확도를 97%까지 높였다. 바이두는 이를 위해 9천600여 명의 7천 시간 길이 음성 샘플과 15가지 종류의 소음을 더해 10만 시간 가량의 샘플을 확보한 것으로 전해졌다. 딥 스피치2 알고리즘에는 중국어도 적용되기 시작했다.

바이두 AI관련 수석 과학자 우은다(吳恩達)는 “이 프로그램은 마이크로소프트(MS) 소프트웨어 빙 스피치, 구글 스피치 응용프로그램인터페이스(API) 등 경쟁사의 프로그램보다 오인식률이 10% 낮다”고 설명했다.

관련기사

이 신문은 “바이두는 앞으로도 더 많은 자금으로 투자를 확대해 인공지능 연구를 지원할 것으로 보인다”며 “이는 리옌훙(李彦宏) 바이두 이사장 겸 CEO가 최근 반복적으로 언급해 온 사항”이라고 보도했다. 리옌홍 이사장은 지난달 재무보고 전화회의에서 “인공지능은 인터넷과 전통 공업을 변화시키는 커다란 기회”라고 언급한 것으로 전해졌다.

스위프트스크라이브는 아직까지 영어만을 지원하며 당분간 무료로 사용 가능할 전망이다.