韓 음성인식 1세대 학자의 회고‥"킬러 솔루션 아직도 안나와"

한국정보과학회 인공지능 소사이어티 세미나

컴퓨팅입력 :2020/12/23 15:56

“인공지능 분야도 그렇고, 음성합성 분야도 그렇고 사실은 킬러 솔루션이 없다. 킬러 솔루션에 대해 고민해보고, 그에 필요한 연구는 우리 학계에서 계속 진행할 것이다. 실용성에 대한 것도 같이 고민했으면 한다.”

카이스트 전산학부 오영환 명예교수는 22일 한국정보과학회 인공지능소사이어티가 주관한 ‘컴퓨터 역사 워크숍-인공지능’ 웨비나에서 한국어 음성인식 연구 및 교육의 태동기에 대해 회고하며 이같이 전했다.

1980년대에 음성 활용 시스템 및 그와 관련한 고등교육이 시작됐고, 2000년대 들어서야 딥러닝 연구가 무르익기 시작했으나 아직까지도 시장에 큰 영향을 미치는 핵심 솔루션인 일명 ‘킬러 솔루션’이 부재하다는 지적을 제기했다.

카이스트 전산학부 오영환 명예교수

오 교수는 1980년 도쿄공업대학에서 정보공학 박사를 취득한 후 충북대 교수, 카네기멜론대 방문교수 등을 거쳐 대한음성학회장과 국방소프트웨어설계 특화연구센터장을 역임했다.

오 교수는 먼저 한국어 음성인식 연구 역사에 대해 설명했다. 오 교수에 따르면 1960~1970년대에 미국과 일본에서 음성 분석에 대한 연구가 시작됐으며, 한국의 경우 1980년대 본격화 됐다. 초창기에는 사람 머리 측면을 X레이로 찍어 발성기관이 어떻게 움직이는지 연구했다. 세계적인 음성학자 도쿄대 후지사키 교수가 1973년 한국인 연구원과 함께 한국어 단모음에 대한 주파수 특징(formant)을 컴퓨터로 분석했다.

오 교수는 “1978년도 일본에서 한국어 숫자 음성에 대한 자동 인식에 관한 실험이 시작됐는데, 이게 공식적으로 한국어 음성인식에 대한 최초의 논문으로 기록돼 있다”면서 “미니컴퓨터 한 대로 대학원생 20명이 연구해 우리나라 숫자 음성 10개에 대해 분석했다”고 설명했다.

해당 실험에서는 단어 3천개에 해당하는 무역 관련 상담 음성 데이터를 이용했으며, 그 결과 92.2% 인식률을 도출해냈다.

1973년 도쿄대 후지사키 교수가 한국인 연구원과 진행한 한국어 기본 모음 퍼몬트 주파수 연구 결과.

음성인식에 대한 첫 대학 강의는 1981년 3월 봄학기 서울대 컴퓨터공학과에서 ‘음성인식(패턴인식’ 강좌로 개설됐다. 서적으로는 1991년 패턴인식론, 1998년 음성언어정보처리 등으로 발간됐다. 이후 카이스트 전기 및 전자공학과, 전산학과와 서울대 전자공학과 등에서 음성인식 강의가 이뤄졌다.

그러나 이같은 초기 수준의 음성인식 연구가 산업에 바로 파급력을 미치기엔 부족했다. 80년대에 음성인식 관련 강의를 듣고 졸업한 대학생들이 사회에 나가서도 곧바로 음성인식 서비스를 제대로 만들 수 있는 건 아니었다고 오 교수는 회상했다.

오 교수는 “80년대에 학위를 끝낸 학생들이 기업체에 갔는데, 삼성 종합기술원 사람들한테 음성인식에 대한 연구가 얼마나 진행되고 있느냐 물어봐도 ‘지금 흑백 TV 브라운관 만들고 있는데, 음성인식에 대해선 아는 게 없다’는 답이 왔다”고 말했다.

관련기사

이어 “지금은 삼성, LG, SK텔레콤, KT, 네이버 등에서 전부 음성인식 연구에 뛰어들고 있고 오픈소스로도 많이 개방됐다”면서 “미국을 보면 음성인식에 대해 연구한 스타트업들이 꾸준히 나오고 있고, 대형 IT 회사들이 인수하면서 음성 분야 벤처 생태계가 아주 활발히 돌아가고 있다”고 덧붙였다.

아울러 그는 “AI나 음성인식 분야나 결국 산업이 뒷받침 돼 종사자들이 돈을 많이 벌고 대우받는 선순환이 형성돼야 연구가 제대로 이뤄질 것”이라면서 “미국에서도 고등연구계획국(DARPA)에서 2억달러짜리 퍼스널 어시스턴트(PAL) 프로젝트로 인해서 애플 시리 같은 게 개발돼 나온 것처럼, 우리나라도 킬러 솔루션이 어떤 것일지 고민해야 한다”고 강조했다.