1990년대 후반 음성을 인식하는 휴대전화가 처음 나왔을 때만 해도 모든 세상을 음성으로 움직일 수 있을 것으로 여겼다. 인간과 대화가 가능한 로봇이 탄생하고, 거실에 앉아 모든 전자기기를 호령할 수 있는 시스템 등이 금세 현실로 다가오는 듯했다.이후 여러가지 기술적인 난관에 부닥치면서 IBM은 음성 받아쓰기 분야에서 85% 인식률을 보인 뒤 손을 놓았고, 마이크로소프트 빌 게이츠 회장은 99년 "모든 것은 입술에 달려있다"고 했으나 지금은 사실상 포기상태다. 개개의 단어를 알아듣는 데는 문제가 없으나 대화체로 입력할 경우 인식률이 크게 떨어지는 문제가 가장 컸다.그러나 이제 세계적으로 한 고비를 넘어섰다는 평가다. 음성인식 과정에서는 먼저 100분의 1초 정도의 간격으로 각 음소의 주파수를 분석해 종합해야 한다. 컴퓨터가 발달하면서 5초 길이의 음성을 인식하는데 1분씩 걸려야 했던 결과가 이젠 음성이 끝나자마자 출력이 가능해졌다.국내에서의 반응은 특히 긍정적이다.한글이 발성원리에 따라 자음과 모음으로 구별된 코드 형태로 만들어져 디지털 기술에 쉽게 응용될 수 있는 장점을 지니고 있다는 판단에서다.한국전자통신연구원(ETRI) 음성정보연구센터(센터장 이영직)는 한국어 음성인식의 관건은 데이터베이스에 달려있다고 보고 지난 2년간 10만 단어 수준인 700기가바이트 크기의 음성DB를 만들었다. 지난달 1차적으로 전국 18개 기관에 배포했다.1000명이 발성한 단어, 숫자, 문장 등의 DB를 담고 있다. 말하는 사람의 경우 각 지역 출신을 고루 선발, 팔도 사투리까지 담아냈다.발성하는 환경을 다양하게 소화하기 위해 북적거리는 고속버스터미널이나 철도역사 등도 녹음장소로 활용했고, 휴대전화 또는 유선전화 음성 등 가능한 형태의 음성도 녹음했다.이영직 센터장은 "대화체의 경우 실험실 수준에서 80~85%의 인식률을 보이고 있다"며 "실제 환경에서는 60~70%의 인식률에 그쳐 실생활에 도입하기는 여전히 미흡한 수준"이라고 설명했다. 95% 이상의 인식률은 돼야 시장에서 통할 수 있다는 설명이다.ETRI는 이같은 1차 DB를 발판삼아 최근 방송뉴스에 실시간 자막처리가 가능한 '연속음성인식시스템'을 개발, 전문 속기타자와 함께 반자동화 서비스를 실시 중이다. 조만간 영어를 못해도 영어로 말해주고, 외국인의 영어를 한국어로 번역해주는 '한·영자동번역시스템'이 나오면 토플이나 토익 응시율도 점차 떨어질 것이란 전망이다. @