현실로 다가온「말하면 알아듣는 인공지능 컴퓨터」

일반입력 :2003/07/15 00:00

Michael Kanellos

이들은 지금까지 음성 인식·작동 기능이 상용화되는 것을 지체시켜왔던 기술적인 난제나 높은 비용, 활용도가 낮은 애플리케이션 등 문제점들이 정리 단계를 밟고 있다고 지적했다.이런 결과로 현재 기업들은 예를 들자면 음성으로 명령을 내려 데이터베이스에 접근하고 이메일을 단·양방향 음성 교환으로 변환시키는 등 다양한 음성 인식·작동 제품을 출시하고 있다.MS는 지난 9일 사용자가 음성으로 명령을 내릴 수 있도록 하는 스피치 서버의 첫 베타버전을 공개했다. 이와 함께 스피치 애플리케이션 SDK의 세 번째 베타버전도 내놓았으며 써드파티 개발 업체들이 스피치 서버를 지원하도록 권고하는 협력 프로그램도 시작했다. MS의 스피치 서버는 내년 초반 선보여질 예정이다.닷넷 스피치 플랫폼이라 불렸던 스피치 서버는 전화의 자동응답 시스템 구축비용을 감소시키기 위해 개발된 소프트웨어로 MS 내부의 다른 전화와 컴퓨터 관련 과제들과 연관된 제품이다.MS 음성 기술 사업부의 부사장 카이-푸 리는 여러 항공사들이 사용하는 자동응답 시스템이 최대 100만 달러 정도 가격이 나가며 대다수 기업시장에서는 너무 고가인 시스템이라고 지적했다. 그는 “현재까지 극소수의 콜센터만이 자동응답 시스템을 이용하고 있다”라고 말했다.IBM에서도 연구소와 서비스 사업부의 주도 하에 대기업용 시연 애플리케이션을 개발하고 있다. 예를 들어 금융 기업 T. 로우 프라이스는 고객들이 통상적인 음성 명령으로 트랜잭션을 수행할 수 있는 IBM의 계좌관리시스템을 설치했다.IBM의 퍼베이시브 컴퓨팅 사업부에서 모바일 솔루션 분야 담당 부장 유진 콕스는 “‘거래를 하고 싶다’라고 말하면 ‘어떤 거래요?’하고 되묻는 방법으로 진행된다”라고 말했다.IBM에서는 올 연말까지 통역 기능이 있는 컴퓨터도 IBM 연구소에서 개발된다고 밝혔다. 이 컴퓨터는 말하자면 영어만 할 줄 아는 관광객과 중국어만 할 줄 아는 관광안내원 사이에 정보를 교환하기 위해 이용될 수 있다.IBM 리서치 HFT(Human Factors Technologies) 부서의 과장 데비빗 나하무는 “지난 3, 4년간 문장의 각 요소를 이해하는 데 상당한 진전이 있었으며 시장이 긍정적으로 반응하고 있다. 우리는 사용자가 받아들일 수 있는 수준을 넘어섰다”라고 설명했다.IBM은 오는 2010년까지 계속될 ‘SHSRP(Super Human Speech Recognition Project)’를 통해 인간보다 받아쓰기를 더 잘할 수 있는 상용시스템을 개발할 계획이다. 여러 실험 결과 현재 기계가 실수를 할 확률은 5~10배 정도 높은 것으로 집계되고 있다. 이 프로젝트가 궤도에 오르면 자동번역 성능도 크게 향상될 것이다.음성인식 컴퓨터, ‘예’ 다르고 ‘응’ 다르다인간과 대화하는 컴퓨터는 디지털 시대가 도래한 시점부터 계속돼온 꿈이다. 이것은 본질적으로 매우 복잡하기 때문에 꿈이라고 표현하는 것이 적합하다.타이핑된 메시지에 마치 사람처럼 응답하는 기계를 만들기 위한 일명 튜링 테스트(Turing test)는 전산학의 개척자 알란 튜링에 의해 2차 대전 중에 제안됐다. 그러나 이 문제는 아직 풀리지 않았다(역자 주 : 튜링 테스트는 인공지능 분야에서 처음 제시된 실제적인 판단기준이다. 사람과 기계 사이를 커튼으로 가린 이후 사람이 질문을 던지고 기계가 대답하는 시험으로 질문을 던진 사람이 기계의 대답만으로 사람인지 기계인지 구분할 수 없으면 그 기계는 인공지능을 보유하고 있는 것으로 인정받게 된다).음성 인식과 관련한 문제 중 하나는 대다수 사람들이 엄격한 규칙에 따라 말을 하지는 않는다는 것이다. “예”, “그래”, “응”, “어”, “그래 맞아”라는 말은 사람에게는 모두 동일한 뜻으로 쓰이지만 엄격하게 정의된 입력만을 받아들이도록 설계된 기계에게는 매우 어려운 선택이 된다.특히 말을 빨리할 때 사람들은 또 다른 문법을 사용하며 컴퓨터가 받아쓰기란 더욱 어렵게 된다. 이외에 배경 잡음과 필터링도 항상 문제가 돼 왔다.엎친 데 덮친 격으로 음성인식 지지자들이 상황에 대해 잘못 인식하면서 문제가 더욱 복잡해졌다. 수십 년 전 연구원들은 자연어 구문을 연구했으며 이것을 이해할 수 있는 기계를 개발하려고 시도했다. 결과적으로 컴퓨터 자신만 이해할 수 있는 엉터리 영어를 구사하는 컴퓨터의 개발로 이어졌다.기업들도 말하는 PC 개발을 추진했으나 키보드, 마우스, 디스플레이는 이미 훌륭히 제 기능을 수행하고 있었다.양키그룹 시장분석가 로라 디디오는 “보안 시장에서 홍채인식이 차지하는 위치와 같이 음성인식도 아직 틈새시장일 뿐이다”라고 말했다.‘컴퓨터와 대화하는 것은 한낱 꿈일 뿐이다’오늘날까지 음성인식은 정신적, 육체적 장애를 지닌 사람들을 위한 컴퓨팅 기기에 가장 활발히 적용되고 있다. 특히 주로 간질 혹은 수근 터널 증후군 환자들에게 많은 도움이 된다.과거의 오류를 참고로 현재 진행되는 연구와 마케팅 모두 다른 방향에 초점을 맞추고 있다. 연구원들은 대화가 가능한 기계를 개발하는 대신 확률 함수 알고리즘에 따라 언어를 이해하는 컴퓨터를 개발 중이다. 특히 MS의 많은 인공지능 과제에서 이 컴퓨터가 다뤄지고 있다.MS의 음성 연구부 과장 알렉스 아세로는 MS에서 개발 중인 STT(Speech-To-Text) 엔진 요다(Yoda)가 사용자의 습관을 분석해 음성을 일관된 문자 이메일로 변환시키는 기능이 있다고 전했다.요다는 동사 다음에 목적어가 올 것으로 기대하는 것이 아니라 특정 음성 패턴이 사용자의 습관적인 언어 패턴 다음에 나올 것으로 예측한다. 예를 들자면 “만나자”라는 말 뒤에 “회의실에서”나 “내일”과 같은 말이 뒤따를 것으로 예상한다는 것이다.요다를 잘 활용하려면 토론의 주제도 한정돼야 한다. 갑자기 튀거나 새로운 주제가 나오면 이 애플리케이션들은 동작을 제대로 하지 못한다. 그러나 이런 단점에도 불구하고 계속 발전하고 있다는 것은 분명한 사실이다.아세로는 “기계에게 말하는 방법을 가르치는 것은 사람이 말하는 것과 매우 다르다. 아직 매우 기초적인 상태이긴 하지만 기존 애플리케이션에 비해 더 똑똑한 면모를 보인다”라고 말했다. 하드웨어의 진보도 음성인식의 발전에 기여하고 있다. IBM의 오디오-비주얼 음성 기술 담당 과장 찰라파티 네티는 만약 컴퓨터가 발언자의 모습에 주목할 수 있다면 시끄러운 곳에서 음성 입력이 실패할 확률이 80%나 감소한다고 말했다.네티는 “말하는 동작에서도 수많은 시각적 정보가 발생한다”라고 설명했다. 결국 많은 새로운 음성인식 시스템들이 카메라를 내장하게 될 것이다.기업들은 이제 PC에 음성기술을 탑재하는 것 보다 휴대폰, 호출기 등 키보드가 부적합한 하드웨어 장비들에 주목하고 있다. 음성기술 지지자들은 이 시장이 성장세를 구가하고 있다는 사실 이외에도 휴대폰을 사용해 데이터를 수신하기 시작한 소비자들이 키보드 대신 다른 종류의 입력 도구를 필요로 하게 될 것이라고 지적하고 있다.IBM의 콕스는 “자동차에 키보드나 디스플레이가 설치되지 않는 이유는 공간 부족 때문이 아니라 적합한 장소가 아니기 때문이다”라고 말했다.14자리 주민 번호 일일이 입력 ‘불편해!’특히 일반 전화 시장이 더 전망이 좋다. 지금까지 전화와 연결된 대다수 서버 시스템들은 12 버튼 키패드를 이용해 사용자의 명령이나 암호 입력을 받아들였다. 몇몇 시스템은 간단한 동사 명령을 처리할 수 있지만 기본적으로 사람이 수많은 선택을 해야 한다.MS의 리는 고가의 자동응답 시스템은 중소기업의 경우 ROI 기간이 수년까지 연장될 수 있다는 것을 의미한다고 지적했다.MS는 사용자 측면에 대해서도 비디오와 전화 기능을 탑재한 아테네(Athens)라는 PC를 개발하고 있다. 그러나 스피치 서버와 같은 업무용 백엔드 소프트웨어를 아테네와 같은 사용자용 장비와 연계해 판매하는 것이 더 큰 수익을 가져다 줄 것이다.대다수 자동응답 시스템은 세 부분으로 구성돼 있다. 컴퓨터가 이해할 수 있는 형태로 음성명령을 변환하는 STT 엔진, 통화자를 안내하는 미리 녹음된 응답 집합이나 프롬프트 엔진, 그리고 컴퓨터가 음성으로 답을 알려주거나 미리 녹음된 응답으로 처리할 수 없는 질문을 하는 TTS(Text-To -Speech) 엔진이 각 구성 요소다.MS 음성기술 사업부의 마케팅 부장 제임스 마스텐은 “자동응답 시스템에는 음성과 데이터를 처리하는 애플리케이션이 별도로 존재한다. MS는 음성과 데이터를 서로 변환할 수 있도록 노력하고 있다”라고 말했다.그러나 자동응답 시스템이 복잡한 이유는 문자로 변환된 음성이 또다시 음성으로 변환돼야 하기 때문이다. 나하무는 “처리해야 할 말이 너무 많다면 실패할 확률도 또한 커진다. 사용자에게 너무 많은 자유를 제공한다면 이들은 음성 인식이 어려운 여러 가지 구문으로 응답할 것이다”라고 설명했다.새롭게 개발되고 있는 대다수 음성인식 애플리케이션들은 보이스XML, 보이스XML과 xHTML의 결합체 X+V, SALT(Speech Application Language Tags)와 같은 표준에 기반하고 있다.회사간의 라이선스 교환도 개발을 앞당기고 있다. 예를 들면 MS 스피치 서버의 TTS 엔진은 스피치웍스(SpeechWorks)가 개발한 기술이다. 또한 MS는 스피치 서버와 함께 인텔과 인터보이스의 TIM(Telephony Interface Manager)을 통신용 하드웨어 장비에 탑재시킬 계획이다.양키그룹의 디디오는 “현재 음성 인식은 콜센터 분야에 적절한 방향으로 나아가고 있다. 자동응답 센터에게 있어 음성인식 기능은 절대적으로 중요한 부분이다”라고 말했다. @