음성 인식을 넘어 언어 이해 컴퓨터로

일반입력 :2001/11/21 00:00

on the NET

컴퓨터가 계속 성장해서 인간과 비슷한 존재가 될 것이라고 말하는 사람들이 있다. 컴퓨터가 언젠가는 인간만큼의 속도로 정보를 처리할 수 있는 날이 올 것인데, 그 말이 뜻하는 것은 컴퓨터가 사람의 말을 알아들을 수 있게 될 것이라는 얘기다. 인간에게 필요한 정보를 미리 예상할 수 있는 지능을 지닌 전자 동반자의 등장이 그리 먼 얘기는 아니다. 111a를 꿈꾸는 미래의 PC컴퓨터는 앞으로 몇 년 동안은 우리가 이미 익숙해져 있는 모습에서 벗어나지 않을 것이다. 인텔의 CTO 패트 젤싱어는 “현재 컴퓨팅 환경을 이루고 있는 세 가지 기본 요소인 데스크톱, 랩톱, 서버는 분명 앞으로 10년간은 계속 존재할 것이라고 본다”고 말했다.미래에도 PC는 여전히 컴퓨팅의 핵심을 차지하겠지만, 스마트폰, 핸드헬드 컴퓨터를 비롯한 기타 장치들과 수 Mbps급의 무선 네트워크를 통해 인터넷 서비스와 정보에 대한 액세스의 범위가 넓어지게 될 것이다. IBM의 전략 및 표준 담당 이사 더그 하인츠먼은 모바일 장치들이 지금보다 훨씬 더 강력해질 것이고, 각 장치에 GPS(Global Positioning System) 기술이 사용돼 현재 위치를 정확하게 파악할 수 있게 될 것이라고 말한다. 그는 “GPS의 가격이 매우 저렴해질 것이므로 거의 모든 것에 GPS가 들어가게 될 것”이라고 전망했다. 반면, 우리가 대부분의 정보 처리 작업을 위해 사용하는 PC는 그 모습과 행동이 달라지게 될 것이다. 컴퓨터와 이것을 이루는 컴포넌트들이 지금보다 훨씬 작아지고 빨라지고 인터넷 연결도 향상될 것이다. 젤싱어는 자신이 꿈꾸고 있는 기계가 현실화되려면 적어도 5년은 있어야 할 것이라고 말한다. 그가 꿈꾸는 랩톱을 그는 ‘111a’라고 부른다. 즉, 무게 1파운드에, 두께 1인치, 재충전할 필요없이 배터리 하나로 하루 종일 쓸 수 있으며, 항상 무선 네트워크에 연결돼 있는 것이다.100GHz CPU로 인간 두뇌에 도전그리고 이런 장비들의 처리 성능은 계절이 바뀌듯 거의 규칙적으로, 1970년대부터 계속되고 있는 성장곡선을 이어갈 것으로 전망된다. 하인츠먼은 인텔의 공동설립자인 고든 무어가 말했던 통합 회로에 들어가는 트랜지스터의 수가 18개월 간격으로 두 배가 된다는 얘기에 대해 언급하면서 “앞으로 20년 동안은 무어의 법칙에 이변이 일어나지 않을 것이라 본다”고 말한다. IBM의 연구사업부 담당 이사 폴 혼은 현재의 데스크톱 PC들은 도마뱀 수준의 지능을 지니고 있다며, “그것은 거의 아이를 다루는 것과 비슷하다”고 말한다. 하지만 그 보잘것없는 컴퓨터가 앞으로 20년 안에 거의 인간 두뇌에 준하는 처리용량으로 발전하게 될 것이다. 폴 혼은 2020년쯤에는 100GHz, 다시 말해 지금의 PC보다 100배 빠른 속도에서 초당 1015개의 연산을 처리할 수 있는 컴퓨터가 등장하게 될 것으로 전망하고 있다. 그처럼 풍성한 것들이 등장해 인간이 컴퓨터와 인터랙션할 수 있는 새로운 방안들을 마련해줄 것이다. 처리력 증가로 인해 가능해질만한 것 중에서도 가장 크게 기대되는 것은 바로 음성 인식이다. 컴퓨터가 사람의 말을 이해할 수 있도록 만드는 것은 복잡한 문제인데, 이로 인해 아직까지 음성 인식 기술이 메인프레임 애플리케이션에 적합할 정도의 수준에 도달하지 못하고 있다. 음성 인식 기술 5년 안에 보편화 확신마이크로소프트는 여러 해 전부터 음성 인식의 실마리를 풀고자 노력했다. 그런데 음성 인식은 처리 집약형 애플리케이션이라는 것이 큰 걸림돌이 되고 있는데, 마이크로소프트의 음성 기술 그룹 수석 연구원 알렉스 애서로는 하드웨어, 특히 소형 핸드헬드 장치로는 음성 인식 기능을 전달하기가 어렵다고 말한다. 2년 반전부터 마이크로소프트는 MiPad(My interactive notePAD) 프로젝트로 음성 인식 기술을 휴대형 장치에 통합하고자 노력중이다. MiPad는 정확성을 높이기 위해 이해해야 할 단어의 수와 음성 입력을 통해 실행 가능한 기능의 수를 제한하고 있다. 가령 전자우편을 보내려는 사용자는 To 키를 치고 원하는 서체를 입력한 다음, 보내고자 하는 수신자의 이름을 말하면 된다. MiPad는 그 말을 주소록에 들어있는 이름과 일치시켜야 하기 때문에 말을 성공적으로 이해할 수 있는 확률이 높다. 마이크로소프트는 연속적인 음성 인식을 위해 사용자가 하려는 말을 미리 예상하며, 경험을 통해 학습하고 맥락 속에서 단어를 추론할 수 있는 엔진을 개발했다. 애서로는 여러 연구 결과, 대부분의 사람이 사용하는 구두 영어는 5000 단어를 넘지 않는다는 것이 드러났다고 말한다. 하지만 똑같은 5000 단어라 하더라도 사람마다 단어의 목록이 크게 달라질 수 있다. 애서로는 “앞으로 5년 안에 음성 인식 기능은 그것이 없으면 사람들이 불편을 느끼는 수준에까지 다다를 것으로 본다”며, “없으면 불편한 수준, 그것이 바로 성공 여부에 대한 기준으로 삼고 있는 것”이라고 덧붙였다. @