첩보영화 속에서나 등장할 법한 기술들이 최근 미국 국가안보국(NSA)의 프리즘 사건을 통해 현실이 됐다. 인터넷에서는 누구나 감시대상이 될 수 있다는 말이 피부에 와닿는 시점이 된 것이다. 인터넷이 보급될수록 각 나라가 확보하고 있는 고유의 정보자산을 지켜내는 일은 점점 버거운 일이 되고 있다. 이중 세계에서 몇 안 되는 자체 검색 엔진을 확보하고 있는 국내 포털서비스는 가장 대중적인 정보유통창구이면서 지켜내야할 자산이기도 하다. 정보주권에 대한 논의가 필요한 시점이 된 것이다. 관련 전문가 인터뷰, 해외사례, 설문조사 등을 통해 정보주권을 지켜내기 위한 자국 포털의 중요성에 대해 살펴보고 여전히 많은 과제를 안고 있는 국내 포털이 나아가야 할 방향을 4회에 걸쳐 짚어본다. [편집자주]
연재 순서
(1)누군가 우리의 정보를 훔치고 있다
(2)검색주권 제대로 보기
(3)자국 검색엔진, 21세기 문화전쟁의 핵
(4)포털, 정보 유통 플랫폼으로 자리 잡아야
■시대의 공감을 반영하는 검색어
언어는 당대를 반영한다. 구성원 간 민족적 동질감을 공유하게 하는 요소기도 하다. 모국 언어는 오랜 시간 집단의 사회 문화와 윤리적 특성을 축적하며 변화한다.
검색어는 시대상을 반영하는 지표로 작용한다. 그 시기 공동체가 향유하는 관심사를 대변한다. 사회, 문화적인 것일 수도 있으며, 한편으론 정치적 문제와 연관되기도 한다. 검색어가 오늘날 사람들의 공감대를 보여주기도 하며 또는 공감을 일으키는 촉매제가 되기도 한다.
인터넷에 둘러싸인 현재 문화 생성의 순환구조에서 언어와 검색어의 지위는 그 어느때보다 높다. 검색어를 통한 일련의 공감 행위가 시간의 흐름에 따라 유대감을 만들고, 그 집단만의 특수성을 강화한다.
한국의 검색어는 절대적으로 한국어가 많은 비중을 차지한다. 한국어는 전세계에서 가장 널리 사용되는 영어나 중국어에 비해 그 특징이 전혀 다르며, 한글이란 독특한 문자를 사용해 기록된다는 특징을 갖는다.
■한국어 검색, 구현하기 까다로운 이유
한국어는 교착어다. 구조적으로 영어·중국어 같은 굴절어·고립어와 다르다. 단어는 어근과 접사의 결합으로 의미를 갖는다. 형태소 결합이 다양한 경우의 수를 갖기 때문에 문법과 용례가 복잡 다난하다. 외국인이 한국어를 익힐 때 어렵다고 느끼는 이유다.
이와 관련해 한국어 검색 역시 영어나 중국어 검색보다 구현하기 까다로운 편에 속한다. 영어나 유럽어는 어근이 변하며 의미를 달리하지만 그 방식이 몇가지로 정해져있다. 문법적 유형도 한국어에 비해 덜 복잡하다.
이 때문에 한국어를 이용한 자연어 검색 알고리즘은 타 언어와 다른 방식의 접근이 요구되며, 훨씬 더 복잡하고 많은 작업을 통해 만들어진다.
특히 오늘날 검색 트렌드인 ‘자언어처리’일수록 그 복잡성은 상상을 초월한다.
국내 검색엔진업체 다이퀘스트의 강락근 대표는 “미래의 검색은 단어 조합이 아닌 사람에게 묻는 것과 같은 자연스러운 대화형식의 검색이 주를 이룰 것이다”라며 “이를 위해서는 인간이 일상에서 말하거나 글로 쓰는 언어의 총체를 일컫는 자연어처리 기술이 활용된다”라고 말했다.
자연어처리는 사람이 대화하듯 검색하는 것이다. 검색창에 ‘청와대 위치’라고 치는 대신 ‘청와대 위치가 어디지?’라고 묻는 식이다. 문제는 자연어처리를 위해선 문장의 뜻을 정확히 이해해 그에 맞는 답을 보여줘야 한다는 점이다.
한국어의 복잡한 띄어쓰기와 중의어가 정확한 자연어처리를 힘들게 만드는 요소다. 문법만 갖고 접근하기엔 변수가 너무 많은 것이다.
강 대표는 “한국어를 모국어로 사용하는 사람 중 완벽한 띄어쓰기를 할 수 있는 사람은 매우 드물다”라며 “영어의 경우 띄어쓰기를 기준으로 문장의 의미단위를 명확히 구분할 수 있는 반면 한국어는 뜻을 가지는 가장 작은 단위인 형태소를 기준으로 문장의 의미단위를 나누기 때문에 띄어쓰기가 정확한 기준이 될 수 없다”고 설명했다.
한 예로 ‘한달’을 보자. 이 단어는 ‘한 달 동안’, ‘금연한 달 차’와 같은 검색어를 입력할 때 검색엔진이 띄어쓰기를 기준 삼아 의미를 파악할 수 없다. 우리나라 사람 중 ‘한달’의 용례별 정확한 띄어쓰기를 구사하는 경우가 드물기 때문이다. ‘한 달’, ‘한달 동안’, ‘금연한달차’ 등등으로 사람에 따라 입력방식이 다르다.
중의어에 대해선 또다른 국내검색엔진업체인 코난테크놀로지의 관계자는 “김치 라면이란 검색어는 라면상품의 종류일 수도 있고, 가정법을 의미할 수도 있다”라며 “또한, 흥부가란 검색어는 주어를 뜻할 수도 있고, 판소리 중 하나를 뜻할 수도 있다”라고 예를 들었다.
그는 “언어를 분석할 때 중의성이나 모호성의 문제가 크다”라며 “게다가, 언어를 분석한다는 것이 기계적인 문법 관계만 따져서 될 것은 아니고, 그 문화권의 현재 트렌드나 여러 요소의 영향을 많이 받아서 동일 문화권에 있는 개발자/사전작업자가 아니면 미묘한 변화를 시스템에 반영하기 어렵다”라고 설명했다.
어순도 한국어 자연어처리의 어려움을 부추긴다. 영어는 주어, 서술어, 목적어, 같은 일정한 패턴의 어순을 갖는다. 반면, 한국어는 명확한 어순이 없어 컴퓨터가 언어를 분석하는데 어려움이 있다.
강락근 대표는 “이 외에도 현지에서 통용되는 고유명사, 유의어, 동의어, 비공식적 어휘 등 언어가 가지는 모든 의미를 컴퓨터가 파악하기 위해서 여러 언어학적 기법이 활용된다”라며 “한국어는 검색 알고리즘 구현에 더 많은 작업을 요구한다”고 밝혔다.
그는 “한국어는 그 변화의 속도도 어느 언어보다 빠르다”라며 “검색시스템은 예전의 언어과 변화된 언어를 모두 담아야 하므로, 한국어 검색시스템은 변화속도를 따라잡기 위해 더 노력해야할 필요가 있다”라고 덧붙였다.
이런 검색환경에서 한국어는 한국인만 이해할 수 있는 수많은 용법 탓에 범용적인 검색엔진으로 대처하기 어렵다. 국내 사용자는 포털 서비스의 발전으로 다양하고 편리한 ‘한국형’ 검색 환경에 익숙해져 있다. 대부분의 국내 기업용 검색 솔루션도 기본 검색기능 외에 사용자 요구에 따른 커스터마이징을 거치게 된다. 이 때 구글뿐 아니라 여러 외국산 검색엔진의 경우 커스터마이징에 한계를 갖는다.
■검색, 정보 주권을 쥐는 열쇠
검색이란 건 서비스업체의 데이터베이스(DB)에 웹에서 생성되는 정보를 쌓은 뒤, 색인작업과 알고리즘을 적용해 원하는 정보를 쉽게 찾도록 하는 것이다.
이는 한국인이 만들어내는 온갖 정보가 검색서비스업체의 DB에 쌓이게 되고, 대중이 그를 ‘검색’이란 기술을 이용해 쉽게 꺼내보는 것으로 이해할 수 있다. 당연히 이 DB엔 한국인의 정서가 쌓이며, 다양한 개인정보와 활동, 사회적, 정치적 집단의 의사소통이 저장된다.
그렇기 때문에 검색을 어느 서비스회사의 것을 이용하느냐는 검색주권으로 연결 가능하다. 만약 구글의 검색서비스가 한국에서 주도적 위치를 차지한다면, 매끄러운 한국어 자연어처리 검색은 사실상 힘들다고 봐야 한다.
구글은 DB에 쌓인 방대한 검색 정보를 분석해 패턴을 찾아낸다는 원대한 꿈을 꾸지만, 앞서 언급된 한국어의 빠른 변화와 불규칙적인 패턴은 구글 한국어 검색의 정확도 향상을 달성하기 어렵도록 만든다.
검색주권과 함께 정보주권의 상실을 결부시켜 볼 필요가 있다. 분단 상태라는 한반도의 현재 지정학적 특징은 군사보안 상 주요 정보의 외부 노출에 민감하다. 현재 정부는 지도데이터를 해외에 둘 수 없도록 한 규제정책을 운영한다. 이는 한국을 지도서비스의 갈라파고스로 만들기도 하지만, 안보위협 측면에선 필요악인 정책이다.
구글이 빅데이터 분석을 통해 특정 지역의 독감 발생을 3주전에 예측했다는 사례는 유명하다. 비틀어 보면, 한국인이 구글 서비스에 가입하고, 구글 검색창에 어떤 정치적 단어를 집중적으로 입력할 경우 국내 사안의 분석자료를 구글에 넘겨준다고 볼 수 있다.
고려대학교 사이버국방학과 이경호 교수는 ”미국 NSA가 유타주에 20억달러를 들여서 건설한 데이터센터는 각종 감청프로그램과 연동해 전세계 해저케이블과 위성을 통하는 데이터 전부를 담게 된다“라며 ”저구글 검색, 휴대전화 통화와 내역, 심지어 주차장 영수증까지 수집되며, NSA가 이 데이터를 분석하고, 워싱턴 백악관에 보고하게 된다“고 설명했다.
전세계를 감청한다는 것으로 알려져 있는 애슐론 프로젝트도 그 일부다. 미국이 세계의 데이터를 모으고 있고, 자국 이익을 위해 사용했다는 게 폭로된 게 PRISM 논란이다. 이 교수는 “미국이 9.11 테러 이후 만든 애국자법에 따르면, 구글이나 금융기관 등에 정부가 특정인에 대한 정보를 요구하면 무조건 제공해야 한다”라며 “미국에서 이 법의 연장을 두고 인권침해 논란이 크게 벌어졌지만, 결국 국가 안보란 명분으로 연장됐다”고 말했다.
이에 국내에 건립되는 데이터센터는 정보서비스의 기반이란 기본 성격과 더불어 정보를 안전하게 보존하고 한반도에 원본의 위치를 한정 짓는다는 성격도 갖는다.
관련기사
- [정보주권]누군가 내 정보를 훔쳐보고 있다2013.10.15
- 프랑스도 국가감시 '프리즘' 존재한다2013.10.15
- NHN 데이터센터 가보니...디지털 규장각2013.10.15
- 논란 속 '프리즘' 뭔가하니...2013.10.15
네이버가 춘천에 데이터센터 ‘각’을 세우며 내세운 ‘디지털기록보관소’란 설명을 내세운 건 이런 검색 DB의 성격과 검색주권, 정보주권의 연결고리를 반영한다. ‘각’은 네이버 이용자의 데이터를 안전하게 보관해 후대까지 전하겠다는 이해진 의장의 의지가 반영됐다.
박원기 네이버 IT서비스사업본부장은 “네이버 이용자들의 삶이 고스란히 담긴 데이터가 빠르게 증가하면서 이를 디지털 기록으로 소중히 보관해야겠다는 사명감이 각의 출발”이라고 강조했다.