네이버, 플랫폼 바꿔 웹검색 IQ 높인다

국내 검색 포털 1위 네이버가 웹검색 시스템 전면 고도화 전략을 세우고 보다 똑똑한 검색 포털로 진화한다.

양질의 외부 콘텐츠도 적극 가져와 검색 서비스 품질을 높이는 다양한 시도들을 해 나간다는 것이 네이버의 계획이다.

네이버는 지난 21일 저녁 서울 역삼동 캐피탈타워 네이버파트너스퀘어에서 세미나를 열고 ‘외부의 좋은 문서를 제공하기 위한 네이버 검색 기술의 변화’란 주제로 강연을 진행했다.

이번 세미나의 핵심의 네이버 검색이 ‘웹검색’을 필두로 더 고도화 된다는 점이다. 이용자 검색 의도에 맞는 좋은 문서를 수집하고, 바깥이 존재하는 좋은 문서들도 이용자들이 쉽고 편리하게 검색할 수 있도록 돕는다는 것이 핵심이다. 또 검색 플랫폼을 전면 개편해 이용자들이 최신 정보를 효율적으로 제공받게끔 한다는 방침이다.

■이용자 검색 의도에 맞춘 문서 수집 시스템

최근 2년 간 네이버의 웹검색의 시스템은 많은 부분에서 개편이 이뤄졌다. 웹 문서의 생산속도가 수집 속도를 추월하게 되면서 모든 문서를 수집하는 것이 불가능해졌고, 이에 선택이 중요한 기술로 떠오른 것.

특히 검색 사용자가 필요로 하는 문서의 소비가 빠르게 변화하고 있어 수집 속도를 더욱 높여야 했다. 전체 웹문서가 급격히 늘면서 모든 정보를 가져올 수 없는 환경임에도 문서 수집을 위한 선택 시간은 늦출 수 없는 딜레마에 빠지기도 했지만 이를 풀어내는 데 많은 공을 들였다는 것이 네이버의 설명이다.

모든 문서가 수집돼 검색에 노출하는 것이 현실적으로 불가능해지면서 인터넷파일주소(URL)만을 보고 어떤 URL을 수집할지 선택하고, 판단하는 고도화된 기술이 도입됐다는 얘기였다.

네이버의 새 수집 시스템은 사용자 선호도 변화에 따라 지능적으로 수집제어를 한다는 면에서 진화했다. 한마디로 “사용자만 보겠다”는 생각으로 사용자들의 웹 동선을 철저하게 분석하고, 이용자들이 선호하는 정보들을 빠르게 수집해 보여주는 방향에 초점을 맞춘 것.

네이버 원성재 랩장은 “새로워진 수집 시스템에는 사용자 선호도 변화에 따른 지능적인 수집제어 기능이 추가됐다”며 “변화하는 사용자의 문서 선호도를 수용하고자 저장을 포기하고, 스트이밍 구조로 전환했다. 사용자 관점에서 양질의 웹문서가 선순환될 수 있도록 좋은 문서를 수집하기 위한 기술적 고도화 작업을 지속적으로 추진하겠다”고 말했다.

■웹검색 개편 프로젝트 ‘타우린’

네이버는 작년부터 중장기 웹검색 개편 프로젝트 ‘타우린’을 추진하고 있다. 타우린 프로젝트는 외부에 있는 좋은 문서들을 이용자들이 쉽고 편리하게 검색할 수 있는 기술을 개발해 네이버 검색에 활력을 불어넣자는 취지로 검색연구센터가 맡아 추진 중이다.

타우린은 이용자들의 패턴을 분석해 가장 필요로 하고 궁금해 하는 내용을 바로 보여주는 기술이다. 이제는 네이버 밖에 있는 신뢰할 만 한 검색 결과도 보여준다는 것이 네이버의 설명이다.

웹페이지 분석기술, 웹공간 분서기술, 랭킹함수 학습기술, 질의 변환 및 결과 병합 기술이 핵심이다. 또 랭킹함수 학습기술이 있어 이용자들이 많이 찾고 관심 있었던 정보들을 제공해주는 것에 타우린의 여러 장점 중 하나다.

네이버는 타우린 프로젝트 1차 버전을 적용한 이후 여러 긍정적인 변화가 나타났다고 밝혔다. 네이버 검색이 좀 더 다양한 사이트로 이용자들의 사용을 유도했다는 내용인데, 기존에는 이용자가 웹문서 영역에서 상위 20개 사이트로 이동하는 비율이 44%에 달했지만 개편 후 톱 20개 사이트 클릭 비율이 16%로 축소됐다고 알렸다.

아울러 웹문서 영역을 통해 100회 이상 클릭된 사이트 수도 30% 가량 증가했고, 관공서나 하교 사이트의 경우도 80%, 위키피디아 같은 참여형 백과의 클립 비율도 140% 가량 늘어났다고 말했다.

검색연구센터 김상범 박사는 “네이버 내의 콘텐츠도 검색 결과로써 활용가치가 높지만 어떻게 하면 바깥의 좋은 문서까지 잘 찾아 보여줄 수 있을까 고민해 왔다”면서 “웹페이지 분석 기술을 고도화하는 한편 앵커 텍스트를 활용해 좋은 웹문서들의 노출 비중을 늘리는 방향으로 알고리즘들을 발전시키고 있다”고 강조했다.

■검색 플랫폼 전면 개편 ‘빅브류’

아무리 좋은 문서를 빠르게 수집했고 그 내용이 풍부하더라도 이를 원활히 노출시켜줄 플랫폼이 없다면 무용지물이다.

이에 네이버는 지난 2011년부터 빅브류라는 프로젝트명으로 검색 플랫폼의 전면 개편을 시행하고 있다.

빅브류는 서버에 보관되는 문서의 양과 처리의 복잡도가 폭발적으로 증가하더라도 이를 단순히 비용을 투입해 해결하지 않고 대용량 문서의 추가·삭제·변경분만을 검색 서비스에 반영하는 증분식 방법을 검색 시스템에 추가하는 방식으로 설계됐다.

빅브류의 핵심 개념은 저장·색인·서빙의 3단계를 분산저장소·동적증분색인·동적증분서빙으로 구축하는 데 있다.

예를들면 이용자가 네이버 검색창에 ‘라인 웹툰’이라는 키워드를 입력했을 때 서버에 저장돼 있는 문서를 어떻게 최신성을 유지하면서도 효율적으로 이용자에게 전달할 수 있을지를 고려하고 반영하는 것이다.

분산 저장소는 오픈소스 분산 파일 시스템(하둡)과 분산 데이터베이스(HBase)를 활용해 모두 수백억건의 문서를 저장할 수 있는 저장시스템이다. 동적증분색인은 문서가 변경되는 것을 자동으로 감지하고 변경된 문서와 이에 영향을 받는 문서들에 대해 색인 프로세스를 자동으로 구동시키는 기술이다. 동적 증분 서빙은 서빙 시스템이 사용자 요청을 처리하는 도중에 문서가 변경될 경우 실시간으로 변경사항을 검색에 반영하는 기술이다.