와이즈넛, 검색에 분산병렬처리 도입 이유는

와이즈넛(대표 박재호)은 분산 환경의 병렬처리기반 구조로 빅데이터 대응에 초점을 맞춘 새 검색엔진 '서치포뮬러원V5'을 소개했다.

회사는 11일 오후 양재동 엘타워에서 차세대 신제품 발표회를 진행하며 서치포뮬러원V5에 대용량통합검색기술과 빅데이터분석, 마이닝기술과 중복문서처리기술 등을 지원하기 위한 프레임워크 구조를 적용했다고 강조했다.

회사측에 따르면 서치포뮬러원V5는 하둡과 같은 분산처리기반 시스템으로 빅데이터 환경을 아우르는 검색에 초점을 맞췄다. 데이터를 저장하고 병렬처리하는 기술은 하둡보다 검색 환경에 앞선 자체 기술로 구성했다고 강조한다. 사용자의 검색 경험과 관리자의 검색인프라를 모두 최적화하면서 보안과 관리 부분에도 공을 들였다는 설명이다.

오는 2020년까지 연평균 40%씩 늘어 30제타바이트를 넘어설 기업내 데이터들을 검색해야 하는 상황인데 검색시스템이 다루는 데이터가 늘수록 처리환경이 문제가 되는 것은 여타 정보시스템의 데이터인프라와 동일하다는 설명이다.

■분산 병렬처리로 성능 효율↑

이에 서치포뮬러원V5는 검색시스템에 주어질 효율과 성능 부담을 덜기 위해 색인된 검색대상을 훑은 방식을 분산 병렬화시켰다. 여러 검색시스템에 요청한 검색 결과를 쪼개 처리한 뒤 돌아온 데이터를 총합해 결과를 내놓는 방식이다. 하나로 주어진 검색을 색인배포기가 통합검색기(ICS)에 전달하면 해당 프로세스가 개별 검색시스템에서 독립적인 여러 프로세스로 돌아가 동시에 수억건의 색인을 처리할 수 있다는 설명이다.

회사는 이전부터 성능을 높이기 위해 기존 캐시, 인메모리, 색인압축 기능을 탑재해왔는데 이가운데 인덱스만 올릴 수 있던 인메모리에 가용 용량만큼 원하는 데이터를 더 올릴 수 있게 됐다.

또 색인작업시 전체데이터를 갱신하는 과정이 있었는데 신제품은 변경된 데이터만 알아차려 적용한다. 또 색인 구조 압축을 효율화해 색인정보 용량이 기존보다 20~30% 줄었다. 같은 공간에 더 많은 색인정보를 담을 수 있다는 얘기다.

서치포뮬러원V5에서 향상된 성능이 사용자에게 쾌적한 검색을 지원하는 것으로도 묘사된다. 그간 성능문제로 제한된 분류체계만 지원했던 '페이싯내비게이션' 기능을 예로 들 수 있다. 회사측에 따르면 더 다양한 카테고리와 파일형식을 그룹화할 수 있고 데이터 성격에 알맞은 최적화로 빠른 검색결과를 제공한다.

■사용자-관리자 모두 효용

정확도를 높이기 위한 제목, 작성자, 내용, 날짜 등 항목별 가중치를 사용자가 직접 지정할 수 있고 오타 보정기능과 중복 처리 효율도 늘었다. 자체 개발한 다국어 형태소 분석 지원 기술은 한국어뿐아니라 영어, 일본어, 중국어 데이터도 다룬다.

이밖에 기존에는 문서검색시 내용정보와 내부 권한정보가 함께 다뤄졌는데 이제 문서에 대한 접근 권한이 그 내용과 별개로 담긴다. 검색결과에 과거 다뤘던 문서가 잡히더라도 권한이 없는 경우 결과에서 필터링된다. 이는 조직개편에 따라 문서에 대한 접근권한이 사라진 사용자가 과거 다루던 문서에 아직 갱신이 덜 된 권한정보 때문에 다시 제한없이 접근할 수 있는 상황을 줄여 준다.