조세회피 의혹 파헤친 그래프 DB 기술 '대단해'

데이터 분석-시각화에 NEO4j 그래프 DB 기술 사용 위력 과시

컴퓨팅입력 :2016/04/14 10:33

그래프 데이터베이스(DB) 기술이 파나마 페이퍼스 분석에 사용돼 잠재력을 과시했다.

13일(현지시간) 미국 지디넷에 따르면, 국제탐사보도언론인협회(ICIJ)의 파나마 페이퍼스 데이터 분석과 시각화에 NEO4j 그래프 DB 기술이 사용됐다.

파나마 페이퍼스는 파나마의 법률회사 모색폰세카에서 유출된 내부 문서다. 각국 전현직 지도자와 정치인, 유명인사의 조세회피 의혹을 담고 있다. ICIJ는 1년간 파나마 페이퍼스의 데이터를 분석해 BBC, 가디언, 뉴스타파 등 각국 회원 언론사에 지난 3일 배포, 공개했다.[파나마 페이퍼스 바로가기]

파나마 페이퍼스의 데이터 용량은 2.6테라바이트(TB)에 달한다. 조세회피 행위에 대한 이메일, 이미지, PDF, 문서, 명단 등을 포함한다. 시진핑, 블라디미르 푸틴, 데이비드 개머런 등의 조세회피 연루 의혹이 드러났으며, 권뢰이그손 아이슬란드 총리는 사임했다. 한국인 이름도 195명 포함된 것으로 확인됐다.

ICIJ는 파나마 페이퍼스 데이터를 쪼개 내부 구조를 드러내는데 NEO4j 기술을 활용했다. NEO4j는 문건 속 인물과 회사, 고객명 사이의 관계를 시각적으로 드러냈다.

그래프 DB 기술은 대규모 데이터 활용에 맞게 설계됐다. 특히 데이터 사이의 모든 관계를 보여주는데 특화됐다. 깊이 연관된 데이터를 관리하고, 복잡한 쿼리를 처리하는데 유용하다. 관계형DB에서 쓰이는 테이블 대신 노드와 속성, 엣지, 릴레이션십 등으로 데이터를 정의하고 저장한다.

릭 반 브루겐 NEO4j 지역대변인은 “그래프 DB는 그래픽 DB가 아니다”라며 “보통 DB는 컬럼과 로의 격자형으로 저장하지만, 그래프 DB는 데이터를 저장하고 보여주기 위해 노드, 엣지, 속송 등으로 의미적 쿼리를 구조화한다”고 설명했다.

그는 “사람의 두뇌는 아이디어, 개념, 관계 등으로 사고한다”며 “그래프 DB가 하는 것은 신경망과 같다”고 밝혔다.

Neo4j를 개발한 네오테크놀로지는 2007년 스웨덴에 설립된 회사다. 130개 고객사를 보유했다. Neo4j 커뮤니티 에디션은 GPL3 라이선스로 사용가능하다. 상용 라이선스 기반의 제품도 있다.

ICIJ는 Neo4j 기술을 HSBC 파일 분석에도 사용한 바 있다.

관련기사

마르 카브라 ICIJ 데이터 및 리서치유닛 에디터는 “(Neo4j)는 우리의 탐사보도 프로세스를 혁신하는데 혁명적인 탐색도구”라며 “관계가 범죄행위의 거짓말에서 중요한 모든 것이기 때문”이라고 강조했다.

그는 “우리는 유례없이 대규모로 연결된 데이터를 빠르고, 쉽고, 효율적으로 제어할 수 있는 기술이 필요했다”고 덧붙였다.