아파치 제플린, 한국에서 세계로 가기까지

컴퓨팅입력 :2016/06/01 17:22

얼마전 또 하나의 한국 태생 오픈소스 빅데이터 소프트웨어가 아파치소프트웨어재단(ASF) 톱레벨 프로젝트로 승격됐다. 아파치 제플린 프로젝트다.

오픈소스 빅데이터 분석 및 시각화 도구인 아파치 제플린은 한국의 NF랩스에서 2013년부터 개발됐다. 2014년 12월 아파치 인큐베이터 프로그램에 편입됐고 1년반만에 톱레벨 프로젝트로 올라섰다.[아파치 제플린 홈페이지]

제플린은 한국의 작은 회사에서 처음 만들어졌지만, 외국에서 더 많이 쓰는 빅데이터 분석용 도구로 성장했다.

제플린은 노트북이란 개념을 채택했다. 에버노트처럼 노트를 만들고, 그 노트에 코드를 적거나 SQL 쿼리를 날려 데이터를 조회할 수 있다. 조회한 데이터는 바로 다양한 형태의 그래프로 시각화할 수 있다.

아파치 제플린 프로젝트의 커미터로 활동중인 VCNC 개발자 김상우씨는 “데이터 분석에 괴로워하던 차에 제플린을 접했다”며 “아파치 스파크와 함께 써보니 매우 편리해서 사용하다가 개발에도 참여했다”고 말했다.

그는 “제플린에서 노트북을 만들면 뭔가를 쓸 수 있는 공간이 생기는데, 분석 작업의 결과물을 관리하고 저장하는 곳으로 보면 된다”며 “노트면서 소스코드를 실행할 수 있는 공간이자, 분석 작업의 결과물을 관리하고 저장하는 곳이기도 하다”고 설명했다.

제플린은 데이터 습득, 탐색, 분석, 시각화, 공유, 협업 등을 노트북 안에서 모두 수행할 수 있다. 노트북은 웹 기반으로 이용하며, 백엔드로 아파치 스파크를 기본 탑재했다. 사용자는 스칼라, 파이썬, 스파크SQL, 하이브, 마크다운, 셸 등 다양한 프로그래밍 수단을 사용할 수 있다.

백엔드의 인터프리터를 스파크 외에 입맛대로 고를 수 있다. 아파치 타조, 하이브, 플링크, R, 카산드라DB, 포스트그레SQL 등 다양하게 취사선택하면 된다.

노트북은 URL로 공유할 수 있다. 다른 누군가 공유받은 URL을 입력해 창을 열면 곧바로 협업이 된다.

김상우씨는 “개발 초기에 그리 인기가 많지 않았는데, 외국서 열린 컨퍼런스 참석 중 제플린 프로젝트에 참여하는 러시아 개발자가 아파치재단 인큐베이터 멘토를 만났다”며 “멘토 덕에 아파치 인큐베이터 프로젝트에 등록됐고, 이후 아파치 브랜드를 통해 급속도로 인기가 올라갔다”고 말했다.

그는 “작년 아파치콘에 갔을 때 보니, 플링크나 호크 같은 여러 유명 아파치 프로젝트 발표가 제플린을 활용하고 있었다”고 덧붙였다.

현재 깃허브의 아파치 제플린 저장소는 ‘스타(star) 1천500여개’, ‘포크(fork) 750여건’ 등을 기록중이다. 스타와 포크는 깃허브 인기도를 가늠하게 해준다. 스타는 제플린 저장소를 주목하는 깃허브 개발자 규모를, 포크는 제플린 개발에 참여하려는 개발자의 규모를 보여준다.

그는 “아파치 인큐베이터 들어갈 때 스타가 20개정도였는데 컨트리뷰터도 많아지고 커뮤니티가 활성화됐다”며 “풀리퀘스트가 100건을 넘어서 감당하기 힘들 정도”라고 말했다. 풀리퀘스트 (Pull Request)는 다른 사람이 만든 코드에 수정을 제안하는 기능이다.

아파치 제플린은 아마존웹서비스, 트위터 등에서 사용되고 있다. 최근 트위터는 550명 사용자가 제플린을 쓰고 있다고 밝혔다. 필터는 엔터프라이즈 수준으로 만들었고, 권한관리를 구현했다. 지금 트위터는 내부에서 만든 제플린 기능을 아파치 제플린 프로젝트에 기부하고 있다.

호튼웍스와 맵알테크놀로지스 같은 하둡 배포판 업체는 제플린을 자사 패키지에 포함시켰고, 아마존웹서비스는 EMR과 함께 제플린을 제공하고 있다.

제플린을 활용해 비트윈 인기 스티커를 조회하는 대시보드 예제(출처:VCNC 엔지니어링 블로그)

데이터 시각화 영역에서 최근 인기있는 오픈소스는 키바나(kibana)다. 그러나 키바나는 엘라스틱서치와 묶음으로 써야 하고, 대시보드 용도 외에 쓸 경우 자유도가 제한적이다.

김상우씨는 VCNC에서 서버상태 분석, 서비스 지표 모니터링 등 다방면으로 제플린을 사용중이다. 그는 쉽고 빠르며, 활용성이 높다고 강조했다. 그는 작년 회사 블로그에서 아파치 스파크와 제플린을 이용해 재구축한 데이터 분석 아키텍처를 소개하기도 했다.[VCNC 엔지니어링 블로그 바로가기]

관련기사

그는 “제플린을 쓴 뒤로 생산성이 5~6배는 올라갔다고 생각한다”며 “분석해달라고 요청을 받으면 며칠씩 걸리던 일을 그자리에서 즉석으로 해줄 수 있을 정도”라고 말했다.

아파치 제플린 프로젝트 의장은 NF랩스의 이문수씨다. 커미터 9명이 활동하고 있다. 최신 버전은 0.5.6 버전이다.[깃허브 아파치 제플린 저장소 바로가기]