오픈소스 빅데이터 DW엔진 타조0.2 공개

대규모 배치 작업과 실시간 인터랙티브 분석에 유용

일반입력 :2013/11/26 14:39    수정: 2013/11/26 17:38

황치규 기자

지난 3월 글로벌 오픈소스 재단인 아파치 인큐베이팅 프로젝트로 채택된 오픈소스 빅데이터 웨어하우스 솔루션 '타조 0.2' 버전이 26일 공개됐다.

이번 버전은 지난달 개최된 네이버 개발자 행사 '데뷰 2013'과 미국 실리콘밸리 하둡 사용자 그룹 행사(Bay Area Hadoop User Group meetup) 등에서 소개돼 관심을 받았던 타조의 첫 공식 릴리즈라는 점에서 주목된다고 타조 개발팀은 설명했다.

개발팀에 따르면 타조는 하둡에 저장된 대량의 데이터를 익숙한 SQL 질의를 이용해 분석하는 SOL 온 하둡(SQL-on-Hadoop) 계열 솔루션으로, 대규모 배치 작업과 실시간 인터랙티브 분석에 모두 사용할 수 있는 것이 장점이다.

국내 빅데이터 전문 업체인 그루터 소속으로 타조 프로젝트 리더로 활동하는 최현식 박사는 다양한 유형의 데이터와 질의에서 테스트한 결과, 타조가 비슷한 기술인 하이브보다 평균 3배 이상 빠르며 일부 질의에 대해서는 수십배 이상 빠른 성능을 낸다고 말했다.

SK텔레콤의 경우 올해부터 타조를 빅데이터 분석 솔루션으로 사용중이다. SK텔레콤은 데뷰2013 행사에서 타조를 도입한 후 하이브를 사용했을 때 보다 평균 3.7배 성능이 향상되고, 데이터 처리에 투입됐던 작업량도 70%를 줄일 수 있었다고 밝혔다. 지속적인 개선 결과 최근 테스트에서는 하이브의 18배까지 성능을 끌어 올린 상황이다.

빅데이터 웨어하우스 솔루션 시장은 아파치 하이브를 비롯해 클라우데라 임팔라, 호튼웍스 스팅거, 아파치 드릴, EMC HAWQ, 페이스북 '프레스토' 등 다양한 SQL-on-Hadoop 솔루션들이 경쟁하고 있다.

이에 대해 최현식 박사는 타조는 실무 환경에서 요구되는 확장성과 내고장성을 지원하면서도 빠른 수행 속도를 제공한다고 강조했다. 확장성(Scalabiltiy)이란 클러스터 자원 크기를 넘어서는 대용량 데이터를 처리할 수 있는 능력이고, 내고장성(fault tolerance)은 질의 처리 중 발생하는 오류를 다루면서 질의를 완료할 수 있는 것을 뜻한다.

임팔라, 프레스토 등의 쿼리 엔진은 메모리 기반으로 데이터를 처리해 속도는 빠르지만 중간 데이터를 디스크에 저장하지 않기 때문에 메모리 크기를 넘어서는 큰 작업을 처리할 수 없고 오류 발생시 질의를 처음부터 다시 실행해야 하는 단점이 있다고 타조 개발팀은 지적했다.

관련기사

권영길 그루터 대표는 엔터프라이즈 환경에 요구되는 대규모 데이터 처리와 실시간 인터랙티브 분석을 하나의 솔루션으로 해결할 수 있다는 점이 타조의 큰 장점이라며 타조는 표준 SQL을 지원할 뿐만 아니라 대부분의 하이브 질의도 그대로 사용할 수 있어, 하이브를 대체하는 빅데이터 DW 솔루션이 될 것으로 기대하고 있다고 말했다.

타조 개발팀은 앞으로 보다 다양한 SQL을 지원하고 테이블 파티셔닝, JDBC, 하이브 메타 스토어 호환 등 기능을 추가한 새 버전을 12월 중 출시할 예정이다. 타조는 아파치 타조 프로젝트 사이트에서 다운로드할 수 있다.