빅데이터 플랫폼의 표준 기술로 자리잡은 하둡(Hadoop)이 새로운 전환기를 맞고 있다. 그 가운데 세계 최고 하둡기술업체와 한국의 개발자들의 자존심을 건 결투가 관전포인트로 떠올랐다.
하둡은 많은 양의 데이터를 가장 적은 비용으로 분석하게 해주는 기술이지만, 데이터웨어하우스(DW) 대비 실시간 SQL처리시간에서 뒤진다는 약점도 갖고 있다. 하둡의 맵리듀스가 고가의 하드웨어를 사용하는 대용량병렬처리(MPP) 시스템보단 실시간 처리 측면에서 뒤지기 때문이다.
이런 한계를 해결하기 위한 하둡 진영의 기술 개발이 활발하다. 미국 클라우데라, 호튼웍스, 맵R 등은 하둡의 SQL 처리시간을 실시간에 가깝게 하기 위한 기술을 개발하고 있다. 여기에 한국의 타조(Tajo) 프로젝트가 최근 등장하며 주목받고 있다.
■하둡의 한계를 떨쳐내자 ‘클라우데라 임팔라’
하둡은 하둡분산파일시스템(HDFS)과 맵리듀스 등을 핵심으로 이뤄졌다. 맵리듀스는 대용량데이터를 일괄 처리할 때 연산자원을 구성하는 클러스터의 일반 하드웨어 각각에 데이터를 나눠주고, 이를 다시 한 데 모아서 최종 결과를 내놓는 역할을 한다.
미국 클라우데라는 작년 하반기 ‘임팔라(Impala)'란 프로젝트를 발표했다. 임팔라는 맵리듀스를 사용하지 않고 SQL문으로 분석하는 기술이다. 올해 6월 임팔라 1.0 버전 출시를 목표로 개발되고 있는데, 하둡의 분석처리 속도한계를 극복할 이정표로서 기대를 모은다.
임팔라의 또다른 특징은 기존 '하이브(Hive)'처럼 H베이스(HBase)에 둔 데이터를 SQL문으로 다룰 수 있게 해준다는 점이다. 하이브 사용 시 하둡 내 데이터를 하이브QL로 처리할 때 발생하는 속도 저하문제를 해결하고, 기존 현업에게 익숙한 SQL언어를 사용하게 해주는 두 마리 토끼를 잡는 셈이다.
맵리듀스를 다루려면 별도 프로그래밍 언어를 익혀야 한다. 그 기본 제어를 위한 구조는 자바코드로 짜인다. MPP 지원 DW장비는 일반 데이터베이스(DB)처럼 SQL로 접근된다. 대부분의 경우 훨씬 더 쉽다.
데이터 플랫폼을 다루는 엔지니어 입장에서 맵리듀스를 따로 익히는 것도 부담이다. 아파치 하둡의 하이브가 유사 SQL언어를 사용할 수 있게 해주지만, 맵리듀스 환경에 SQL방식의 추상화 계층을 제공하는 기술이어서 성능한계가 분명하다.
임팔라의 DB엔진은 하이브 메타데이터 디렉토리를 사용해 SQL문을 요청한다. 클라우데라는 임팔라가 맵리듀스를 우회하는 만큼 훨씬 빠르다고 강조한다.
■임팔라보다 더 개방적인 '타조'
클라우데라의 임팔라같은 시도가 아예 없었던 건 아니다. 이미 구글은 2011년 빅쿼리 서비스에 사용된 '드레멜(Dremel)'이란 고유의 SQL 지원 빅데이터 분석기술을 사용중이다. 드레멜을 사용한 빅쿼리는 9초 안에 결과값을 보여준다. 또한, 아파치 하둡 배포판 솔루션업체 맵알(MapR)이 참여한 드레멜의 오픈소스 버전인 '드릴(Drill)' 프로젝트도 임팔라에 앞서 시작됐다. 드레멜은 오픈소스도 상용솔루션도 아니며, 드릴 역시 개발속도가 더디다.
오픈소스 진영의 임팔라 대응기술 개발이 지지부진한 가운데 한국의 개발자들이 의욕적인 프로젝트를 선보였다. 고려대학교 정보통신대학 컴퓨터학과 DB연구실의 박사과정 학생들과 빅데이터 전문업체 그루터가 진행하는 아파치 재단의 ‘타조 프로젝트’다.
타조는 별도로 개발된 엔진을 사용함으로써 SQL문으로 맵리듀스를 사용하지 않고 하둡 분산파일시스템(HDFS)의 데이터에 질의를 던질 수 있게 하는 기술이다. 실시간 처리에 있어 DW를 대체하는 오픈소스 하둡을 목표로 개발되고 있다.
작년 하반기부터 최근까지 하둡 분야의 관심사는 온통 임팔라같은 ‘SQL 온 하둡’ 기술이었다. 이는 임팔라와 타조 같은 기술이 완성되면, 하둡이 DW를 대체할 수 있는 문을 열어제치기 때문이다.
기업들은 고가의 하드웨어를 사용하는 DW 어플라이언스와 솔루션을 구매하지 않고, 저가의 하드웨어와 오픈소스 하둡을 사용해 높은 수준의 빅데이터 분석을 빠르게 할 수 있게 된다. 갈수록 비용압박에 시달리고 있는 기업에게 오픈소스 하둡이 실시간 성능만으로도 충분한 매력을 보여줄 수 있게 되는 것이다.
특히 빅데이터 분석에 대한 기업의 관심은 오랜 시간 쌓아둔 대용량 데이터를 대상으로 하는 것에서 발전해, 대용량 데이터를 실시간으로 분석하는 것으로 쏠리고 있다. 실시간 분석을 통해 즉각적인 의사결정의 도움을 받고, 사람의 행동패턴을 즉각 판단해 현재 행동을 미래의 행동으로 유도하기 위함이다. 인터넷 쇼핑몰 상에서 고도의 실시간 추천시스템이 그려볼 수 있는 그림이다.
빅데이터 처리기술로 양쪽을 놓고 고민 중인 조직이라면 하둡의 가격대비성능이 아니라 특성에 주목할 수 있다. 데이터 처리 성능이 한계를 보일 때, 하둡 환경엔 맵리듀스를 돌릴만한 저렴한 범용 하드웨어(HW) 증설로 대응할 수 있다. 반면 DW어플라이언스의 MPP 방식은 고가 장비를 계속 사들여야 하는 구조에 갇히게 만든다.
권영길 그루터 대표는 임팔라는 하둡에서 작업할당시간에 따른 처리부담(오버로드)을 획기적으로 줄여, BI나 DW의 MPP작업보다 다중 노드 환경에서 대용량데이터 분석을 위한 약점을 극복해준 것이라고 평가하면서도 임팔라는 클라우데라하둡배포판(CDH) 전용으로 개발됐기 때문에 개발사가 그 기술에 대한 플랫폼 종속화를 꾀하는 모양새라고 지적했다.
그는 이어 타조의 경우 10~20초 안에 1PB 규모 데이터를 다룰 수 있을 정도면 충분할 것이라며 타조는 기존 엔터프라이즈DW 솔루션 시장을 공략할 수도 있다고 전망했다.
■타조 VS 임팔라, 韓美 대결 눈앞에서 보라
임팔라와 타조의 양강 구도 속에서 두 프로젝트 관련자들이 한자리에 모이는 기회가 마련됐다. 지디넷코리아가 17일 서울 잠실롯데호텔에서 'Big Data: Value & Hidden Insight’란 주제로 개최하는 '제9회 어드밴스드컴퓨팅컨퍼런스(ACC)'다. 이곳에서 한국의 타조와 미국의 임팔라가 정면으로 맞붙는 그림이 그려진다.
이날 행사에서 타조 프로젝트를 진행중인 최현식 고려대학교 박사가 강연자로 나서 타조의 개발 현황과 기술적 특징, 개발 로드맵 등을 발표한다. 현장엔 타조 프로젝트 참여 개발자와 그루터 개발자도 참석해 참석자들과 활발한 소통을 할 계획이다.
클라우데라는 행사를 마감하는 마지막 기조연설로 나선다. 클라우데라의 아론 T. 마이어스 엔지니어는 자사의 임팔라를 소개하고 HDFS의 새로운 길에 대해 설명한다.
한편, 오전 기조연설에는 아마존웹서비스(AWS)가 빅데이터와 고성능컴퓨팅(HPC)를 주제로 발표하며, KT클라우드웨어의 한재선 최고기술책임자(CTO)가 빅데이터의 올바른 이해와 대응전략을 소개한다.
퀀텀, 오라클 등의 기조연설 이후 오후 행사는 ▲빅데이터 중심 비즈니스 ▲빅데이터 및 엔터프라이즈 IT ▲빅데이터 및 기술 트렌드 ▲빅데이터 튜토리얼 등 4분야로 나뉘어 세션이 마련된다.
관련기사
- DW어플라이언스, 하둡 도전장 받아라2013.04.12
- 한국 빅데이터를 위한 이정표를 세워라2013.04.12
- '열풍' 빅데이터의 뜬 구름을 걷어내라2013.04.12
- 하둡, 엔터프라이즈 DW·BI 대체할까2013.04.12
트랙1에는 마이크로스트레티지, LG CNS, 스플렁크 등이 발표하며, 줌인터넷의 김우승 연구소장이 빅데이터 활용 사례를 공개한다. 트랙2에는 HP, 델, 테라데이타, 오라클 등 솔루션업체가 밝히는 빅데이터 인프라 확보 방안이 소개된다. 트랙3에는 빅데이터 활용을 위한 SAS의 전략과 HP의 하둡 서비스, 빅데이터 플랫폼의 미래로서 데이터스택스의 카산드라가 소개된다.
행사 참가를 원하는 경우, 공식 웹사이트(http://acc.zdnet.co.kr/register.html)를 통해 등록하면 된다(문의:070-7714-5050, 이메일:event@zdnet.co.kr).