하둡 전환기, 클라우데라 '임팔라1.0' 공개

일반입력 :2013/05/01 09:30

하둡 생태계에 중대변화를 가져올 것으로 전망되는 클라우데라의 '임팔라'가 완전한 모습으로 마침내 세상에 나왔다.

30일(현지시간) 외신에 따르면, 미국 하둡전문업체 클라우데라는 임팔라 엔진의 1.0 버전을 공개했다.

임팔라는 하둡상에서 맵리듀스를 이용하지 않고 SQL 쿼리를 처리하는 기능이다. 작년 5월 클라우데라는 임팔라의 콘셉트와 비공개베타버전을 공개했고, 작년 10월 첫 공식 베타버전을 내놨었다.

임팔라를 이용하면 하둡 하이브를 사용하지 않고 SQL쿼리 분석을 함으로써 처리시간을 단축할 수 있다. 하이브는 유사 ANSI SQL쿼리를 사용할 수 있어 기존 분석가가 쉽게 사용할 수 있다는 장점을 갖지만, 대용량병렬처리(MPP) 기반 DW 시스템보다 쿼리 처리시간에서 뒤진다. 하이브가 SQL 쿼리를 맵리듀스 잡으로 전환하는 과정이 중간에 추가되는 탓이다.임팔라는 하둡분산파일시스템(HDFS) 내 파일을 직접 읽어 들여 분석을 처리하는 별도의 처리 엔진으로 고안됐다.

클라우데라의 임팔라같은 시도가 아예 없었던 건 아니다. 이미 구글은 2011년 빅쿼리 서비스에 사용된 '드레멜(Dremel)'이란 고유의 SQL 지원 빅데이터 분석기술을 사용중이다. 드레멜을 사용한 빅쿼리는 9초 안에 결과값을 보여준다.

또한, 아파치 하둡 배포판 솔루션업체 맵알(MapR)이 참여한 드레멜의 오픈소스 버전인 '드릴(Drill)' 프로젝트도 임팔라에 앞서 시작됐다. 드레멜은 오픈소스도 상용솔루션도 아니며, 드릴 역시 개발속도가 더디다.

한국 개발자들이 주도하는 '타조'도 개발에 박차를 가하고 있다.

작년 하반기부터 최근까지 하둡 분야의 관심사는 온통 임팔라와 타조 같은 ‘SQL 온 하둡’ 기술이었다. 이는 임팔라 같은 기술이 완성되면, 하둡이 DW를 대체할 수 있는 문을 열어제치기 때문이다.

기업들은 고가의 하드웨어를 사용하는 DW 어플라이언스와 솔루션을 구매하지 않고, 저가의 하드웨어와 오픈소스 하둡을 사용해 높은 수준의 빅데이터 분석을 빠르게 할 수 있게 된다. 갈수록 비용압박에 시달리고 있는 기업에게 오픈소스 하둡이 실시간 성능만으로도 충분한 매력을 보여줄 수 있게 되는 것이다.

관련기사

특히 빅데이터 분석에 대한 기업의 관심은 오랜 시간 쌓아둔 대용량 데이터를 대상으로 하는 것에서 발전해, 대용량 데이터를 실시간으로 분석하는 것으로 쏠리고 있다. 실시간 분석을 통해 즉각적인 의사결정의 도움을 받고, 사람의 행동패턴을 즉각 판단해 현재 행동을 미래의 행동으로 유도하기 위함이다. 인터넷 쇼핑몰 상에서 고도의 실시간 추천시스템이 그려볼 수 있는 그림이다.

업계는 임팔라 같은 SQL 온 하둡 기술의 완성으로 하둡이 DW를 대체할 수 있는 단초를 얻게 될 것으로 예상한다. 하지만 공개된 임팔라 1.0 버전은 한번에 처리할 수 있는 데이터 용량이 소규모란 약점을 갖고 있는 것으로 지적된다. 또한 임팔라를 사용하려면 반드시 클라우데라 하둡 배포판(CDH)만 사용해야 한다.