빅데이터 여는 열쇠 ‘SQL온하둡’ 대혼전

단기간에 새 기술 대거 등장

일반입력 :2014/08/25 15:32    수정: 2014/08/26 09:49

하둡은 빅데이터 처리를 위한 표준 플랫폼으로 통한다. 표준이라 해도 여전히 하둡은 인터넷 서비스 분야에서 더 많이 활용될 뿐 엔터프라이즈 시장 중심에 서지 못한 상황이다.

클라우데라, 호튼웍스, 맵알테크놀로지스 등 엔터프라이즈 하둡을 외치는 전문회사가 존재하긴 한다. 이 회사들도 주변에서 보내는 관심과 러브콜에 비해 폭발적 성장은 보이지 못하고 있다.

하둡의 엔터프라이즈 시장 진입 난항은 기술 자체의 생소함에 기인한다. 여전히 하둡에 관심을 갖고 활발히 사용하는 부류는 개발자이며, 엔터프라이즈의 데이터 분석가들은 하둡의 사용에 어려움을 느낀다. 데이터 분석가가 전혀 익숙지 않은 맵리듀스 사용법을 새로 익혀야 하기 때문이다. 맵리듀스를 배워 아무렇지 않게 쓰기도 어려울 뿐 아니라, 맵리듀스 자체의 성능도 기존의 분석 시스템보다 부족하다.

하둡이 엔터프라이즈 시장에 진입하는 열쇠는 SQL이다. 데이터 분야의 표준 언어로 자리잡은 SQL 언어를 하둡에서도 활용할 수 있다면 기업의 데이터 분석 환경을 끌어안을 수 있다는 판단이다. 또 SQL을 처리하는 속도를 높여 대화형(Interactive) 분석을 하면 하둡의 성능에 대한 의혹도 씻을 것이란 판단도 있었다. 이 판단들을 구체화한 기술 트렌드를 ‘SQL온하둡(SQL on Hadoop)’이라 칭한다.

본격적으로 SQL온하둡 트렌드가 수면위에 떠오른 건 2년전이다. 그 사이 분위기가 급속도로 바뀌었다. 1년전 각광받던 기술이 2014년 8월 관심받는 기술과 다르다. 어떤 일이 하둡을 둘러싼 생태계에서 벌어지고 있는 지 정리해본다.

■2013년의 SQL온하둡

SQL온하둡이란 발상이 본격적으로 제기되기 이전부터 SQL을 하둡에서 쓰기 위한 시도가 여럿 있었다. 일단 하둡 에코시스템의 가장 대표적인 요소인 ‘하이브(Hive)’가 있다. 하이브는 SQL과 유사한 하이브QL을 이용할 수 있고, DW에서 활용되는 수많은 기능을 제공한다. 그러나 하이브는 맵리듀스의 성능한계를 그대로 채택하기 때문에 리얼타임 애널리틱스란 요구는 들어줄 수 없다. 맵리듀스보다는 배우기 쉽다는 피그의 경우 성능이 더 좋지 않다.

쓰기 쉽고 높은 성능을 모두 보장한다는 요구사항을 충족시키려면 새 접근법이 필요했다. 이를 해결하지 못하면 엔터프라이즈란 수익을 거둘 수 있는 시장을 잡을 수 없다. 이에 하둡전문회사들이 전면에 나서 해법 모색에 돌입했다.

작년 4월30일 클라우데라는 임팔라 1.0을 공개했다. 오픈소스 하둡 진영이 내놓은 SQL온하둡의 첫번째 엔터프라이즈급 기술이다. 구글이 SQL온하둡이란 개념을 구현한 ‘드레멜(Dremel)’ 기술논문을 2010년 공개하고, 이듬해 ‘빅쿼리’란 분석 서비스를 내놓은 지 2년 만이었다.

작년 여름까지만 해도 임팔라가 SQL온하둡 시장을 평정할 것처럼 보였다. 구글 드레멜 논문에 영감을 받아 가장 처음 제안된 ‘드릴(Drill)’이 맵알 주도로 진행되고 있었지만 지지부진했고, 하이브를 고도화하자는 호튼웍스 주도의 ‘스팅거(Stinger)’ 이니셔티브는 언제 끝날지 모르는 진행형이었다. EMC 자회사 피보탈이 내놓은 ‘호크(HAWQ)’는 값비싼 그린플럼 DW를 사야하고 나온지도 얼마 되지 않아 검증되지 않았다.

■임팔라는 어디에? 쏟아지는 대안들

세상을 다 잡아먹을 듯, 하둡 생태계를 뛰어다닐 듯 했던 클라우데라 임팔라의 2014년 존재감은 미미하다. 1년 사이 수많은 변수가 등장했다.

우선 작년 10월 아파치 하둡 2.0버전이 마침내 정식버전으로 공개됐다. 하둡2.0의 핵심은 맵리듀스의 자원관리요소를 별도로 분리한 ‘얀(YARN)’ 아키텍처다. 얀의 등장으로 하둡 생태계는 하둡분산파일시스템(HDFS)과 맵리듀스의 속박에서 벗어날 기회를 얻었다. 얀 아키텍처는 데이터 처리를 담당하는 프로세싱 엔진을 맵리듀스 외에도 다양하게 쓸 수 있게 한다.

11월 페이스북이 ‘프레스토(Presto)’란 엔진을 공개했다. 프레스토는 웹스케일 DW란 수식어를 달고 나왔다. 페이스북 내부에 있는 300페타바이트(PB) 규모의 다양한 데이터 소스를 빠른 시간 안에 SQL언어로 분석하기 위해 만들어졌다. 다만, 프레스토는 복잡한 질의를 지원하지 않고 대략적인 통계치 정도를 알아볼 수 있는 수준이다.

그리고 올해초 3단계의 하이브 고도화 작업을 예고했던 호튼웍스가 스팅거의 3단계 진입을 알렸다. 하이브의 기반 시스템인 맵리듀스를 대신하는 ‘테즈(Tez)’ 개발도 본격적으로 흐름을 타기 시작했다.

이때까지 클라우데라와 호튼웍스는 ‘임팔라’와 ‘테즈+하이브’를 두고 치열한 마케팅 싸움을 벌였다. 공개 석상에서 두 회사의 핵심 개발자들이 상반된 벤치마크테스트 결과를 내보이며 자신들이 더 빠르다고 주장했다. 임팔라와 스팅거의 경쟁은 3월까지 이어졌다.(☞관련기사)

생태계는 또 달리 움직였다. 3월 UC버클리대학교에서 개발된 스파크(Spark)가 아파치소프트웨어재단(ASF) 톱 레벨 프로젝트로 승격됐다. 데이터를 메모리에 올려 분석하는 스파크 엔진은 SQL을 사용할 수 있는 샤크(Shark)와 함께 속도와 편리함을 모두 잡은 해법으로 빠른 속도로 세를 불려나갔다. 샤크가 아니더라도 스파크 엔진 위에 하이브를 올리면 더 빠른 속도를 낼 수 있다는 점도 주목받았다.

클라우데라와 맵알이 스파크 지원을 발표했다. 클라우데라는 이미 작년말 스파크 연구에 투자하겠다고 밝혔었다. 클라우데라는 5월 클라우데라하둡배포판(CDH) 5.1 버전에 스파크를 공식적으로 포함시켰다. 스파크1.0 버전이 나온 시점이었다. 맵알은 4월말 자신들의 배포판을 스파크에 최적화했다고 발표했다.

그리고 클라우데라는 더 이상 블로그로 임팔라 소식을 쏟아내지 않았다. 하루가 멀다하고 올라오던 클라우데라 홈페이지 블로그의 임팔라 관련 게시글은 지난 5월이 마지막이다.

묘한 움직임이었다. 가장 먼저 SQL온하둡 오픈소스 기술을 개발하자고 나섰던 맵알은 드릴도 지원하고, 임팔라도 지원하고, 스파크도 지원한다고 입장을 바꿨다. 임팔라를 내놓으며 DW 킬러라 선언했던 클라우데라도 스파크를 더 밀고 있다.

클라우데라의 아무르 아와달라 CTO는 지난 4월 기자와 만난 자리에서 “테즈로 할 수 있는 기능을 스파크로 다 할 수 있다”고 말했다. 같은 메모리 기반 처리엔진인 임팔라에 대한 구체적 언급은 없었는데, 워크로드 목적에 맞게 고객의 요구사항에 따라 여러 선택권을 제공한다는 원론적 답변만 했다.

그리고 7월 테즈가 아파치 톱레벨 프로젝트로 승격됐다. 현재 테즈 0.5 버전 릴리스 투표가 진행되고 있다. 테즈가 더 높은 수준에 도달하면 할수록, 그를 기반에 둔 하이브는 하둡 생태계 가운데 가장 DW에 근접한 기능과 성능을 제공하는 기술이 된다. 호튼웍스는 목소리를 더 높였다. 클라우데라가 임팔라를 그저 허공에 쏘아올린 것에 불과하다고 비꼬는 글이 6월 블로그에 올라왔다. 스파크에 대한 언급은 5월 호튼웍스데이터플랫폼(HDP) 2.1 버전에 스파크1.0 프리뷰를 포함시키면서 조금 했을 뿐이다.

상용 DW 회사의 움직임도 더 구체화됐다. 작년 2월 피보탈 호크 출시 이후 IBM이 5월 SQL온하둡 기술인 ‘빅SQL’ 시험판을 공개했다. 그리고 계속 하둡전문업체와 협력만 강조하던 오라클이 지난달 ‘빅데이터SQL’이란 제품을 출시했다. 오라클 DB와 하둡의 데이터를 SQL언어로 분석할 수 있다는 설명이다.

오라클의 빅데이터SQL 공개에 즈음해 테라데이타는 하답트(Hadapt) 인수를 발표했다. 하답트는 초기 SQL온하둡 트렌드를 주도했던 기술이다. 기존 하둡 환경 위에 포스트그레(Postgre)SQL의 요소를 올려 SQL 언어를 사용하게 한다.

미국 기업들과 개발자들이 때로는 전면전을 한편에선 치열한 암투를 벌이는 동안 한국에서도 조용한 반란이 일어났다. 3월 아파치 톱레벨 프로젝트로 승격된 ‘타조(Tajo)’다. 아파치 타조는 창안자 중 한명인 최현식 박사와 그루터를 통해 빠르게 수준을 높여갔다. 여기에 SK텔레콤이 타조를 데이터분석 플랫폼으로 사용하게 됐다.

■엔터프라이즈 시장은 열리지 않았다

결론적으로 SQL온하둡의 엔터프라이즈 진입은 아직 본격적이지 않다. 클라우데라, 호튼웍스가 연일 임팔라, 테즈를 두고 설전을 벌였지만, 엔터프라이즈 프로덕션 사례는 하나도 나오지 않았다.

현재로선 스파크 프로젝트가 기존 하둡전문업체 빅3의 지원을 받고, 수많은 IT솔루션회사의 지원사격을 받는 듯 보인다. 그러나 스파크 역시 트위터 같은 인터넷서비스회사에서 조금 사용될 뿐 엔터프라이즈 프로덕션 사례는 없다.

임팔라도, 스팅거와 테즈도, 스파크도, 프레스토도, 심지어 피보탈 호크, 오라클 빅데이터SQL, IBM 빅SQL 등 상용 솔루션도 엔터프라이즈 프로덕션 시스템에 들어가지 못했다. 어딘가 쓰인다는 레퍼런스는 개념검증(POC)이나 기술평가에 머물러있다.

관련기사

SK텔레콤 데이터분석 플랫폼으로 쓰이는 타조만 엔터프라이즈 프로덕션 시스템에 쓰이는 세계 유일의 SQL온하둡 기술이란 지위를 갖고 있다. 타조 프로젝트 개발자들 역시 역시 아직 스스로 엔터프라이즈 레벨은 아니라는 입장에서 개발에만 열중하고 있다.

SQL온하둡이 아직 엔터프라이즈 진영에 들어가지 못하고 있지만, 확실히 시장의 수요는 존재하는 듯하다. 오라클과 IBM이 SQL온하둡에 대응하기 시작했다는 사실만으로 그 수요를 짐작할 수 있다. SQL온하둡은 단순히 분석 플랫폼에 하둡의 자리 하나 더 둔다는 의미만 갖지 않는다. 하둡이 기존의 상용 DW 벤더에게 먹히느냐, 데이터 분석과 데이터베이스란 거대한 시장의 중심에 서느냐를 결정한다. 새 시장이 만들어지고, 생태계가 바뀌면 산업구조도 바뀐다. SQL온하둡에 긴장을 늦추지 않고 지켜봐야할 이유다.