구글에 영감을 받고, 이제 구글을 노리는 빅데이터 기술들이 아마존으로 몰려가고 있다.
최근 외신에 따르면, 아마존웹서비스(AWS)는 클라우데라의 하둡용 SQL쿼리엔진 '임팔라(Impala)'를 지원한다고 밝혔다.
임팔라는 하둡분산파일시스템(HDFS)에 저장된 대규모 데이터를 표준SQL쿼리로 실시간에 가깝게 조회, 분석할 수 있게 해주는 쿼리엔진이다.
AWS 사용자는 엘라스틱맵리듀스(EMR) 클러스터에서 임팔라를 이용해 SQL언어로 데이터를 조회할 수 있다.
임팔라 같은 기술을 일컫는 용어는 SQL온하둡(SQL on Hadoop)이다. SQL온하둡은 구글의 빅데이터쿼리엔진 '드레멜(Dremel)'에서 영감을 받아 개발되기 시작했다.
드레멜은 2011년 공개된 빅쿼리 서비스에 사용된 분석기술로 이후 오픈소스 진영이 그 논문을 참조해 유사 기술개발에 나섰다. 그렇게 맵알을 중심으로 한 드릴(Drill) 프로젝트가 시작됐다. 하지만 드릴은 이후 특별한 발전을 보이지 못하며 2년째 답보상태에 놓여있다. 아파치 인큐베이터 프로젝트로 선정된 지 1년이 지났지만 실제 테스트 가능한 결과물이 없다.
드릴의 지지부진한 진행 중 클라우데라는 작년 임팔라를 처음으로 공개했고 올해 5월엔 임팔라 1.0 버전을 출시했다. 메모리를 활용해 하둡에 대한 SQL쿼리를 빠르게 수행하는 업계 최초의 SQL온하둡 제품이다.
클라우데라 임팔라와 드릴은 하둡의 맵리듀스와 하이브에 대한 대안이자 보완재로 나온 기술이다. 하이브는 SQL과 유사한 하이브QL로 HDFS 데이터를 분석하게 해주는 툴이지만, 맵리듀스 작업을 모든 쿼리에서 수행하기 때문에 기존 DW 기술대비 현저히 느린 속도를 보인다. 이를 위해 하이브보다 빠르고, 맵리듀스를 사용하지 않는 별도의 SQL쿼리엔진을 개발하자는 움직임이 SQL온하둡이다.
SQL온하둡 기술 가운데는 한국의 개발자들이 주도해 만든 오픈소스인 '타조(Tajo)'도 있다. 타조는 대화형 분석과 롱타임쿼리처리를 지원하는 하둡 기반 DW시스템 기술이다. 타조는 SK텔레콤의 데이터분석플랫폼에 적용됐다. 현존하는 SQL온하둡 기술 중 유일하게 실제 기업의 빅데이터 분석에 적용된 사례다.
반면 야후의 하둡개발조직이 분사한 호튼웍스는 하이브를 고도화하고, 맵리듀스 대신 테즈란 프레임워크를 사용하는 '스팅거'(Stinger)' 프로젝트를 내놨다.
이처럼 하둡의 여러 기술들은 구글에서 아이디어를 얻어 탄생됐다. 현존 하둡 에코시스템을 보면 구글파일시스템(GFS)와 HDFS, 구글 맵리듀스와 하둡맵리듀스, 구글 빅테이블과 HBASE, 구글 소잴(Sawzall)과 하이브 및 피그, 구글 추비(Chubby)와 주키퍼 등으로 연결된다.
구글을 바라보며 만들어진 하둡 기술들은 이제 구글과 일대일 경쟁을 해야 하는 입장이다. 구글이 자신들의 플랫폼을 자사 서비스에만 활용하는 게 아니라 서비스상품화했기 때문이다.
이에 하둡 진영은 아마존이란 경쟁 플랫폼에 올라타기 시작했다. 아마존의 클라우드로 좀 더 손쉽게 하둡 플랫폼을 활용하게 하겠다는 의도다.
수많은 전세계 스타트업 및 중견기업을 고객으로 확보한 아마존은 하둡과 임팔라를 대중화하기 위한 가장 손쉬운 통로다.
호튼웍스가 호튼웍스데이터플랫폼(HDP)와 아파치 하둡을 AWS 인스턴스에서 제공하고 있으며, 하둡클러스터관리도구인 '아파치 암바리'도 AWS를 지원한다.
관련기사
- 하둡 속도 높여라...파일 포맷 대권레이스2013.12.17
- 오픈소스 빅데이터 DW엔진 타조0.2 공개2013.12.17
- 하둡2.0 마침내 완성 '운영체제 등장'2013.12.17
- SK텔레콤 오픈소스SW 투자의 의미2013.12.17
그리고 클라우데라가 임팔라를 AWS에 올려태움으로써 그 움직임이 더 분명해졌다. 무엇보다 구글의 강점이 빅데이터 플랫폼과 그 기반의 클라우드 인프라인 점을 감안하면, 아마존 클라우드와 하둡의 긴밀한 만남은 오픈소스 진영과 구글의 일대일 구도를 형성하는 모양새를 전보다 구체화한다.
테크크런치는 이에 대해 구글은 오랜 시간 시장의 선두에 있었다라며 그러나 하둡과 플램폼 단계의 혁신은 구글과 그 대척점 사이의 격차를 좁히기 시작했다라고 평가했다.