하둡, DW진영에 십자포화 시작

일반입력 :2013/05/15 07:53    수정: 2013/05/15 16:36

오픈소스 하둡 진영이 데이터웨어하우스(DW) 영토에 연일 선전포고를 하고 있다. 성능, 운영 안정성, 보안접근권한관리 등 대기업 고객의 우려를 불식시키려는 해법들이 곳곳에서 시도되며 DW진영을 향한 십자포화를 날리기 시작했다.

하둡은 NoSQL과 함께 관계형 데이터베이스(RDB)와 DW에서 감당하지 못하는 빅데이터 영역의 시장을 차지했다. DW 진영은 하둡의 일부 요소를 취하고, 각사 솔루션에 연결하면서 빅데이터를 끌어안으려 했다.

그러나 방대한 오픈소스 생태계에 기반해 기술을 빠르게 진화시켜온 하둡 진영은 조금씩 DW를 대체할 수 있는 무기를 하나둘 갖추는 모습이다. 이미 검증된 DW대비 가격경쟁력에 성능, 안정성, 보안 등 약점으로 지적받던 것을 보완해 엔터프라이즈급 기술로 진화하고 있다.

■SQL온하둡, 클라우데라의 반격

DW 진영은 엔터프라이즈에서 사용하기에 아파치 하둡이 성능한계를 갖는다고 공격해왔다. SQL쿼리 분석 시 맵리듀스를 사용하는 하둡이 DW보다 느리다는 내용이다, 그들은 실시간 분석에 하둡이 적합하지 않으며, 배치 분석 환경에 국한된다고 공격했다.

하둡 진영은 하이브에서 SQL언어와 유사한 하이브QL 을 이용하게 함으로써 사용자 편의성을 극복했지만, 처리시간 자체는 MPP를 사용하는 DW에 밀릴 수밖에 없었다.

하둡 진영은 빠른 SQL 분석을 위한 해법 마련에 착수했다. 2011년 구글이 빅쿼리에 사용했다는 드레멜을 논문으로 두루뭉술한 형태로 드러냈고, 이를 오픈소스화한 맵R 중심의 드릴도 개발되기 시작했다. 아파치 재단에 최근 인큐베이터로 등록된 한국 개발자 및 그루터 주도의 ‘타조 프로젝트’도 있다.

그러다 작년 5월 클라우데라가 임팔라를 발표한다. 클라우데라는 작년 10월 임팔라 베타버전을 공개했다. 올해 상반기 1.0 버전을 내놓겠다고 밝혔던 이 회사는 지난달 30일 임팔라 1.0 버전을 마침내 선보였다. 당초 예상보다 빠른 발표였다. DW 대체를 꿈꾸는 하둡의 반격이 시작된 것이다.

임팔라는 이른바 ‘SQL 온 하둡’으로 불리는 기술이다. SQL 온 하둡이란 하둡분산파일시스템(HDFS) 내 데이터를 DW처럼 SQL 방식으로 들여다볼 수 있게 하는 기술이다.

이는 방대한 비정형 데이터를 담은 HDFS 속 데이터를 실시간에 가깝게 분석하게 해준다. 저렴한 하드웨어를 사용한다는 하둡 인프라의 이점을 살리면서 기존 DW시스템에 준하는 성능을 제공하는 아이디어다.

SQL 온 하둡 아이디어의 상용화엔 오히려 DW진영이 빨랐다. EMC가 3월 그린플럼과 자체 하둡 배포판 피보탈HD를 활용하는 ‘호크’란 기술을 발표했고, MS가 폴리베이스와 PDW를 상용화했다. IBM 역시 지난달말 조용히 빅SQL을 내놓으며, SQL 온 하둡 대열에 합류했다.

구글 드레멜은 빅쿼리에만 사용되므로, 임팔라는 사실상 SQL 온 하둡의 첫 번째 상용제품이란 점에서 의미가 크다. 임팔라 1.0을 기점으로 아파치 재단의 타조가 1.0 버전을 올해 안으로 내놓는 것을 목표로 개발되고 있으며, 호튼웍스도 스트링거란 기술을 개발하고 있다.

SQL 온 하둡이 완성단계에 이르면, 기업들은 고가의 DW 어플라이언스와 솔루션을 이용하지 않고, 저가 하드웨어와 오픈소스 하둡을 사용해 높은 수준의 빅데이터 분석을 빠르게 할 수 있게 된다. 비용압박에 시달리면서, 성과를 확신할 수 없어 하둡 및 빅데이터 환경 구축에 머뭇거려온 기업이 오픈소스 하둡을 부담없이 채택하는 계기로 작용할 수 있다.

■하둡 불안해서 못써? 고가용성 문제 해결 움직임

하둡 진영이 외부로부터 지적받아온 것 중 하나가 싱글포인트오브페일류어(SPOF)다. 하둡은 가용성이 부족해 가용성에 민감한 대기업엔 사용하기 불안정하다는 공격이었다.

하둡은 네임노드와 데이터노드 등으로 이뤄진 마스터&슬레이브 노드 구조다. 네임노드는 데이터가 어느곳에 저장됐는지 메타정보를 담고 있어, 대용량 데이터저장, 처리, 검색을 가능하게 한다. 오픈소스 하둡은 이 네임노드가 원래 한 개였다. 데이터 자체는 기본 3카피로 장애에 대비할 수 있지만, 네임노드 장애의 페일오버를 위한 백업요소가 없었다.

네임노드가 장애를 일으키면, 하둡 인프라는 업무를 수행할 수 없게 된다. 그러던 하둡은 2.0 버전에 해당하는 얀(YARN) 아키텍처에 이르러, SPOF 문제 해결을 위한 형태로 변화하고 있다.

맵R은 이달초 얀 아키텍처에 기반해 상용버전에 해당하는 M7이란 하둡 배포판을 내놨다. 맵R M7은 하둡 인프라의 가용성을 유지하기 위한 각종 백업, 고가용성(HA) 기능을 제공한다.

M7은 엔터프라이즈급 하둡 플랫폼으로 소개됐다. 표준적인 하둡분산파일시스템(HDFS) 상의 데이터를 단일 레이어에서 공유함으로써 성능 오버헤드를 줄이고 쉽게 관리할 수 있도록 했다고 회사측은 설명했다.

M7에 포함되는 HBASE는 오픈소스를 수정해 가용성을 강화했다. 제로다운타임을 목표로 즉시 복구를 구현해 99.999%의 가용성을 보장한다는 설명이다. 또한 수천대 노드에 1조개 테이블을 생성할 수 있는 확장성을 보여준다고 묘사된다. 성능에 있어선 10개 노드 클러스터에서 초당 100만 오퍼레이션의 기록한다고 강조됐다. 맵R에 따르면, 오픈소스 HBASE는 클러스터당 수백개 테이블만 생성가능하다.

HBASE 설정, 배포, 관리 등을 자동화했다고도 덧붙였다. 데이터 보호에 있어선, 파일과 테이블 등 모든 데이터에 스냅숏을 적용했고, 장애 발생 시 스냅숏의 데이터를 읽어들여 업무중단을 줄인다.

맵R처럼 클라우데라, 호튼웍스 등은 자체 하둡배포판의 가용성을 높이기 위한 방안을 계속 추가하고 있다. 국내의 오라클DB 전문가는 “하둡의 아키텍처가 점차 가용성을 강화해가며, 오라클 리얼애플리케이션클러스터(RAC)처럼 진화하고 있다”고 평가했다.

■하둡 시스템도 접근권한관리

하둡은 보안에도 약점을 지적받는다. 이는 해킹 측면이 아니라 데이터 접근권한관리에 대한 부분이다. DW는 데이터 접근 로그기록을 저장함으로써 접근권한을 엄격히 관리하는 틀을 갖추고 있다. 반면, 하둡은 사용자 인증과 접근권한관리에서 특별히 발전되지 못했다.

대용량의 데이터를 저장하고 처리는 해야겠고, DW로 감당하기엔 천문학적 비용부담을 느끼는 대기업으로선 난감한 상황이다. 이에 웃지 못할 현상이 벌어진다.

업계에 따르면, 국내 일각에서 검토중인 빅데이터 인프라 구축 방안에서 하둡의 접근권한관리 문제를 해결하기 위해 DW를 이용하는 방법이 거론되고 있다.

대용량 비정형 데이터를 DW에 저장하고, 분석할 때만 데이터를 하둡 맵리듀스 프레임워크로 작업을 수행하는 형태다. DW에서 하둡을 통합 접근을 보여주는 로그기록을 남길 수 있으므로, 데이터에 대한 무분별한 접근을 막을 수 있다는 것이다.

이는 하둡과 DW의 용도를 정반대로 적용한 형태다. DW에 대용량 데이터를 저장하고, 하둡만 분석에 사용하면 비용절감이란 장점을 잃어버리고, 데이터 처리 단계만 복잡하게 만들어 성능까지 죽이게 된다. 데이터 저장과 하둡 맵리듀스를 감당하기 위해 DW는 더 고사양, 고비용으로 가게 된다.

관련기사

이에 클라우데라는 ‘클라우데라 내비게이터’란 제품을 슬그머니 내놨다. 클라우데라 내비게이터는 CDH 환경에 대한 사용자 인증, 액세스제어, 디스커버리, 데이터계보, 라이프사이클 관리 등의 기능을 제공한다.

하둡시스템 관리자가 데이터에 대한 접근을 관리할 수 있는 도구로, 그간 지적돼온 보안 문제를 해결하겠다는 움직임으로 풀이된다. 클라우데라는 이 솔루션이 금융, 헬스케어, 공공 등에서 제기되는 문제를 해결해준다고 설명했다.