IBM이 기업용 분석시스템 데이터웨어하우스(DW)를 위협하는 'SQL 온 하둡' 기술에 조용히 발을 담갔다. '빅SQL'이라 불리는 시험판 기술을 공개하며 하둡 전문업체들과의 일전을 예고했다.
온라인 IT미디어 기가옴은 최근 6일 IBM이 빅SQL이란 SQL 온 하둡 제품을 보유했고, 지난달 그 테크놀로지프리뷰 버전을 공개했으며, 선발된 사용자 집단을 위해 클라우드 기반의 시범운영환경도 제공한다는 사실을 신중하게 보도했다.
SQL 온 하둡이란 그 이름처럼 하둡 환경의 데이터를 DW처럼 SQL 방식으로 들여다볼 수 있게 해주는 기술을 가리킨다. 최근 하둡분산파일시스템(HDFS) 또는 H베이스(HBase) 환경에 저장된 데이터를 DW처럼 분석하려는 비즈니스 요구에 대응할 기대주로 떠올랐다.
IBM이 선보인 빅SQL 역시 JDBC나 ODBC 드라이버로 연결되는 전통적인 데이터 조회기술에 접속케 해준다는 기본적인 접근법을 취한다는 점에서 앞서 알려진 SQL 온 하둡 기술의 대열에 가세하는 모양새다.
하둡으로 빅데이터 기반을 이룬 환경에서 데이터를 다루는 초기 방식은 '맵리듀스'였는데 별도 프로그래밍 과정을 거쳐야 해서 쓰기 어려웠다. SQL을 흉내낸 '하이브QL'을 쓸 수도 있었지만 대용량병렬처리(MPP) 기반 DW시스템에 비해 처리속도가 느렸다.
이와 달리 SQL 온 하둡은 저렴한 하드웨어로 비용을 낮출 수 있는 하둡 인프라의 이점을 살리면서 맵리듀스와 하이브QL, 각각의 단점을 극복하고 기존 DW시스템에 준하는 성능을 제공하는 아이디어다. 국내외 하둡기술 전문업체들은 저마다 이에 해당하는 기술 개발에 열을 올리고 있다.
우리나라 개발자들이 주도하며 국내업체 그루터가 긴밀하게 협력중인 아파치 인큐베이터 프로젝트 '타조'나 미국 전문업체 클라우데라가 자사 배포판(CDH) 특화 기술로 내놓은 '임팔라'가 한 예다. 호튼웍스는 따로 '스트링거'를 만들기도 한다.
앞서 하둡 아이디어의 기원을 제시한 구글이 클라우드기반 빅데이터 분석서비스 '빅쿼리'를 내놓기 위해 '드레멜'을 만들었다. 아파치 하둡배포판 업체 맵알(MapR)은 드레멜을 오픈소스로 만든 '드릴'을 만든다. 이들은 타조, 임팔라, 스트링거에 비해 개발 속도가 더딘 편이다.
오랫동안 기업시장에 DW 제품을 공급해온 오라클, IBM 네티자, 테라데이타, EMC 그린플럼, HP 버티카, SAP 사이베이스, 마이크로소프트(MS) 데이탈레그로는 지난 몇년간 하둡에서 직접 데이터를 읽고 쓰며 분석하는 기술 개발에 소극적이었다. 데이터처리 플랫폼의 중심을 차지해야 MPP 확장을 빌미로 제품 판매 기회를 얻을 수 있었던 탓이다.
관련기사
- 3세대 플랫폼을 준비하는 EMC의 자세2013.05.11
- 3社3色 하둡 관리도구 빅3의 현재2013.05.11
- EMC-오라클-국산, 빅데이터 3파전2013.05.11
- [제9회 ACC]“인터랙티브 하둡, 타조를 소개합니다”2013.05.11
그래서 이들 업체가 하둡을 지원한다며 초기에 내놓은 기술은 대개 그 데이터를 DW로 가져와 분석하는 '하둡커넥터'가 고작이었다. 커넥터는 그에 저장된 데이터를 전통적인 DW 인프라에 불러올 수 있을 뿐 오픈소스 하둡의 어떤 장점도 살려주지 않았다. DW중심 분석환경의 하둡 임시변통에 불과했다.
하지만 최근 분위기가 바뀌었다. 일부 DW업체들이 SQL 온 하둡 기술을 만들면서다. MS가 '폴리베이스'를, EMC가 호크(HAWQ)를 출시한데 이어 IBM이 빅SQL을 내놓은 것이 그 사례다. 다만 이들이 분석솔루션을 위한 데이터플랫폼으로 하둡의 지위를 DW에 탑재되는 데이터베이스(DB)와 동격에 놓을지는 미지수다.