오픈소스 하둡 데이터를 SQL로 다루는 기술이 정교해지면서 기업용 대용량병렬처리(MPP)기술을 대체할 가능성이 점쳐진다. 클라우데라, 그루터 등 국내외 하둡 전문업체들의 물밑 움직임이 새해 가시화될 전망이다.
우선 클라우데라는 지난해 하둡용 데이터베이스(DB)엔진을 개선하는 코드명 '임팔라' 프로젝트를 소개했다. 이는 기존 '하이브(Hive)'처럼 H베이스(HBase)에 둔 데이터를 SQL문으로 다루는 기능을 맡는 기술이다. 그간 하이브를 써서 하둡 데이터를 SQL문으로 처리시 느린 속도가 문제였다. 하이브가 디스크에 저장된 쿼리 결과를 요청하는 기술로 '맵리듀스' 프레임워크를 썼기 때문이었다.
임팔라 DB엔진은 맵리듀스가 아니라 하이브 메타데이터 디렉토리를 써서 SQL문을 요청해 속도를 높였다. 맵리듀스를 우회하는 방식이라 훨씬 빠르다는 게 클라우데라쪽 주장이다. 회사는 앞서 임팔라 소스코드를 아파치라이선스로 공개하고 지난해 10월 하둡월드에서 자사 기술을 테스트한 비즈니스인텔리전스(BI) 전문업체로 마이크로스트레티치(MSTR), 태블로 등을 언급했다.
임팔라를 도입시 장점은 기업들이 하둡플랫폼의 데이터 분석에 드는 시간을 아낄 수 있다는 점이다. SQL 기반이라 기업에서 대용량병렬처리(MPP) 작업을 요하는 기존 BI나 데이터웨어하우징(DW) 시스템처럼 쓸 수도 있을 것으로 기대를 모으고 있다.
구글 '빅쿼리(BigQuery)'가 앞선 실례다. 빅쿼리는 지난 2011년 맛보기로 공개됐고 지난해 5월 상용화된 빅데이터 분석서비스다. 별도 하드웨어나 소프트웨어 구축과정 없이 구글 클라우드에서 작동된다. 사용자가 특정 규모 이상의 데이터를 분석할 때 용량기반 과금을 매긴다. 이는 '드레멜(Dremel)'이라는 구글 고유의 SQL 지원 빅데이터 분석기술을 응용한 서비스다.
아파치 하둡 배포판 솔루션업체 맵알(MapR)이 참여한 '드릴(Drill)' 프로젝트도 있다. 드릴은 구글 드레멜 기술의 오픈소스 버전이다. 기본 지연율이 낮아 데이터탐색에 알맞고 페타바이트(PB) 규모의 자료를 몇초 이내에 훑어 그 결과값을 시각화할 수 있다는 게 특징으로 꼽힌다. 즉 드릴이나 드레멜은 데이터엔지니어가 아니라 BI를 다루는 비즈니스애널리스트, 현업부서 실무자, 기업 임원들이 선호할만한 기술이다.
국내 하둡전문업체 그루터에서도 이같은 움직임에 대응해 새해 상반기중 결과물을 선보일 계획이다. 회사는 하둡 솔루션 구축과 관리를 제공하는 자체 인력을 보유한 빅데이터 전문업체로 업계에 알려졌다. 하둡 플랫폼 모니터링 기술 '클라우몬'을 개발해 함께 공급해왔다. 오는 4~5월께 임팔라같은 기술을 만들어 구글의 빅쿼리같은 서비스를 구현할 것으로 보인다.
권영길 그루터 대표는 지난 2일 임팔라는 하둡에서 작업할당시간에 따른 처리부담(오버로드)을 획기적으로 줄여, BI나 DW의 MPP작업보다 다중 노드 환경에서 대용량데이터 분석을 위한 약점을 극복해준 것이라고 평가하면서도 임팔라는 클라우데라하둡배포판(CDH) 전용으로 개발됐기 때문에 개발사가 그 기술에 대한 플랫폼 종속화를 꾀하는 모양새라고 지적했다.
이어 (자사가 구현할 빅데이터 기술은) 10~20초 안에 1PB 규모 데이터를 다룰 수 있을 정도면 충분할 것이라며 이미 해외서는 하둡기반 하이브 솔루션들을 DW로 인식하는 추세라 이런 기술은 기존 엔터프라이즈DW 솔루션 시장을 공략할 수도 있다고 내다봤다.
관련기사
- '공짜는 그만' 새해 빅데이터 시장에 바란다2013.01.03
- 기술자가 말하는 빅데이터 플랫폼2013.01.03
- 하둡전문 3사, 같은듯 다른 빅데이터 관리툴2013.01.03
- 그루터 "빅데이터, '맨땅에 헤딩' 필요하다"2013.01.03
기존 DW와 BI 솔루션 업체들은 하둡이 오픈소스 기술로 기업환경에 적용하기엔 불확실성이 크고 문제가 생겼을 때 책임을 지는 곳이 없다는 점을 강조해왔다. 대용량데이터를 처리하는 플랫폼으로써의 잠재력을 인정하면서도 기존 상용 솔루션을 대체할 역량을 갖추진 못했다는 전제를 깐 것이다. 이는 상용솔루션과 오픈소스 기술의 상호보완적 관계로 귀결된다.
빅데이터 시장에서 기성 솔루션업체들과 오픈소스진영간의 관계는 보완에서 경쟁으로 바뀔 가능성도 있다. 클라우데라나 그루터같은 전문업체의 기술 도입이 활발해져 향후 하둡기반 MPP작업이 범용화될 경우다. 다만 안정적인 하둡 데이터플랫폼 '관리' 기술, 산업군별 전문지식과 노하우 등을 아우르는 이른바 '도메인레퍼런스', 2가지 부족한 점이 상용솔루션 대비 오픈소스의 약점이다. 이를 보완하면 빅데이터 시장의 그림은 기술지원역량과 플랫폼별 애플리케이션 응용방식의 경쟁으로 달라질 것으로 보인다.