구글, 빅데이터용 새 DW 기술 공개

실시간 쿼리 분석...상용SW와의 경쟁 주목

일반입력 :2014/08/08 09:51    수정: 2014/08/08 10:49

구글이 대규모 빅데이터 처리를 수행하는 새 데이터웨어하우스(DW) 시스템을 선보였다.

7일(현지시간) 구글은 전세계에 걸친 분산 DW 시스템 '메사(Mesa)'에 대한 논문(☞원문 바로가기)을 공개했다.

메사는 구글의 인터넷광고사업을 지원하는 DW 플랫폼으로, 구글의 광고사업 관련 근무자들의 분석업무와 고객을 위한 쿼리 서비스도 뒷받침하고 있다. 그러나 다양한 목적으로 사용가능한 범용 DW란 게 저자들의 설명이다.

메사는 실시간에 가까운 쿼리분석을 할 수 있게 해준다. 수많은 구글 데이터센터 중 하나가 장애를 일으켜도 성능을 유지하는 신뢰성과 장애 방지를 위한 폴트톨로런스(Fault Tolerance)도 제공한다. 인프라를 대규모로 유연하게 확장할 수 있고, 쿼리 볼륨도 대규모로 처리할 수 있다.메사 논문의 저자들은 수페타바이트 데이터를 제어하고, 초당 수백만건의 로(Row) 업데이트를 처리한다. 하루 수조건의 로를 패치하는 수십억 쿼리를 서비스한다고 적었다.

데이터는 각지 데이터센터에 분산돼 저장돼 처리되지만, 쿼리에 대한 응답은 낮은 지연시간에 이뤄진다.

사실 구글은 이미 DW 기술을 보유하고 있다. 현재 오픈소스 빅데이터 업계에 큰 영향을 끼친 '빅테이블(BigTable)'이다. 구글은 이밖에도 스패너, 메가스토어 등의 온라인트랜잭션처리(OLTP) 기술도 보유했다.

이 논문의 저자는 빅테이블은 메사 애플리케이션에 요구되는 원자성(Atomicity)을 제공하지 않는다며 메가스토어, 스패너, F1 등의 OLTP는 강한 일관성(consistency)을 지리적으로 복제된 데이터에 제공하는 반면, 메사 클라이언트에 의해 필요해진 피크 업데이트 쓰루풋을 지원하지 못한다고 설명했다.

ACID 문제와 성능 면에서 종전 기술로 만족할 수 없었다는 설명이다.

저자는 메사는 메타데이터 스토리지와 관리를 위한 스패너를 기반으로 빅테이블과 팍소스(Paxos) 기술을 활용한다고 덧붙였다.

구글은 '드레멜(Dremel)'이란 시스템도 보유하고 있다. 현재 구글이 제공하는 빅쿼리(BigQuery) 서비스의 기반을 이루는 시스템이다. 애드혹(ad hoc) 쿼리를 빠르게 수행하는 데이터 읽기에 초점을 둔다. 논문은 페이스북, 트위터 등과 DB회사들의 기술도 언급했다.

관련기사

벤더와 다른 서비스 회사가 만든 여러 기술에 대해 리얼타임 쿼리와 다이나믹 업데이트 등을 지원하긴 하지만 복수의 데이터센터에 데이터를 복제하면서 관리되는 형태로 상용화하거나 현업시스템에 적용하지 못했다는 것이다.

구글의 메사 논문은 이후 데이터를 어떻게 저장하는지, 어떻게 쿼리를 처리하는지를 설명하며 분산아키텍처를 묘사한다.