구글, 하둡 맵리듀스 대체용 '데이터플로' 공개

일반입력 :2014/06/26 09:42

구글이 또 하나의 빅데이터 분석 서비스를 출시했다. 하둡 프레임워크의 맵리듀스를 대체하고, 아마존웹서비스(AWS)의 키네시스(Kinesis)와 엘라스틱맵리듀스(EMR), 레드시프트 데이터웨어하우스를 경쟁 서비스로 겨냥했다.

25일(현지시간) 미국 지디넷에 따르면, 구글은 미국 샌프란시스코에서 열린 구글I/O 컨퍼런스에서 데이터 프로세싱 파이프라인 구축을 간소화해주는 '클라우드 데이터플로(Data flow)'를 공개했다.

데이터플로는 빅데이터의 표준 프레임워크로 꼽히는 하둡의 맵리듀스를 대체하는 성격이다. 맵리듀스는 하둡에 저장된 데이터를 처리하는 역할을 한다. 우르스 휄즐 구글 수석 부사장은 구글 내부에서 맵리듀스가 데이터플로로 대체되고 있다고 밝혔다. 클라우드 기반 데이터플로는 대규모 데이터세트 파이프라인을 분석하기 위해 설계됐다. 구글의 플럼자바 데이터파이프라인툴과 밀휠(MillWheel) 스트림 프로세싱 시스템에 기반해 만들어졌다.

데이터플로는 배치 처리나 스트리밍 데이터 처리를 통합했다. AWS의 레드시프트와 키네시스를 하나의 서비스로 제공하는 셈이다. 맵리듀스 고유의 복잡성과 레이턴시 한계를 뛰어넘기 위해 만들었다는 설명이다.

우르스 휄즐 부사장은 클라우드 데이터 플로는 단일 흐름에 대해 맵리듀스가 했던 것을 전체 파이프라인에 대해 수행한다고 강조했다.

구글은 데이터플로의 첫 SDK를 자바용으로 내놓을 것으로 보인다. 기본적으로 하둡이 자바로 쓰여졌기 때문이다.

구글은 이날 행사에서 데이터플로를 활용한 사례를 소개했다. 월드컵에 대한 그간의 모든 데이터 속에서 변칙적 순간을 분석하는 모습이 시연됐다. 시스템이 무언가 징후를 알아챘을 때 자동으로 조치를 취하는 모습이었다.

데이터플로와 함께 구글은 컴퓨트엔진 기반으로 작동되는 애플리케이션 인프라를 관리, 운영하는 도구 '클라우드 모니터링'도 공개했다.

구글 클라우드 모니터링은 애플리케이션 스택 전체에서 벌어지는 비정상적인 움직임을 찾아내고 수정하는 것을 돕는다. 최근 구글에 인수된 스택드라이버의 기술이 기반을 이룬다.

아파치, 엔진X, 몽고DB, 마이SQL, 톰캣, IIS, 레디스, 엘라스틱서치 등 12가지 이상의 오픈소스 앱을 관리할 수 있다.

이밖에 클라우드 디버거와 클라우드 트레이스라는 도구도 선보였다. 클라우드 디버거는 성능에 영향을 미치지 않고 애플리케이션에 벌어지는 문제점을 수정하게 해주는 툴이다. 클라우드 트레이스는 성능 병목의 원인을 찾아 절연시키는 작업을 도와준다. 프로세싱 요청에 애플리케이션이 소비하는 시간을 시각화해준다.

마지막으로 구글은 개발자를 위한 클라우드 기능을 공개했다.

하나는 '클라우드 세이브'다. 안드로이드 개발자를 겨냥한 것으로 사용자의 기기와 구글 클라우드 데이터스토어를 동기화하는 서비스다. 최소한의 백엔드 코딩으로 사용할 수 있다고 회사측은 강조했다.

관련기사

클라우드 세이브는 프라이빗 베타 중이며 곧 정식판으로 제공될 예정이다.

안드로이드 스튜디오란 이름의 툴도 나왔다. 앱엔진 백엔드를 모바일 앱에 추가하는 절차를 단순화해준다. 바바서블릿, 자바 엔드포인트, 구글 클라우드 메시징을 사용하는 앱엔진백엔드 등 3가지의 빌트인 앱엔진 모듈 템플릿을 제공한다.