페이스북, 250페타급 DW 조회엔진 공개

일반입력 :2013/06/08 09:03    수정: 2013/06/09 12:38

페이스북이 250페타바이트(PB) 규모 데이터를 SQL언어로 조회할 수 있는 데이터웨어하우스(DW) 엔진을 공개했다. 이름은 '프레스토'. 클라우데라 임팔라에 대응하는 SQL온하둡 기술이다.

7일(현지시간) 외신에 따르면, 페이스북은 이날 본사에서 열린 개발자 컨퍼런스에서 250PB 규모의 DW에서 SQL쿼리로 분석조회를 할 수 있는 쿼리엔진 '프레스토(Presto)'를 공개했다.

프레스토는 현재 페이스북 내 850명의 직원들이 매일 사용하는 기술이다. 직원들은 하루 350테라바이트(TB)를 스캐닝하고 있다.

일반적으로 하둡 속 데이터를 SQL로 조회하는 방법은 하이브를 사용하는 것이다. 하이브는 유사 ANSI SQL쿼리를 사용할 수 있어 기존 분석가가 쉽게 사용할 수 있다는 장점을 갖지만, 대용량병렬처리(MPP) 기반 DW 시스템보다 쿼리 처리시간에서 뒤진다. 하이브가 SQL 쿼리를 맵리듀스 잡으로 전환하는 과정이 중간에 추가되기 때문이다.

하이브의 한계를 뛰어넘어 SQL조회를 빠르게 할 수 있는 기술이 'SQL온하둡'이란 흐름이다. 하둡 진영에서 대거 개발되고 있다. 지난달초 공개된 클라우데라의 임팔라(Impala)가 대표적인 엔진이다. 국내의 고려대학교 연구진과 하둡전문업체 그루터에서 개발중인 '타조'도 그 일종이다.

프레스토 또한 하이브를 사용하지 않는 별도 SQL쿼리 엔진이다. 맵리듀스를 사용하지 않고 하둡분산파일시스템(HDFS) 내 저장된 데이터를 SQL문으로 곧바로 조회한다.

마틴 트라베르소 페이스북 엔지니어는 역사적으로 우리의 데이터 과학자와 분석가는 데이터 분석을 위해 하이브에 의존해왔다라며 하이브의 문제는 배치 프로세싱 용으로 설계됐다는 점이라고 말했다.

그는 우리는 하이브보다 빠른 여러 도구를 갖고 있지만, 그것들 역시 기능(functionality)에서 제한적이고, 거대한 DW를 관리하기엔 너무 단순하다라며 지난 몇개월에 걸쳐, 이 격차를 근본적으로 메우기 위해 프레스토를 개발해왔다고 덧붙였다.

페이스북은 수년전부터 하이브를 만들어 하둡 진영에 선물했다. 그러나 시간이 흐르면서 맵리듀스에 의존하는 하이브의 성능한계가 드러났다. 전체 데이터세트를 스캔하는데 수시간씩 걸리는 성능은 준 실시간급 질의와 답변을 원하는 경우에 이상적이지 않다.

프레스토는 단순한 쿼리에 대해 수백밀리초면 조회된다. 반면 복잡한 쿼리는 수분안에 처리된다. 트라베르소는 메모리에서 처리되며, 디스크에 절대 쓰지 않는다라고 설명했다.

프레스토는 상용 제품은 아니다. 개념적으론 임팔라와 같지만, 실제 페이스북 데이터노드 규모에서 빠른 성능을 내는데 최적화됐다.

트라베르소는 프레스토를 올해 가을 중 오픈소스로 릴리스할 계획이다라고 밝혔다.

관련기사

라비 머시 페이스북 엔지니어링 매니저는 우리의 DW규모는 사용자의 수보다 더 빠르게 늘어나, 4년전보다 4천배 커졌다라며 이같은 증가로 수년 뒤엔 DW 규모가 엑사바이트 규모에 달할 것은 명백하다고 예측한다라고 강조했다. 그는 이런 엑사바이트 규모를 보면서, 우리는 많은 다른 것들을 다시 생각해야 한다고 강조했다.

트라베르소는 프레스토가 쿼리를 빠르게 처리하는 점 말고도, 하이브보다 CPU 측면에서 7배 더 효율적이라고 설명했다.