에어비앤비가 페이스북에서 만든 프레스토SQL 엔진에 사용가능한 SQL툴을 오픈소스로 공개했다.
5일(현지시간) 외신에 따르면, 에어비앤비는 프레스토SQL 엔진 상에서 사용하는 데이터 분석도구 ‘에어팔(Airpal)’을 오픈소스로 공개한다고 발표했다.
에어비앤비의 에어팔은 부서와 직무에 상관없이 직원 누구나 데이터에 빠르게 접근할 수 있게 한다. 데이터 분석가에게 분석을 요청할 필요없이 시각적인 인터페이스로 SQL쿼리를 날려 쉽게 분석할 수 있다고 에어비앤비측은 설명했다. 접근한 데이터의 프리뷰와 쿼리의 공유 및 재사용도 가능하다.
프레스토SQL 엔진은 2013년 11월 페이스북에서 개발해 공개한 웹스케일 데이터 처리 엔진이다. 페이스북 내부에 있는 300페타바이트(PB) 규모의 다양한 데이터 소스를 빠른 시간 안에 SQL문으로 분석하기 위해 만들어졌다. 복잡한 질의보다 대략적인 통계치 정도를 알아볼 수 있게 했다.
제임스 메이필드 에어비앤비 프로덕트매니저는 “에어비앤비 직원 3분의 1이 에어팔을 통해 쿼리를 날리고 있다”며 “SQL을 위한 학습곡선이 높아야할 필요가 없다”고 설명했다.
일례로, 에어비앤비는 숙소 예약, 암호 재설정, 기타 등등의 여러 사용자 활동 발생 시 이메일을 자동으로 보낸다. 이같은 자동 이메일의 효율성을 측정하는 업무에 에어팔이 활용되고 있다.
메이필드는 “데이터 과학자는 하둡의 하이브로 질문을 던져 답을 얻는데, 처리시간이 오래걸린다”며 “지금 다수의 직원은 에어팔을 통해 단지 수분 안에 동일한 데이터에 접근할 수 있다”고 밝혔다.
관련기사
- 빅데이터 여는 열쇠 ‘SQL온하둡’ 대혼전2015.03.06
- 오라클도 SQL온하둡 솔루션 공개2015.03.06
- 페이스북 빅데이터 기술, 클라우드로도 제공2015.03.06
- 진화하는 빅데이터 실시간 분석 기술의 세계2015.03.06
하둡과 하이브를 사용하려면 데이터를 이해하고 복잡한 하이브QL문을 작성해야 한다. 하이브가 맵리듀스 엔진에 기반하므로 느리다는 단점도 있다. 에어비앤비의 경우 데이터와 하이브QL을 이해하는 직원은 10~15명 정도라고 한다.
에어비앤비는 아마존의 레드시프트 데이터웨어하우스를 잠시 사용하기도 했다. 레드시프트의 빠른 속도에도 불구하고, 사용자 친화적이지 않다는 점과 하이브에서 데이터를 복제해야 한다는 점 때문에 별도 툴을 만들어야 했다고 한다.