"스타트업 데이터분석, '아마존 타조'가 제격"

컴퓨팅입력 :2015/07/30 15:24

기업 경영에 데이터 분석 역량이 강조되고 있지만 벤처기업들에겐 데이터 분석이 그림의 떡인 경우가 많다. 여건상 데이터분석 기술과 전문 인력을 갖추기 어려운데다 실제 운영단 이외에 동원할 자원이 부족해서다.

그런데 벤처기업이 '로그 데이터'에 초점을 맞춘 분석을 목표로 삼는다면 경쟁력 향상을 위한 데이터 분석 활동도 현실적인 얘기가 된다는 조언이 나와 눈길을 끈다. 아마존 클라우드와 오픈소스 분석 엔진 '타조'를 활용해 최소한의 비용으로 로그데이터 분석을 할 수 있다는 메시지다.

지난 28일 판교 공공지원센터 7층에서 페이스북 그룹 '실리콘밸리를 꿈꾸는 판교 사람들'의 정기 세미나에서 나온 얘기다. 이날 국내 하둡기술 전문업체로 유명한 그루터의 엔지니어 정재화 수석이 '스타트업 사례로 본 로그데이터 분석, 아마존웹서비스 기반 타조(Tajo on AWS)'라는 강연을 진행했다.

타조는 '빅데이터웨어하우스 시스템'을 표방하는 대용량데이터분석엔진으로 2년전 아파치 인큐베이션프로젝트로 시작해 지난해 탑레벨프로젝트로 승격된 기술이다. 프로젝트 주요 공헌자인 그루터는 지난달 '하둡서밋2015'에 세션 발표 형태로 참가해 타조의 세계 확산에 시동을 걸었다. (☞관련기사)

하둡기술 전문업체이자 아파치 톱레벨프로젝트 타조의 주요 공헌자로 이름을 올리고 있는 그루터의 풀타임 타조 엔지니어 정재화 수석.

정 수석은 그루터에서 오픈소스 분석 엔진 '타조' 프로젝트 풀타임 컨트리뷰터로 일하는 엔지니어다. 그는 판교 정기 세미나에서 벤처기업들이 IT인프라로 쉽게 선택하는 퍼블릭클라우드 '아마존웹서비스(AWS)' 기반으로 타조 엔진을 써서 로그데이터를 분석한 사례와 다른 기술 대비 장점을 제시했다.

"타조는 하둡의 '맵리듀스' 없이 자체 분산처리 엔진을 쓰는 구조입니다. 질의 최적화 기법과 알고리즘을 갖춰 몇시간 이상 실행되는 ETL 쿼리부터 수백밀리초 이내에 실행되는 인터랙티브쿼리까지 지원합니다. 질의언어로 ANSI SQL을 지원해 기존 BI 사용자들에게 거부감이나 학습부담이 없습니다."

그에 따르면 기업들은 타조를 도입시 표준 SQL 기반의 기존 시스템을 전환하기 쉽고, 하둡 기본 분석 엔진인 맵리듀스보다 나은 처리 성능을 내며, 클러스터 규모를 수천대까지 확장할 수 있다. SK텔레콤같은 대기업이 지난해 기준 500대 규모의 클러스터를 구성해 쓸 정도로 실용성이 검증돼 있다.

그런데 벤처기업 입장에선 당장 회사 운영만으로도 시간과 비용이 빠듯한 경우가 일반적이다. 데이터 분석을 따로 돈을 들여 장비를 구입하고, 사무실에 전산실을 갖추거나 데이터센터 회선과 상면을 빌리고, 이를 유지 및 관리할 여력이 있다고 장담할 수 없다.

정 수석에 따르면 이럴 때 AWS 기반 타조가 간단한 해법이 된다. 이 방식은 일단 데이터를 쌓은 다음에 나중에 분석한다든지, 데이터가 나중에 많아졌을 때 손쉽게 확장한다든지, 별도 데이터 가공 없이, 개발인력이 새 프레임워크나 언어를 익히지 않고 원본 로그를 분석하는 시나리오를 지원한다.

"AWS의 엘라스틱컴퓨트클라우드(EC2) 인스턴스로 서버를 띄우고, 그 로그를 심플스토리지서비스(S3)에 저장하고, 엘라스틱맵리듀스(EMR)에서 타조를 돌려 그 데이터를 분석하는 구조가 지원됩니다. 이 경우 초기비용이 별도 장비 구축, 데이터 보관 방식보다 훨씬 저렴하게 책정될 수 있습니다."

얼마나 저렴할까? AWS의 S3 저장소는 업로드 비용을 따로 청구하지 않고, 고가용성을 보장하며, CPU 사용 비용을 부과하지 않는다. 벤처기업에게 유리한 조건이다. 경험상 분석할 데이터가 20테라바이트(TB)정도라면 월 유지비가 700달러(약 82만원)쯤 나올 것이라는 게 정 수석의 설명이다.

클라우데라의 임팔라나 아파치의 스파크 대비 타조 사용시의 장점은 AWS에서의 비용 최소화다. S3에 데이터 원본을 두더라도 임팔라나 스파크로 분석시 별도 관계형 데이터베이스에 데이터를 넣고 빼는 과정이 필요한데, 이 때 AWS에선 인스턴스와 데이터 복사와 네트워크 비용을 별도 청구한다.

그루터에선 이미 타조를 AWS 클라우드 인스턴스와 저장소에서 돌리는 방식에 맞춰 기능 개선과 업그레이드를 하고 있었다. EMR 클러스터 시작 시점에 실행되는 설정스크립트 '부트스트랩'이 타조 환경을 지원하고, 기존 S3 관련 버그를 여럿 수정한 상태다.

성능은 어떨까. vCPU 16개, 메모리 30GiB, SSD스토리지 160GB 2개로 구성된 EC2의 'c3.4xlarge' 인스턴스로 1TB 크기 데이터셋을 처리한 TPC-H 벤치마크 테스트 결과 타조(0.9.1 버전)가 하이브의 4배, 프레스토의 1.5배 성능을 기록했다. 여기서 '스파크'는 메모리 제약으로 테스트에 실패했다. (☞링크)

정 수석은 기업이 분석해야 할 데이터가 늘어날 경우 유연하게 대응할 수 있는 확장성도 갖췄다고 설명했다. 위 벤치마크에서 최초 인스턴스를 4대로 시작했는데, 이를 8대로 늘렸을 때 성능은 기존의 1.6배, 16대로 늘렸을 때 성능은 기존의 2.4배로 향상됐다고 한다.

이런 식으로 데이터 분석을 수행 중인 벤처 회사도 이미 존재한다. 정 수석은 이런 회사 가운데 스마트폰 잠금화면 위젯을 만든 모바일광고업체 '락킷(Locket)'을 소개했다. 이들은 별다른 상용솔루션도 없이 AWS 기반 타조를 써서 사용자 행동과 기기 이벤트 정보를 연계 처리하고 있다고 한다.

락킷은 vCPU 8개, 메모리 15GiB, SSD스토리지 80GB 2개로 구성된 EC2의 'c3.2xlarge' 인스턴스 10대로 40초동안 수십GB 로그를 처리했다. 인스턴스 1대 가격은 시간당 0.420달러, 10대 사용료는 대충 5천원 미만이다. 이건 1시간 기준 가격이라, 향후 분석 데이터가 늘더라도 갑자기 비싸질 리는 없다.

"락킷의 인프라 활용 형태는 EC2에 타조를 돌려 코호트분석을 수행하고 결과 및 소스 데이터를 S3에 함께 저장해, 집계 결과를 관계형데이터베이스서비스(RDS)에서 마이SQL로 불러오는 방식입니다. 이들의 인스턴스는 라인, 카카오에서 쓰는 하둡 장비보다 훨씬 저사양인데도 결과가 꽤 빨리 나왔죠."

정 수석은 벤처 회사에서 일하는 엔지니어로 이미 AWS를 다루는 담당자라면 데이터 분석이 필요할 때 이처럼 데이터 원본을 S3 저장소에 놓고 타조를 활용해 분석하는 방식이 유리할 것이라고 조언했다. 락킷 외의 다른 벤처회사나 또다른 대기업에서도 AWS기반 타조 활용을 검토 중이라고 한다.

벤처 회사 중엔 인프라 구축 부담 이전에 데이터 분석의 필요성 자체를 낮게 본다든지, 또는 아직 분석할 데이터조차 갖고 있지 않아 나중 일이라 여기는 시각도 있을 듯하다. 그러나 정 수석은 기업 활동의 성과 지표를 만들고 분석을 하려면 우선 로그 데이터를 활용하는 게 기본이라고 지적했다.

관련기사

"로그는 페이지뷰(PV)와 순방문자(UV), 일별활동자수(DAU)와 월별활동자수(MAU), 구매자(PU)와 이용자별평균매출(ARPU), 신규가입자(NRU) 등의 근간입니다. 고객문의, 의사결정, 해킹 피해나 서비스장애 보상, 개인정보보유의무조치 등 법무적 필요 때문에라도 최소한의 시스템을 갖춰야 하고요."

타조를 쓰지 않더라도 최소한의 시스템을 갖추기 위한 선택지는 여러가지로 고려될 수 있다. 저장소를 SQL이 돌아가는 마이SQL이나 마리아DB 등 관계형DB나 몽고DB같은 NoSQL로 쓸 수 있지만 전자는 별도 ETL작업이 필요해 소규모 조직에선 운영부담이 있고 후자는 인력 학습부담이 크다는 게 정 수석의 평가다.