SKT, 오픈소스 '타조'로 보물을 캐다

일반입력 :2013/10/15 16:02    수정: 2013/10/16 09:58

수년간 빅데이터에서 새로운 가치를 찾으려 노력하다 시행착오를 겪어온 SK텔레콤이 해법을 찾았다. 빅데이터 플랫폼업체 그루터와 함께 오픈소스 기술 ‘타조’ 개발에 SK텔레콤이 참여하기로 한 것이다.

15일 서울 잠실롯데호텔에서 열린 네이버 ‘데뷰 2013’ 컨퍼런스에서 그루터와 SK텔레콤은 대용량 데이터 분산처리를 위한 데이터웨어하우징(DW) 시스템 ‘타조’를 발표했다. 정재화 그루터 책임연구원과 박근태 SK텔레콤 데이터테크랩 매니저가 발표자로 나섰다.

SK텔레콤은 올해부터 타조 개발에 참여하기로 결정했다. 그동안 여러 오픈소스를 동원해 빅데이터 처리와 분석을 시도했지만, 눈에 띄는 성과를 거두지 못했던 자성에서 나온 결단이었다.

타조는 빅데이터 분석을 위한 표준 인프라인 아파치 하둡과 관련된 기술이다. 하둡 생태계 중 쿼리분석을 위한 요소인 아파치 하이브를 대체하는 쿼리엔진으로 최근 빅데이터진영 화두인 ‘SQL온하둡’ 기술 중 하나다.

하둡은 하둡분산파일시스템(HDFS)와 맵리듀스를 기본으로 시작된 후 HBASE, 하이브, 주키퍼, 우지, 피그 등 필요에 따라 구성요소를 더하는 식으로 생태계 규모를 키우며 성장했다. 이중 하이브는 SQL 언어와 유사한 하이브QL을 통해 HDFS 내 저장된 데이터를 조회, 분석할 수 있게 해준다. 그러나 하이브는 맵리듀스 프레임워크를 거쳐야 하기 때문에 조회속도가 느리다.

타조는 하이브 대신 SQL언어로 HDFS 데이터를 빠르게 조회할 수 있게 해주는 쿼리엔진이다. 클라우데라의 임팔라, 구글의 드레멜, 호튼웍스의 스팅거, 맵R의 드릴, EMC 피보탈의 호크 등이 타조와 같은 콘셉트로 개발되는 기술이다.

타조는 올해 3월 아파치 소프트웨어 재단의 인큐베이터 프로젝트로 채택되며 전세계 빅데이터 관련 개발자들의 관심을 한 몸에 받았다. 미 항공우주국(NASA) 제트추진연구소(JPL), 인텔, 링크드인, 호튼웍스, 플랫포라 등의 개발자가 타조 커미터로 참여 중이다.

표준 ANSI SQL 언어를 사용하며, 쿼리 처리시간이 100밀리초에 불과하다. 하둡 기반 DW 시스템을 목표로 개발되며, HDFS와 다양한 소스의 대용량 데이터를 ETL, 집계, 연산, 조인, 정렬 등의 기능을 제공한다.

박근태 매니저는 “이전엔 하둡으로 데이터를 모아 저장하고, R이나 파이썬으로 복잡한 분석을 하고, 중요한 데이터는 DB에 저장하는 식이었다”라며 “데이터 수집 조직은 통합됐지만, 분석은 각 서비스기획쪽에서 알아서 하는 식이다보니, 인프라도 다 다르고, 성능보다 서비스 로직에 집중했다”라고 말했다.

SK텔레콤은 다양한 오픈소스를 동원해 빅데이터 분석에 나섰다. 그러나 데이터 용량이 늘어나면 늘어날수록 다양한 문제점이 나타났다. 최적화 문제였다.

박근태 매니저는 “있는 것도 잘 못쓰고 있다는 결론이 나왔다”라며 “하드웨어의 모든 성능을 발휘하게 하려면, 워크로드에 맞는 튜닝이 필요한데, 빅데이터는 데이터 증가로 서버 증설도 계속 이뤄지므로, 초기 튜닝 고심해서 해도, 쓰다 보면 튜닝한 게 허사가 되는 일이 벌어진다”라고 말했다.

그는 “OS와 버그의 문제도 있었고, 오픈소스를 결합해 사용하면서 궁합이 맞지 않기도 해서, 비효율이 계속 발생하고, 제한적으로 시스템을 사용할 수밖에 없었다”라고 덧붙였다. 이를 해결하기 위해 내부인력을 통한 하둡 운영을 유지하면서, 보완기술을 확보하겠다는 판단이 나왔다.

SK텔레콤은 타조 개발에 참여하면서, 내부 빅데이터 인프라에 타조를 적용했다. 대규모 데이터에 맞는 SQL온하둡 기술을 찾은 결과다. 클라우데라 임팔라는 대규모 데이터를 가진 SK텔레콤 환경에 맞지 않아 도입후보에서 제외됐다.

타조를 SK텔레콤 환경에 도입하자 하이브 대비 3.7배 빨라진 성능이 나왔다. 아직 0.1 버전인 상황에서 성능개선 효과가 극명하게 나타난 것이다. ETL까지 제공되므로 데이터 전처리에 투입됐던 작업량의 70%를 줄였다.

이 작업은 SK텔레콤이란 거대 통신사가 빅데이터 기술 개발에 직접 기여하면서, 스스로 도입해 그 개선효과를 보여준다는데 의미가 있다. 오픈소스 진영에 한국 이동통신사가 기여한다는 점도 주목할 만한 부분이다.

이날 발표에서 정재화 그루터 책임연구원은 SQL온하둡에 대한 설명과 타조의 특징, 구조 등을 설명했다.

정재화 책임연구원은 “예전엔 하둡으로 저렴하게 구축해서 빅데이터 분석할 수 있다는데 만족했지만, 이제 더 다양하고 빠르게 분석하고 싶어하고, 빠른 대화형 질의로 분석 생산성을 높이길 원한다”라며 SQL온하둡의 대두 이유를 설명했다

관련기사

쿼리처리 벤치마크 테스트 중 하나에서 타조는 330초만에 처리를 완료했다. 클라우데라 임팔라의 414초보다 빨랐고, 하이브는 827초 걸렸다. 또다른 테스트에선 타조가 121초, 임팔라가 141초, 하이브가 346초 걸렸다.

현재 그루터와 SK텔레콤은 이달중 타조 0.2 버전을 릴리즈할 계획이다. 내년초엔 1.0 버전을 내놓는다는 계획을 세웠다. 이후 타조는 하이브 대비 10배~100배 빠른 속도를 낼 것으로 기대된다.