오픈소스 데이터웨어하우스(DW) 시스템 타조가 아파치소프트웨어재단(ASF)이 관리하는 톱레벨 프로젝트로 승격됐다. 한국인 주도로 만들어지는 오픈소스 빅데이터 기술이 하이브, HBASE, 피그, 스파크 같은 하둡 생태계와 어깨를 나란히 하게 됐다.
1일(현지시간) ASF는 타조 프로젝트 인큐베이터 단계의 관리에서 벗어나 톱레벨 프로젝트에 등록됐다고 발표했다.
타조는 2010년 고려대학교 데이터베이스 연구소에서 시작된 프로젝트로 작년 3월 아파치 인큐베이터 프로젝트에 선정됐다. 타조 프로젝트는 창안자인 최현식씨가 프로젝트의장으로 활동하면서, 그루터 전문가들과 SK텔레콤, 소속 개발자들이 참여해왔다.
타조는 표준SQL 언어를 사용해 하둡분산파일시스템(HDFS)에 저장된 데이터를 빠르게 조회하고, 분석하게 하자는 'SQL온하둡' 솔루션에 속한다. 하둡 프레임워크가 제공하는 맵리듀스를 사용하지 않는 로레이턴시 실시간 분석을 목표로 하이브 대체재를 표방했다.
대규모 배치 작업과 실시간 인터랙티브 분석에 모두 사용할 수 있는 것이 장점이다. HDFS 외 다양한 데이터 소스에 저장된 데규모 데이터세트에 대한 ETL(추출-변환-적재), 확장가능한 애드혹(Adhoc) 쿼리, 온라인통합 등의 기능을 제공한다. 대규모 데이터에서도 대화형 쿼리분석이 가능하다.
SK텔레콤의 경우 작년부터 타조를 빅데이터 분석 솔루션으로 사용중이다. SK텔레콤은 작년 데뷰2013 행사에서 타조를 도입한 후 하이브를 사용했을 때 보다 평균 3.7배 성능이 향상되고, 데이터 처리에 투입됐던 작업량도 70%를 줄일 수 있었다고 밝혔다. 지속적인 개선 결과 최근 테스트에서는 하이브의 18배까지 성능을 끌어 올렸고, 데이터 파일포맷에서 파케이(Parquee)도 지원하게 됐다.
SQL온하둡 솔루션으로 거론되는 경쟁기술은 클라우데라의 임팔라, 호튼웍스의 스팅거(테즈), 피보탈의 호크 등이 있다.
타조는 특히 1년이라는 매우 짧은 기간 안에 인큐베이터 프로젝트를 졸업해 의미가 있다. 지난 2월 아파치 톱레벨에 등록된 스파크 프로젝트는 2009년 만들어져 2013년 6월 아파치 인큐베이터 프로젝트에 선정됐다. 스파크는 인큐베이터 졸업까지 8개월 걸렸다.
스파크가 아파치재단으로 들어가기 전 4년의 개발기간을 거쳤다는 점을 감안하면, 타조는 만들어진지 4년만에 인큐베이터 프로젝트를 졸업한 셈이다.
타조는 최현식씨와 손지훈씨 등 두명이 개발하던 초기를 지나 2012년 그루터와 만나고, 이후 아파치 인큐베이터 프로젝트에 선정되면서 개발속도가 눈에 띄게 빨라졌다. 그루터, SK텔레콤, 링크드인, 호튼웍스, 인텔 소속 개발자가 커미터로 참여하며 세계적인 주목받았다.
링크드인 소프트웨어엔지니어이자 아파치소프트웨어재단 멤버인 야콥 호만은 아파치 타조는 ASF에서 톱레벨 프로젝트로서 지위를 획득했다며 이는 기술의 핵심에 대한 커뮤니티 기반 개발의 놀라운 사례라고 밝혔다.
그는 타조는 그 자체로 훌륭하며, 아파치 하둡 생태계에서 큰 역할을 한다고 강조했다.
ASF 멤버이자 타조 인큐베이터 멘토였던 NASA 제트추진연구소의 크리스 매트만은 현재 제트추진연구소의 전파천문학 프로젝트와 공중눈관측소(ASO) 프로젝트의 빅데이터 쿼리 처리 및 스토리지에 아파치 타조의 적용여부를 고려하고 있다며 타조가 ASF 스파크, 메소스 등 빅데이터 스택과 함께 하게 돼 정말 기쁘다고 밝혔다.
기가옴의 데릭 헤리스 기자는 타조는 한국에 기반하고 있지만, 사용자들에게 대규모로 채택되면서 다크호스로 떠올랐다고 평가했다.
미국 실리콘밸리 현지에서 만난 한인 개발자는 일반 사람들에게 아파치 톱레벨 프로젝트 승격이 얼마나 힘든 것인지 와닿지 않을 것이라며 하루에도 수십, 수백개의 오픈소스 기술이 세상에 나오지만, 세계 최대 오픈소스 재단인 아파치 프로젝트나 리눅스재단 프로젝트에 등록되는 건 1년에 몇개 되지 않는다고 설명했다.
그는 그것도 소프트웨어의 변방인 한국에서 척박한 비즈니스 환경을 딛고 서서 이룬 성취란 점에서 찬사를 보내고 싶다고 강조했다.
관련기사
- 인텔, 클라우데라에 8천억 베팅…왜?2014.04.02
- 진화하는 빅데이터 실시간 분석 기술의 세계2014.04.02
- 오픈소스 빅데이터 DW엔진 타조0.2 공개2014.04.02
- 빅데이터, 기업시장 열어줄 열쇠는?2014.04.02
인큐베이터를 졸업해 톱레벨로 등록된 타조는 앞으로 전보다 자유롭게 프로젝트를 진행할 수 있게 됐다. 무엇보다 하둡 생태계의 핵심요소로 거론돼 각종 빅데이터 시스템 구축프로젝트에서 중요 검토사항으로 자리잡을 것으로 기대된다.
타조는 아파치 라이선스 V2.0의 적용을 받는다.