美 하둡 회사는 왜 집중투자를 받는가

일반입력 :2013/08/02 08:27    수정: 2013/08/02 09:10

최근 미국은 벤처캐피탈의 투자유치로 호황기를 맞았다. 그중에서도 벤처캐피탈의 자금은 빅데이터와 하둡 전문업체에 집중되는 양상이다.

그중 하둡전문업체 클라우데라, 호튼웍스 등은 대규모 투자를 수차례 유치하며 급속도로 사세를 키우고 있다. 투자자의 눈이 두 회사에만 머물렀다고 여겨질 만한 집중투자다. 다양한 회사가 셀 수 없이 존재하는 미국 실리콘밸리에서 유독 투자가 일부에 집중되는 모습은 의아할 정도다.

시장성장 속도가 급격한 빅데이터 분야에서 특정 하둡전문업체에 몰리는 투자는 눈여겨볼 대목이다.

■클라우데라·호튼웍스·맵R, 미국 3대 하둡회사

미국 투자자들의 하둡전문업체에 대한 집중투자는 그 기술적 특수성에서 기인한 바 크다. 오픈소스 소프트웨어인 하둡은 전문가 사이에서도 까다로운 기술로 정평이 나 있다. 무수한 시행착오와 경험을 쌓지 않고 코어 기술을 쌓는다는 건 거의 불가능하단 게 통설이다.

이 때문에 빅데이터를 활용하고자 하는 기업에게 하둡의 온전한 이점을 제공하는 건 경험과 경쟁력을 축적한 몇몇 업체에게만 가능한 일이다. 결국 투자자들의 눈도 진짜 경쟁력을 갖췄다는 회사에 몰리는 건 당연하다.

지난 6월말 호튼웍스는 5천만달러 투자를 받았다고 밝혔다. 2011년 야후에서 분사한 호튼웍스의 사업 첫해인 작년 매출액은 1천800만달러다. 1년 매출의 3배에 육박하는 투자금을 유치한 것이다.

호튼웍스보다 좀더 이른 2008년 설립된 클라우데라는 2009년 6월 600만달러, 2010년 10월 2천500만달러, 2012년 12월 6천500만달러 등의 투자금을 유치했다. 설립 첫해 1억4천만달러 투자를 받아 창업한 이래 해를 거듭할수록 더 많은 자본금을 유치하고 있다. 클라우데라의 작년 매출액은 6천100만달러였다. 그 이전 해보다 3배 성장한 것이었다.

2009년 설립된 맵R테크놀로지스는 지난 5월 3천만달러 투자를 유치했다. 이 회사가 지난 3년간 모집한 투자금은 5천900만달러다. 맵R의 지난해 매출액은 2천300만달러로 클라우데라와 마찬가지로 1년만에 3배 성장했다.

클라우데라, 호튼웍스, 맵R 등은 현재 미국시장에서 오픈소스 하둡의 코어기술을 보유하고, 자유자재로 하둡 인프라를 구축해줄 수 있는 손꼽히는 회사로 평가된다.

현지에선 사실상 세 회사 외엔 하둡 코어기술을 가진 회사가 없다고 본다. 야후의 CTO였던 레이미 스타타가 지난 6월 설립한 알티스케일을 네번째 하둡전문회사 후보로 주목하는 상황이다.

■진짜 하둡으로 불리는 조건 ‘커뮤니티 기여도’

매년 수억달러 규모의 매출을 빅데이터 시장에서 거둬들이는 IBM, 오라클, 테라데이타, HP 같은 회사조차 하둡에 있어선 3 회사와 협력한다. 클라우데라, 호튼웍스, 맵R에 밉보이면 하둡과 빅데이터 사업을 포기해야 한다고 여길 정도란 후문이다.

IBM은 이미 빅인사이트란 자체 하둡 배포판을 만들었고, 올해들어 EMC 자회사인 피보탈이 피보탈HD란 배포판을 내놨으며, 인텔도 배포판을 내놨다. 그럼에도 전세계서 빅데이터를 고민하는 영미권 기업들은 클라우데라와 호튼웍스, 맵R을 먼저 고민한다. DB에 잔뼈 굵은 오라클은 자체 하둡 배포판조차 내놓을 기미를 보이지 않는다.

하둡의 탄생은 2005년으로 거슬러 올라간다. 8년의 시간과 클라우데라의 설립연도인 2008년을 감안하면 여태까지 오직 3개 회사만 하둡전문회사로 대접받는다는 게 놀랍다.

하둡전문회사를 평가하는 기준은 확실하지 않다. 아직 10억달러 규모 시장에서 매출을 논하는 건 무의미하다. 보유 레퍼런스도 시장초기란 점과 대외비가 많다는 점에서 참고사항이 못 된다. 보유 직원수도 내부 기술력을 가늠하기 어렵다는 점에서 판단근거에 부족하다.

클라우데라와 호튼웍스, 맵R 등은 아파치재단 하둡 프로젝트에 등록된 커미터의 규모를 강조한다. 커미터는 아파치 프로젝트를 이끄는 개발자다. 이들은 오픈소스 하둡의 발전을 주도하는 인물 다수가 자신들의 회사에서 근무하고 있고, 그 역량이 제품과 서비스에 반영된다는 점을 부각시키고 있다.

올해 2월 EMC 피보탈이 자체 하둡 배포판을 내놓으며 클라우데라, 호튼웍스, 맵R 등에게 좌우되는 시장을 흔들 의지를 보였다. 피보탈은 그린플럼의 MPP와 하둡의 아키텍처를 결합해 대화형 SQL쿼리분석을 가능케하는 호크란 기술도 공개했다. 동시에 세계최고의 하둡배포판이라고 홍보했다.

이에 호튼웍스가 피보탈과 EMC에 돌직구를 날렸다. 그린플럼이란 상용 시스템에 의존하는 하둡이 진짜 하둡이냐는 질문이었다. 결국 오픈소스 하둡을 사용하면서도, 고가의 피보탈 상용SW를 사용해야 한다는 비난이 이어졌다.

피보탈은 회사내에 300명의 하둡 관련 엔지니어를 보유했다고 강조했다. 이에 호튼웍스 엔지니어는 블로그를 통해 와우, 하둡에 그토록 많은 엔지니어가 있다니라며 그 엔지니어의 다수가 오픈소스 아파치 하둡 프로젝트에 포함된 사람들이 맞느냐고 지적했다.

그는 300명 중 아파치 하둡, 하이브, 피그, HBASE 프로젝트서 활동하는 커미터는 얼마나 되느냐고 거듭 질문했다.

사실 호튼웍스 엔지니어의 질문은 실리콘밸리 한 벤처캐피탈의 존 퓨리에란 CEO가 트위터로 던진 질문이었다. 퓨리에는 EMC 그린플럼은 세계서 가장 큰 하둡 엔지니어팀을 가졌다고 주장하는데, 얼마나 많은 프로젝트 커미터가 있는가라고 질문했다.

이에 피보탈의 도날드 마이너가 우리의 하둡 프로젝트와 내부 프로젝트, 필드 프로젝트 등에서 일하고 있다고 답했다.

그러나 호튼웍스 엔지니어는 재빨리 하둡, 하이브, 피그, HBASE의 커미터를 확인했지만 아파치 프로젝트에 기여하는 EMC 엔지니어는 한명도 볼 수 없었다라며 결국 300명은 EMC 소유 기술을 위해 일하고 있는 것이다라고 강조했다.

하둡과 커미터의 문제는 저자와 편집자의 구분에서 생각할 수 있다. 오픈소스인 하둡은 누구나 소스코드를 수정할 수 있지만, 그 수정안이 프로젝트에서 채택될 가능성은 낮다. 커미터는 오픈소스에서 사실상 저자와 같은 존재다. 무수한 개발자가 참여하지만, 가장 많은 기능추가와 버그수정, 리뷰, 변경사항 승인 등이 커미터에 의해 이뤄진다.

하둡은 여전히 오픈소스 커뮤니티 주도로 발전되는 기술이다. 때문에 커뮤니티서 개발되는 기술을 주도하는 커미터의 존재는 막강한 파괴력을 갖는다. 보유 커미터의 수나, 혹은 패치 기여 실적은 클라우데라와 호튼웍스, 맵R의 평가를 가늠하는 척도가 된다.

하둡의 코어를 직접 작성하는 개발자를 보유한 회사와, 커뮤니티서 나오는 코드를 받아 활용하는 개발자만 보유한 회사가 하둡 전문회사를 가르는 기점인 셈이다.

정확한 숫자를 밝히지 않지만, 2011년 아파치 하둡에 대한 패치 기여를 한 비중을 보면 클라우데라가 19%로 가장 많다. 호튼웍스가 그 다음인 16%를 차지한다. 그외엔 야후(14%), 페이스북(13%) 순이다. 이같은 추세는 현재도 크게 다르지 않다.

아파치 하둡의 프로젝트는 약 1천200개에 달한다. 실제 개발에 기여하는 회사도 80개 이상이다.

■하둡, 리눅스·마이SQL의 재림인가

하둡과 그 핵심 기술력을 가졌다고 평가받는 극소수의 회사. 이는 리눅스와 마이SQL을 떠올리게 한다. 레드햇은 수많은 리눅스 회사중 1조원 매출을 올리는 유일한 회사로 성장했다.

수많은 회사가 대기업을 겨냥한 리눅스 ‘엔터프라이즈 리눅스’를 내세웠지만, 현재 기업시장의 리눅스는 레드햇엔터프라이즈리눅스(RHEL)가 대세를 이룬다. 기업에서 안정적으로 사용하면서, 수준높은 기술지원 서비스를 받을 수 있는 리눅스전문회사로 레드햇을 인정했기 때문이다.

마이SQL도 마찬가지다. 1995년 오픈소스로 탄생한 마이SQL은 현재 세계서 가장 널리 쓰이는 데이터베이스(DB)다. 마이SQL AB에서 시작해 썬마이크로시스템을 거쳐 현재는 오라클이 지적재산권을 보유했다. 그런데 마이SQL을 사용하는 대기업들도 전문가의 도움을 원하고, 결국 오라클의 유료 기술지원서비스를 구매한다.

2009년 오라클의 폐쇄적인 라이선스정책에 불만을 가진 마이SQL 창시자 마이클 몬티 와이드니우스와 동료들이 마리아DB란 클론 DBMS를 만들어냈다. 마리아DB는 마이SQL과 거의 유사하다는 평가를 받는데, 스카이SQL이란 회사가 마리아DB에 대한 기술지원을 제공하며 승승장구하고 있다. 이들은 마이SQL 기술지원을 원하는 회사를 찾아가 기술지원서비스를 제공하기도 하며, 마리아DB로 교체할 것을 권한다.

리눅스와 마이SQL 모두 누구나 쓸 수 있지만, 제대로 활용하기엔 까다롭다. 결국 핵심기술력을 보유한 회사가 시장의 호응을 받고 거의 독점적인 지위를 차지한다는 점을 보여준다. 하둡도 같은 맥락에서 핵심기술력이 시장진입의 높디높은 장벽으로 작용한다. 이것이 미국에서 극소수만 하둡전문회사로 평가받고, 간판만 가진 하둡전문회사가 난립하지 못하는 이유다.

■한국은 언제부터 하둡 선진국이었나

이런 현상은 최근 한국에서 하둡전문업체라 자칭하는 회사가 우후죽순처럼 등장하는 상황을 되돌아보게 한다. 하둡의 본토란 미국에서조차 몇몇 유명회사만 대접을 받는 상황에서 과연 얼마나 제대로 된 하둡전문회사가 한국에 존재하고 있는 것일까 되돌아볼 일이다.

최근 한국엔 너도나도 하둡전문회사라며 명함을 내미는 상황이다. 그러나 아파치 하둡 여러 프로젝트에 커미터로 이름을 올린 한국회사는 익히 그루터, KT넥스알 정도에 불과하다. 코어기술을 보유했는지 따져볼 때 대부분 클라우데라의 단기유료교육수료증 보유자만 고용한 회사다.

관련기사

사실상 하둡 핵심기술력은 갖지 못했기 때문에, 시스템 구축 후 안정적인 유지보수와 오픈소스 하둡의 발전을 지속적으로 반영해 줄 능력이 없다.

국내에서 수년째 하둡을 활용해 내부 인프라를 운영했던 회사의 한 개발자는 “갑자기 등장한 하둡전문회사들을 선택한다면 결과적으로 뼈를 깎는 노력을 거쳐 내부에 기술역량을 보유해야 성공할 것”이라며 “그렇지도 않다면, 앞으로 얼마나 더 발전할지 모르는 아파치 하둡의 2013년 버전에만 갇혀 있을 수밖에 없게 될 것”이라고 경고했다.