3社3色 하둡 관리도구 빅3의 현재

일반입력 :2013/05/03 08:19    수정: 2013/05/03 10:19

빅데이터 분석을 위한 기반 인프라로 하둡이 표준으로 자리잡는 모습이다. 점차 하둡 인프라를 구축해 사용하는 기업이 늘어나면서, 인프라를 제대로 운영하게 도와주는 관리도구(매니지먼트)의 중요성도 부각되고 있다.

하둡은 대용량분산처리기술로 출발해 클러스터를 수천, 수만대까지 확장할 수 있게 발전했다. 단, 하둡은 개발자가 사용하긴 쉽지만, 인프라 운영 자체는 쉽지 않은 기술. 까다로운 인프라 구축이란 장애물을 넘은 다음엔 대규모 클러스터를 문제없이 관리·운영해야 하는 과제에 직면한다. 하둡 클러스터가 수십대 규모일 경우엔 운영에 큰 무리가 없지만, 수백대 단위로 커지는 경우 강력한 매니지먼트툴이 필요할 수밖에 없는 상황에 이른다.

하둡은 대용량 데이터의 수집, 저장, 처리, 분석 등에 해당하는 각종 요소기술이 생태계를 이루며 발전해왔다. 그러나 상대적으로 하둡인프라를 모니터하고, 쉽게 운영하면서, 빠르게 장애에 대응 할 수 있는 오픈소스 관리도구는 빈약한게 사실이다.

미국 서비스업체에선 이미 일반화된 하둡이지만, 미국 사용자들은 커맨드라인 입력이나, 조악한 수준의 오픈소스를 사용해 인프라를 관리한다. 이들은 그래픽인터페이스(GUI) 기반의 강력한 매니지먼트툴을 애타게 찾고 있다.

시장엔 이미 주요 하둡전문업체들의 매니지먼트툴이 나와있다. 하둡 본류를 자처하는 클라우데라의 ‘클라우데라 매니저’, 야후에서 떨어져나온 호튼웍스의 ‘암바리’, 한국하둡업체 그루터의 ‘클라우몬’ 등이 명성을 떨치고 있다. 본지는 작년 8월 3사의 관리도구를 비교한 바 있다(관련기사☞하둡전문 3사, 같은듯 다른 빅데이터 관리툴). 올해 3사는 관련 제품을 업그레이드하는 한편, 사업전략에 다소의 변화를 줬다.

■클라우데라 매니저

하둡 창시자 더그 커팅이 근무하는 클라우데라의 매니지먼트툴은 두 가지다. 클라우라하둡배포판(CDH)에 포함되는 오픈소스 'HUE'와, 더 많은 기능을 구현한 '클라우데라 매니저' 등으로 나뉜다.

HUE는 오픈소스로서 누구나 사용가능하지만, 제공되는 기능이 매우 제한적이다. 반면, 클라우데라 매니저는 하둡 환경에 대한 설정, 배포, 모니터링, 측정, 리포트 등 일련의 운영 및 관리를 통합적으로 할 수 있게 해주는 도구다.

클라우데라 매니저 4.0 버전은 CDH3와 CDH4를 지원하며, 레드햇 엔터프라이즈리눅스 5.7과 6.2 버전, 센트OS 5.7, 6.2버전, 오라클 리눅스5.6w, 수세리눅스엔터프라이즈서버11, 데비안6.0, 우분투 10.04, 12.04 등의 운영체제를 지원한다. 단 64비트 OS만 지원한다. 클라이언트는 인터넷익스플로러(IE) 8과 9 버전, 구글 크롬, 사파리5, 파이어폭스 3.6 이후 버전 등에서 이용가능하다. 백엔드 데이터베이스(DB)는 마이SQL, 오라클DB 10g와 11g, 포스트그레SQL 등을 지원한다.

클라우데라 매니저는 무료버전인 ‘클라우데라 엔터프라이즈 프리’와 유료버전 ‘클라우데라 엔터프라이즈 코어’ 등 2종류로 나뉜다.(버전별 제공 기능 비교표)

두 버전 모두 하둡 배포 자동화와 사전점검, API, 서비스 컨피규레이션 매니지먼트 등을 제공한다. HDFS, 맵리듀스, 플럼, HBASE, HUE, 임팔라, 우지, 주키퍼 서비스를 배포한다. 고가용성(HA) 및 페더레이션 설정, 컨피규레이션 자동화, 클라우이언트 컨피규레이션 관리, 감사추적(Audit Trail), 호스트추가, 서비스재시작 등의 워크플로 등을 이용할 수 있다.

유료버전을 구입해야 하둡 코어 서비스 모니터링이 가능하다. 버전 및 히스토리 관리, 서비스 모니터링과 관리 기능도 유료버전에서만 제공된다. 그밖에 백업 및 재해복구, 사전헬스체크, 상태요약, 히트맵/성능 모니터, 사용자정의차트, 호스트모니터링, LDAP 인증, 케르베로스 설정 같은 보안, 다중 클러스터 관리, 로그관리, 이벤트 관리, 경고, 운영 리포팅, 파일브라우저와 할당관리, 전역 시간 제어 등의 기능 역시 유료버전으로만 제공된다. 사실상 핵심 기능은 유료구매 후 이용가능한 셈이다.

무료버전은 작년까지 지원 호스트 수가 제한적이었지만, 그 규모에 제한이 사라졌다. 하지만 유료버전의 경우 서브스크립션 계약과 함께 설치 및 연간 사용 라이선스 비용을 지불해야 한다. 라이선스 금액은 노드당 약 4천달러 안팎으로 알려진다. 하둡 클러스터 100노드에 유료버전을 사용하면, 연간 4억원가량의 라이선스 비용이 필요하다. 라이선스를 지불하지 않으면 클라우데라 매니저 사용이 불가능하다.

■그루터 클라우몬

그루터 클라우몬은 국내기업이 만든 하둡 인프라 및 에코 시스템 관리도구다. 아파치 하둡 환경을 웹UI 기반으로 데이터 수집, 실시간 분석, 저장, 준실시간 배치 분석 등 전체 데이터 처리과정의 플랫폼을 통합 관리할 수 있다.(그루터 클라우몬 소개자료)

HDFS, 맵리듀스, 하이브, 우지, 주키퍼 등 개별 구성요소에 대한 모니터링 기능, 하둡 파일과 작업 관리, 주키퍼 노드 관리, 플럼의 데이터흐름 관리, 하이브의 쿼리 워크벤치 등을 제공한다.

클라우몬은 관리기능과 화면을 제공하는 톰캣기반 애플리케이션서버, 수집된 모니터링 데이터를 저장하는 마이SQL DB, 2가지로 구성된다. 애플리케이션서버는 각 구성요소 모니터링 정보를 수집해 DB에 저장한다. 관리자가 설정한 특정 항목 값이 임계치를 넘어가면 메일이나 SMS로 관리자에게 알려 준다. DB는 수집한 데이터와 설정 정보가 저장된다.

멀티클러스터 관리를 기본으로 하는데, 서버 장애, 특정 메트릭스 임계치 초과 시 알람, 임계치에 대한 서버별 설정. 통합된 환경설정관리 및 배포, 서버 그룹단위 환경설정, 분산된 서버의 로그를 하나의 뷰로 모니터하는 통합 로그관리, 하둡 파일 브라우저, 우지 워크플로 디자이너, 주키퍼 Z노드 브라우저, HBASE 데이터뷰어 등을 제공한다.

관리서버이면서 동시에 아파치 하둡의 하이브와 우지의 서버를 대신하기도 한다. 때문에 클라우몬 상에서 하이브의 데이터를 확인하고, '하이브QL' 쿼리를 날려 분석에 사용할 수도 있다.

아파치 하둡을 비롯해 CDH와 다양한 배포판을 지원한다. 그밖에 다양한 하둡 에코시스템을 사용자의 필요에 따라 추가해 관리할 수 있다.

운영체제는 리눅스, 윈도 등을 지원하며, 톰캣 6.X 버전의 웹서버와 DB로 마이SQL 5.0 이후 버전, 자바 버추얼머신 JDK6를 요구한다.

최근까지 그루터 클라우몬은 단일 제품으로 제공됐다. 그러나 이달부터 클라우몬 코어하둡(CH), 클라우몬 파워애널리틱스(PA), 클라우몬 익스텐션팩(EPs) 등 3종으로 분화됐다. 미국 등 해외 하둡 관리시장 진출을 위한 준비의 일환으로, 가격체계와 현지지원시스템도 마련중이다.

클라우몬CH는 HDFS, 맵리듀스, 하이브 등의 관리모듈이 포함된다. 클라우몬PA는 분석룰매니저, 스트리밍데이터프로세싱매니저, 인터랙티브분석쿼리매니저 등 분석 분야에 특화됐다. 클라우몬EPs는 우지, HBASE, 주키퍼, 플럼 등의 모듈까지 포함한다.

클라우몬 각 패키지의 라이선스 및 서브스크립션 비용은 클라우데라나 호튼웍스보다 절반 이상 저렴한 것으로 알려진다. 웹기반서포트를 기본으로 8×5 전화서포트, 24×7 응답시간 등의 SLA를 제공한다.

클라우몬은 원래 그루터 내부에서 사용하는 하둡 시스템을 관리하고 운영하기 위해 만들어졌다. 현존 하둡 생태계 내 매니지먼트툴로는 가장 오랜 역사를 갖고 있다. 그루터 내부는 물론, 국내기업 다수가 사용중이다.

권영길 그루터 대표는 “매니지먼트툴은 계속 발전하는 오픈소스 하둡의 코어 기술을 이해해야 탄탄하게 만들 수 있다”라며 “코어기술을 가진 회사만 정말 필요한 기능을 이해하고 제대로 구현하고, 하둡 생태계 발전에 따라 지속적으로 발전시킬 수 있기 때문”이라고 말했다.

권대표는 “하둡 본토라고 할 수 있는 미국에서도 클라우데라와 호튼웍스 외에 이렇다할 툴을 내놓지 못하는 게 그 증거”라고 덧붙였다.

그는 “저렴한 비용으로 대용량의 데이터를 빠르게 분석할 수 있는 하둡 인프라는 SLA 수준을 엔터프라이즈급으로 맞추려다보면 관리비용이 크게 증가하게 된다”라며 “강력한 매니지먼트툴은 SLA목표를 낮추더라도 인프라를 안정적으로 운영할 수 있게 해준다”라고 설명했다.

■호튼웍스 암바리

호튼웍스는 자사의 하둡 플랫폼인 호튼웍스데이터플랫폼(HDP)을 관리하는 도구로 아파치 암바리를 이용한다. 오픈소스 제품으로 이용 자체는 무료다.

HDP는 지난해 11월 호튼웍스가 분산 인프라용 데이터 처리 플랫폼으로 소개한 것이다. 아파치 하둡의 HDFS, 맵리듀스, 피그, 하이브, HBase, 주키퍼 등을 포함한다.(호튼웍스 암바리 소개 자료)

호튼웍스 HDP로 제공되는 암바리는 마법사 설치를 제공하며, 하둡 클러스터 설정, 배열 및 배포, 테스트 서비스 등이 그래픽기반 UI로 가능하다. 서비스 특화된 요약, 그래프, 알림 등을 더 의미있는 결과로 제공한다.

메트릭스 수집을 위한 갱글리아와 시스템 알람과 네트워크 관리을 위한 나기오스, 퍼펫 등에 통합가능하다. 이밖에 잡진단, 트러블슈팅, 클러스터 히트맵 등을 제공한다. 또한 마이크로소프트(MS) 시스템센터, 테라데이터 뷰포인트 등 현존 관리도구와 REST API로 통합할 수 있다.

클러스터 생성, 노드 추가, 서비스 선택, 호스트 할당, 마운트지점 선택, 개인화 설정, 배포 작업을 단계별로 진행해나갈 수 있다. 독립적인 서비스를 관리하고 클러스터에 슬레이브 노드를 추가하는 등 '클러스터 매니지먼트' 앱을 다루고 나기오스 기반 모니터링 대시보드를 열 수도 있다.

플럼은 지원하지 않고, 상대적으로 클라우데라 매니저에 비해 기능이 부족하다. 호튼웍스는 HDP를 통해 HA, 신뢰성, 속도 저하에 대한 시간예측과 장애자가복구 등의 기능을 제공한다고 설명했다.

암바리 최신버전은 1.2 이며, 1.3 버전 발표가 6월로 예정됐다. 암바리 1.3버전은 HBASE 멀티마스터 및 히트맵, 마이SQL 및 오라클DB 지원, HDFS 미러링을 통한 재해복구 서비스, 커베로스 시큐어 클러스터 관리, 스택업그레이드 관리, 용량스케줄러를 통한 멀티테넌시 서포트, 호스트레벨 컨트롤, 모바일 원결 마스터 서비스 등이 추가될 예정이다.

LDAP/AD 외부그룹 매핑, 잡다이어그노스틱 시각화 개선, HUE 지원 등이 1.3 이후버전에서 지원된다.

HDP 구동 환경은 64비트 리눅스 가운데 RHEL 5, 6 버전, 센트OS 5와 6 버전, 우분투, 데비안, 수세/SLES 등의 OS를 지원한다. 또한 1.2버전부터 MS 윈도를 업계에서 유일하게 지원한다. 퍼블릭 클라우드 서비스인 아마존웹서비스(AWS) EC2 상에서 이용할 수 있다는 점도 특징이다.

관련기사

이 플랫폼에서 SQL 비슷한 쿼리언어 '하이브'나 테이블 형식과 비슷한 데이터저장기술로 시스템간 데이터 공유를 간소화하는 'H카탈로그(HCatalog)'를 쓰려면 마이SQL DB를 써야한다. 기존 DB 인스턴스에 연결하거나 HMC 설치시 새로 생성 가능하다.

소프트웨어 사용에 대한 라이선스는 없다. 단, 기술지원을 위한 서브스크립션 계약이 필요하다. 서브스크립션 계약 시 비용은 클라우데라 매니저 사용 시와 비슷한 것으로 알려진다.