국내외서 빅데이터 비즈니스 환경에 대응하려는 움직임들이 많으면서도 실제 유명 사례를 보면 기존 온라인분석처리(OLAP)나 데이터웨어하우스(DW) 환경에 비정형데이터 대응 최적화나 실시간 소셜미디어분석 확장과 같은 이질적인 환경을 연결해 끌어낸 성과를 강조하는 경우가 많다. 그 사용자는 대개 전통적인 관계형 데이터베이스관리시스템(DBMS)과 비즈니스인텔리전스(BI)를 써온 기업들이다. 이들을 고객으로 둔 상용 솔루션 업체들이 최근 빅데이터 시나리오에서 '사례 확보'에 앞장서는 모습이다.
이가운데 하둡은 빅데이터 정의를 이루는 데이터 크기와 처리속도와 다양성 조건, 3가지를 저렴한 방식으로 대응할 수 있는 오픈소스 분산처리 기술로 알려졌다. 오픈소스 기술의 특성상 업계 관심이 높을수록 자발적으로 지원하려는 개발자들로 커뮤니티가 발달하고 빠른 발전을 이끌 수 있다. 하지만 그대로 둔다고 기업에서 원하는 안정적이고 편리한 제품으로 구현되는 건 아니다. 하둡에 대한 지명도는 높더라도 실제 사용 사례는 거의 알려지지 않은 이유다.
국내외 기업들이 상용솔루션보다 낯설어하는 하둡을 도입하고 적용할 수 있도록 기술과 서비스를 공급하겠다고 나선 벤처들이 있다. 이들은 주로 오픈소스로 하둡 기반의 빅데이터 처리 플랫폼을 구현해 제공하며 이를 다루기 위한 기술뿐아니라 현업에 적용하기 위한 컨설팅, 실무자를 위한 교육, 기술적 문제에 대응하기위한 대응 서비스를 구성해 사업을 운영한다. 기업들이 직접 또는 업체들이 그 필요에 따라 하둡 플랫폼을 관리하기 위한 기술도 일부 제품화된 상태다.
국내 업체 그루터의 '클라우몬', 외국 회사 클라우데라의 '클라우데라 매니저', 포털업체 야후에서 갈라진 벤처 호튼웍스의 '호튼웍스 매니지먼트 센터' 등이 이 시장에서 움직이고 있다. 모두 하둡 데이터 플랫폼 운영 노하우를 근간으로 활동한다는 점은 동일하지만 각자 상이한 지원 환경, 플랫폼 관리도구, 솔루션을 제공해 눈길을 끈다. 상용 솔루션 업체들에 비해 잘 알려지지 않았던 3사의 하둡 관리툴 구성과 내용을 간단히 소개한다.
■그루터 클라우몬 오픈소스지만 엔터프라이즈 버전은 따로
클라우몬은 국내 하둡솔루션 전문 기업인 그루터가 만든 하둡과 하둡 에코 시스템 관리도구다. 개별 구성요소에 대한 모니터링 기능, 하둡 파일과 작업 관리, 주키퍼 노드 관리, 플럼의 데이터흐름 관리, 하이브의 쿼리 워크벤치 등을 제공한다. 회사의 빅데이터플랫폼 솔루션 'BAAS'와 연동, 웹UI 기반으로 데이터 흐름 제어, 실시간 또는 배치 분석 질의 관리, 분석 결과 조회도 가능하다.
그루터에 따르면 클라우몬을 이용해 하둡과 하둡 에코 시스템 기반의 빅데이터 플랫폼을 통합 관리할 수 있다. 하둡과 하둡 에코 시스템은 대부분 오픈소스로 구성돼 있고 빅데이터 처리에 안정적인 소프트웨어 스택이지만 각 솔루션 관리와 모니터링 기능이 취약하다. 단일 관리도구로 이들을 통합 관리하기란 쉽지 않다는 설명이다. 여타 오픈소스 모니터링 도구는 단순 모니터링만 지원하고 하둡 에코시스템 내 일부 솔루션과 연동되지 않는다고 한다.
클라우몬은 관리기능과 화면을 제공하는 톰캣기반 애플리케이션서버, 수집된 모니터링 데이터를 저장하는 마이SQL 데이터베이스(DB), 2가지로 구성돼 있다. 애플리케이션서버는 각 구성요소 모니터링 정보를 수집해 DB에 저장한다. 관리자가 설정한 특정 항목 값이 임계치를 넘어가면 메일이나 SMS로 관리자에게 알려 준다. DB는 수집한 데이터와 설정 정보가 저장된다.
클라우몬은 원래 그루터 내부 시스템을 관리하고 운영하기 위해 오픈소스로 만들어졌다. 내부에서 계속 사용중이며 기능 개선, 솔루션 추가, 업그레이드를 꾸준히 해왔다고 자부한다.
회사는 오픈소스판 클라우몬 사용자 인터페이스(UI)를 개편하고 하둡뿐아니라 하이브, 플럼, 주키퍼 등 여러 솔루션 관리기능을 더해 엔터프라이즈 버전을 만들었다. 국내 기업인 그루터에 따르면 아직 우리나라 시장이 오픈소스 솔루션으로 사업하기가 쉽지 않다는 특성 때문이라고 이유를 밝혔다. 엔터프라이즈 버전을 국내 판매시 그루터는 하둡과 하둡 에코시스템에 대한 컨설팅도 같이 제공한다고 덧붙였다.
■클라우데라 매니저 오픈소스, 엔터프라이즈판은 서브스크립션 방식
클라우데라 매니저는 '하둡용 클라우데라 배포판(CDH)' 환경을 관리하는 도구다. CDH 개발사 클라우데라가 자사 하둡 배포판을 배포, 설정, 모니터링, 측정과 리포팅하기 위해 만들었다. 하둡 인프라 서비스 및 설정 관리, 사전점검이나 상태요약같은 서비스 모니터링, LDAP인증과 케르베로스 설정같은 보안, 다중 클러스터 관리, 로그 관리, 이벤트 관리와 경고, 운영 리포팅, 파일브라우저와 할당 관리, 전역 시간 제어 기능을 제공한다.
클라우데라에 따르면 클라우데라 매니저를 이용해 어떤 분산 컴퓨팅 또는 스토리지 플랫폼으로든 하둡 스택을 운영 관리 배포하면서 어려움과 소요시간을 줄일 수 있다. 이와 더불어 자동화된 설치 프로세스로 애플리케이션을 구성하거나 실행중인 노드와 서비스를 클러스터 단위로 실시간 보기도 할 수 있다. 중앙화된 단일 콘솔에서 클러스터에 설정을 적용하고 성능과 기능을 최적화하기 위한 측정 도구와 포괄적인 리포팅을 구성 가능하다.
회사는 기술명세서에 클라우데라 매니저가 64비트 리눅스로만 돌아간다고 명시했다. 클라우데라 매니저 3 버전대는 CDH3를 써야 한다. 레드햇엔터프라이즈리눅스(RHEL) 5와 6, 센트OS 5와 6, 오라클리눅스5.6 언브레이커블 엔터프라이즈 커널, 수세리눅스 엔터프라이즈 서버 11 서비스팩(SP)1 이상에서 구동된다. 클라우데라 매니저 4 버전대는 CDH3외에 CDH4도 쓸 수 있다. RHEL 5.7과 6.2, 센트OS 5.7과 6.2에 호환되며 데비안6.0, 우분투10.04와 12.04를 추가 지원한다. DB도 마이SQL뿐아니라 오라클10g와 11g, 포스트그리SQL로 쓸 수 있다.
클라우데라 역시 자사 솔루션을 무료 버전과 엔터프라이즈 에디션, 2가지로 내놓고 있다. 공짜로 내려받을 수 있는 프리에디션은 최대 지원 규모가 50노드까지고 포괄하는 기능도 제한돼 있다. 애플리케이션프로그래밍인터페이스(API)나 자동 배포 및 하둡 준비도 점검 기능, 하둡파일시스템(HDFS)엔터프라이즈판과 똑같이 쓸 수 있지만 하둡 인프라 서비스 및 설정 관리 외 부가기능은 엔터프라이즈 에디션을 서브스크립션 방식으로 구입해야 한다.
■호튼웍스 매니지먼트 센터 데이터 플랫폼에 딸린 거, 공부해서 쓰라
호튼웍스 매니지먼트 센터(HMC)는 회사의 오픈소스 하둡 인프라 솔루션 '호튼웍스 데이터 플랫폼(HDP)'에 딸린 관리툴이다. HDP는 지난해 11월 호튼웍스가 분산 인프라용 데이터 처리 플랫폼으로 소개한 것이다. HDFS, 맵리듀스, 피그, 하이브, H베이스, 주키퍼를 포함하는 아파치 하둡 프로젝트 기반이다. 즉 HMC는 무료로 내려받아 쓸 수 있는 HDP 안에 포함돼 있다.
HMC도 아파치 하둡 프로젝트에 포함된 설치 관리 도구 '암바리'를 기반으로 나왔다. HMC는 하둡 운영환경을 위한 직관적인 모니터링 솔루션을 제공한다고 묘사된다. 모니터링을 위한 '갱글리아(ganglia)'나 네트워크 관리도구 '나기오스(nagios)'같은 오픈소스툴처럼 하둡에서 제공된 자료를 통합해 서비스 특화된 요약, 그래프, 알림 등 더 의미있는 결과로 제공한다는 설명이다. 또 그에 따르면 사용자는 HDP를 내려받아 간단한 따라하기 방식을 진행해 하둡 클러스터를 설치하고 설정할 수 있다. HDP 환경에서 사용자는 단추 누르기 한 번으로 노드가 배포된 모든 내역을 살펴보고 사용량까지 내다본다.
HDP에서 HMC를 통해 클러스터 생성, 노드 추가, 서비스 선택, 호스트 할당, 마운트지점 선택, 개인화 설정, 배포 작업을 단계별로 진행해나갈 수 있다. 독립적인 서비스를 관리하고 클러스터에 슬레이브 노드를 추가하는 등 '클러스터 매니지먼트' 앱을 다루고 나기오스 기반 모니터링 대시보드를 열 수도 있다. 오픈소스이자 플랫폼에 종속된 프로젝트라 상용화된 타사 솔루션에 비해 기능이 덜 다양해 보인다. 다만 회사는 HDP가 고가용성(HA) 기능을 지원하는 유일한 하둡1.0 배포판이라 엔터프라이즈 규모에서 HDFS 데이터를 다룰 때 신뢰성을 보장하며 또한 클러스터상의 작업이 속도 저하에 대한 시간예측과 장애로 멈출 서비스를 자가복구할 수도 있다고 주장한다.
관련기사
- 클라우데라, IBM과도 협력…하둡 표준 되나2012.08.29
- "한국 빅데이터 시장 왜곡되고 있다"2012.08.29
- 그루터 "빅데이터, '맨땅에 헤딩' 필요하다"2012.08.29
- 호튼웍스 데이터 플랫폼, '하둡' 기업시장 구애2012.08.29
공식적으로 지원되는 HDP 구동 환경은 64비트 리눅스 가운데 RHEL 5 버전대와 6 버전대, 센트OS 5 버전대와 6 버전대로 제한적인 편이다. 그리고 이 플랫폼에서 SQL 비슷한 쿼리언어 '하이브'나 테이블 형식과 비슷한 데이터저장기술로 시스템간 데이터 공유를 간소화하는 'H카탈로그(HCatalog)'를 쓰려면 마이SQL DB를 써야한다. 기존 DB 인스턴스에 연결하거나 HMC 설치시 새로 생성 가능하다.
야후 하둡 담당부서가 독립해 나온 호튼웍스는 아파치 하둡 관리자 교육과정도 운영하고 있다. 기업 IT운영자 대상으로 하둡클러스터를 배포 관리하는 방법을 알려 주는 내용이다.