클라우드 컴퓨팅이 빅데이터를 위한 중량감있는 플랫폼으로 급부상했다.
오픈소스 클라우드 플랫폼인 오픈스택은 최신 버전에서 하둡 클러스터 지원이 대폭 강화됐고 하둡 전문업체와 리눅스, 오픈스택 전문업체간 합종연횡에도 가속도가 붙었다.
마이크로소프트(MS)도 자사 클라우드 서비스 애저에서 빅데이터 지원을 계속해서 강화하는 추세다. 이에 따라 복잡한 하드웨어와 소프트웨어 튜닝 절차를 줄여주는 하둡온클라우드(Hahoop On Cloud)가 빠르게 확산될 것으로 전망된다.■오픈스택판 아마존EMR 등장
지난 16일 오픈스택재단은 오픈스택의 10번째 버전인 '주노(Juno)'를 공개했다.
오픈스택 주노에서 가장 눈에 띄는 부분은 '사하라(Sahara)'다. 사하라는 당초 사바나(Savanna)란 이름으로 진행됐던 하위 프로젝트로 하둡 클러스터 환경을 지원하기 위한 구성요소로 개발되고 있다. 개발 콘셉트는 오픈스택 딜리버리 전문업체 미란티스에서 주도했다.
오픈스택재단의 프로젝트 소개에 의하면, 사하라는 아마존웹서비스의 엘라스틱맵리듀스(EMR)다. 아마존 EMR은 AWS에서 하둡 플랫폼을 구동하는데 사용되는 서비스다. S3에 하둡분산파일시스템(HDFS)을 두고, 데이터 처리를 담당하는 맵리듀스 잡 처리를 아마존 EMR로 하는 것이다. 클라우드 기반 맵리듀스라 표현할 수 있다.
사하라는 이와 같은 콘셉트로, 하둡 클러스터 설치, 프로비저닝, 실행, 튜닝 등의 작업을 할 때 사용된다.
오픈스택 상에 구축된 하둡 환경을 설정하고 오픈스택 대시보드인 호라이즌이나 기타 서드파티 관리도구를 활용할 수 있다. 사전 정의된 하둡 배열 템플릿으로 빠르게 환경을 구현할 수 있다.
하둡 클러스터를 위한 가상머신(VM)은 노바로 생성하고, 스토리지는 스위프트를 사용한다. 전체 클러스터 구성은 오케스트레이션 요소인 '히트'로 한다. VM이미지는 이미지저장소인 '글랜스'에 올린다. 블록스토리지인 신더를 사용할 수도 있고, 사용자 접근 제한 및 인증은 키스톤으로 한다.
사하라는 궁극적으로 목표로 하는 기술은 애드혹(ad-hoc) 쿼리 처리지만 현재 프로젝트는 개발초기 단계다. 서비스형 빅데이터(Bigdata as a Service)'를 지향한다.
하둡2.0의 얀(YARN)을 지원하지만, 아직 다양한 데이터 처리 엔진을 지원하지 못한다. 애드혹 쿼리는 하이브나 피그 기반 처리만 가능하고, 주노부터 데이터처리엔진으로 '아파치 스파크(Spark)'를 지원하게 됐다.
오픈스택 주노의 데이터베이스 프로젝트인 트로브도 빅데이터와 관련돼 개선됐다. NoSQL인 몽고DB 클러스터 지원 기능이 추가됐다.
한편, 클라우데라는 하둡 클러스터 환경을 아마존웹서비스 환경에서 쉽게 관리할 수 있는 디렉터란 도구를 출시했다.
■빅데이터-OS, 오픈소스 거물들 제휴
주노 발표와 비슷한 시기에 오픈소스 진영의 거물급 회사 2곳이 손을 맞잡았다. 세계서 가장 높은 하둡배포판 점유율을 가진 클라우데라와 가장 많은 리눅스 매출을 올리고 있는 레드햇의 결합이다.
16일 클라우데라와 레드햇은 오픈소스기반 빅데이터 분석의 엔터프라이즈 시장 공략을 위해 협력한다고 밝혔다. 두 회사는 통합솔루션과 문서를 제공하며, 공동 마케팅과 공동 유지보수 서비스도 계획했다.
레드햇엔터프라이즈리눅스(RHEL) 오픈스택 플랫폼과 클라우데라의 디렉터, 엔터프라이즈 등이 통합되게 된다. 레드햇 클라우드폼즈가 하이브리드 클라우드 환경에서 클라우데라 하둡 환경을 관리하는 도구로 활용된다.
호튼웍스는 마이크로소프트(MS)와 연합을 강화했다. 호튼웍스는 마이크로소프트 애저에 호튼웍스데이터플랫폼(HDP)이 완벽히 인증을 받았다고 발표했다. HDP를 구축형으로 사용하다가 애저 환경으로 이전하는 하이브리드 경험을 누릴 수 있게 됐다고 호튼웍스는 강조했다.
관련기사
- 차세대 오픈스택 공개, 무엇이 달라졌나2014.10.20
- 구글, 하둡 맵리듀스 대체용 '데이터플로' 공개2014.10.20
- 클라우드 기반 하둡의 이점 3가지2014.10.20
- 클라우드 기반 하둡, 메가트렌드 되나2014.10.20
MS는 호튼웍스와 함께 개발한 애저의 HD인사이트 하둡 서비스가 아파치 스톰 프레임워크를 지원한다고 발표했다. HD인사이트를 배치 분석뿐 아니라 스톰을 활용한 스트리밍 분석에 사용할 수 있게 됐다.
애저 상의 HD인사이트로 개발된 테스트 하둡 환경을 사내에 구축된 HDP 클러스터로 옮기거나, 그 반대로 사내 구축된 HDP를 애저 상의 프로덕션 환경이나 백업 환경으로 이동하는 것도 가능하다.