호튼웍스가 오픈소스 분산처리기술 하둡을 다양한 기업용 애플리케이션 작업에 적용할 수 있도록 하겠다는 듯을 분명히 했다. 아파치 하둡2.0 버전을 포함한 데이처 처리 플랫폼을 통해 엔터프라이즈 시장에서 광범위한 역할을 수행할 수 있다는 비전을 제시했다.
제프 마크햄 호튼웍스 기술 이사는 19일 서울 잠실 롯데호텔 '제10회 ACC' 현장에서 '하둡2.0과 빅데이터 플랫폼의 미래 너머'라는 주제발표를 통해 하둡 최신 버전이 기업 시장 요구에 알맞은 기능과 성능을 받쳐줄 수 있게 됐다고 강조했다.
마크햄 이사는 지난 2006년부터 지난해까지 하둡의 주된 역할이 웹스케일 배치 애플리케이션을 구현하는 용도에 머물러 왔다고 진단햇다. 시장 도입은 혁신가나 기술애호가, 얼리어답터나 비전가들 위주로 이뤄졌고 범용 솔루션을 원하는 일반 고객이나 회의론자들에게는 다가서지 못했다는 지적이다.
마크햄 이사는 그럼에도 하둡1.0이 너무 인기가 많았고 비용절감에 효과가 있어 널리 쓰였다며 하둡 소프트웨어 에코시스템이 생겨나 그 부족함을 메워줬다고 평했다.
올해부터 호튼웍스는 나머지 사용자 집단 가운데 선두권에 속하는 다수 조직들, 후발 기업체, 회의론자들에게도 하둡을 엔터프라이즈 애플리케이션용 데이터 플랫폼으로 제시할 수 있을 것으로 기대하는 모습이다. 최근 하둡 기술이 배치 작업 외에 양방향, 온라인, 스트리밍 등 여러 기업 업무에 맞게 진화하고 있다는 설명이다.
마크햄 이사는 하둡이 본래의도대로 일반 데이터센터와 IT현업에서 더 범용화된 플랫폼으로 쓰이기 위한 촉매제가 하둡2.0이라며 초기 하둡 용도는 배치 프로세싱이었다며 이를 맡은 맵리듀스가 꽤 훌륭했기 때문에 여러 프로그래밍 패러다임과 모델에서 이를 도입하려 했지만 모든 업무에 알맞지는 않았다고 말했다.
마크햄 이사는 지난달 호튼웍스에서 공개한 아파치 하둡2.0 기반 호튼웍스데이터플랫폼(HDP)이 복잡한 워크로드를 지원하는 '얀(YARN)', 양방향 쿼리를 지원하는 '테즈 기반 하이브(Hive on Tez)', 신뢰성을 보장하는 '풀스택 고가용성(HA)', 시점복원을 지원하는 '스냅샷', 다중데이터센터를 지원하는 '재해복구(DR)', 무중단 운영을 위한 '롤링 업그레이드'를 포함한다고 밝혔다.
마크햄 이사는 (하둡1.0을 도입한 인프라들이) 맵리듀스 작업시 효율을 위해 배치용과 쿼리용 등 용도별로 클러스터를 구별하는 건 결국 데이터베이스를 따로 관리해야 한다는 점에서 별로 좋지 않은 설계였다며 HDFS2.0에는 HA, 스냅샷, DR이 내장됐고, 여러개 노드를 클러스터에 포함하고 있어 지속적으로 운영과 동시에 업그레이드가 가능하다고 말했다.
얀은 하둡1.0에서 2.0으로 넘어오면서 추가된 하둡 클러스터 자원 관리 기술로 하둡파일시스템(HDFS) 위에서 돌아간다. 확장성(규모가변성), 기존 맵리듀스와의 호환성, 클러스터 활용도 개선, 분산환경에서 자바 이외에 파이썬, R, 루비 등을 지원하는 새로운 프로그래밍 모델, 비즈니스 환경에 알맞은 민첩성, 5가지가 장점으로 제시됐다.
얀 덕분에 과거 클러스터 자원 관리를 맡았던 맵리듀스는 하둡2.0에서 배치 업무에 집중할 수 있게 됐다. 이밖에도 하둡2.0에선 얀 기반의 새로운 워크로드용 API를 통해 맵리듀스와 별개로 다양한 업무를 처리할 수 있다.
또 마크햄 이사는 과거 맵리듀스는 잡트래커와 태스크트래커가 있어 클라이언트가 보낸 업무를 쪼개 서버당 메모리를 기준삼아 맵과 리듀스 과정으로 나눴는데, 얀이 생기면서 리소스관리자와 노드관리자가 그 역할을 대신한다고 설명했다.
하둡2.0에선 시스템 사용자가 고민하지 않아도 애플리케이션 설정에 노드 몇 개를 쓰겠다고 지정한 만큼 맵리듀스용 자원을 할당해 준다. 기존 요청한 자원에서 리듀스 작업은 요청한 자원을 받쳐줬지만 맵 작업에선 그런 요청이 무시된 경우가 많았다.
사용자가 하둡 인프라에서 맵리듀스 작업에 쓸 코어와 컨테이너, 메모리를 제어할 수 있게 된 것은 적잖은 변화라고 호튼웍스 측은 강조했다.
이어 마크햄 이사는 얀은 일종의 분산 레이어로, 하둡클러스터에서 배치와 인터랙티브 쿼리 등을 지원한다며 하둡1.0에서 하이브(Hive)로 쿼리를 지원했지만 인터랙티브하지 않았는데, 우리는 하둡2.0기반으로 이를 보완했다고 설명했다.
그에 따르면 하둡2.0에선 맵리듀스를 통한 배치, 피그(pig)를 통한 데이터플로우, 하이브(Hive)를 통한 SQL 처리, 캐스케이딩을 통한 기타 작업을 얀 기반으로 실행할 수도 있고 얀 기반 애플리케이션 실행 가속 엔진 '테즈(Tez)'를 통해 실행할 수도 있다.
호튼웍스는 하둡 플랫폼에서 관계형 데이터베이스(DB) 표준처럼 쓰이는 SQL문으로 데이터를 조회할 수 있는 방식으로 테즈 기반 하이브를 제안했다. 'SQL온하둡'이라고도 불리는 인터랙티브 쿼리는 하둡 플랫폼을 기업용 데이터웨어하우스(DW)처럼 다룰 수 있는 기술로 각광받는 중이다. 호튼웍스의 SQL온하둡은 '스팅거'라는 프로젝트로 알려져 있다.
마크햄 이사는 과거 하이브0.10 버전대비 100배 성능을 목표로 스팅거를 만들기 시작했는데 9개월만에 스팅거(페이즈3 버전, TPC-DS쿼리27 방식 기준) 190배를 실현해 초과달성했고 이후 목표는 (하이브의) SQL호환성을 늘리는 방향으로 확대됐다며 하둡 오픈소스 프로젝트에 SAP와 마이크로소프트가 여러 노하우를 지원해 네이티브로 분석 업무가 가능해졌고 스토리지와 디스크 저장 방법도 개선됐다고 평했다.
관련기사
- [제10회ACC]SAS, 빅데이터와 통계분석의 차이2013.11.19
- [제10회 ACC]맵알 "빅데이터, 단순함이 경쟁력이다"2013.11.19
- [제10회 ACC] 빅데이터 노리는 델, 스토리지 계층화 전진배치2013.11.19
- '퍼블릭 클라우드 경제학' 주목하라2013.11.19
호튼웍스는 얀과 스팅거를 묶어넣은 하둡2.0 기반 기업용 패키지 솔루션 '엔터프라이즈레디'를 만들어 내놨다. 현재 하이브는 0.12 버전이 최신이며 1개월 이내에 0.13 버전이 나올 것으로 예상될 정도로 빠른 업데이트가 이뤄지고 있다.
마크햄 이사는 우리가 빅데이터얘길 하는 이유는 오픈소스이고 저렴한 하둡 때문이라며 삼성전자, 이베이, 애플 등이 (하둡으로) 빅데이터를 활용하고 있다고 말했다.