마침내 아파치 하둡 2.0이 완성됐다. 하둡 생태계의 운영체제가 제모습을 갖추고 빅데이터 기술의 대대적 변화를 예고했다.
16일(현지시간) 미국 지디넷 등 외신에 따르면, 아파치 소프트웨어 재단은 '아파치 하둡 2.0 GA버전의 완성을 알렸다.
하둡 2.0은 엔진에 얀(YARN)을 포함한다. YARN은 'yet another resource negotiator'의 약어로 맵리듀스 2.0으로도 불린다.
하둡분산파일시스테(HDFS) 상위에 존재하는 리소스 매니저로 빅데이터용 애플리케이션과 다양한 애플리케이션의 대규모 분산형 운영체제로 작동한다.
얀은 하둡 1.0에서 맵리듀스 내에 존재하던 관리 요소를 밖으로 빼냈다.
맵리듀스의 주요 기능을 작업 일정관리/모니터링과 자원관리 등으로 나눠 애플리케이션에 어떤 자원이 필요한지 모니터하고, 해당 앱에 CPU, RAM 노드로 구성된 컨테이너(Container)를 생성한다.
얀의 추가로 하둡은 맵리듀스 외에 여러 프로세싱 알고리즘을 쉽게 플러그인시킬 수 있게 된다. 맵리듀스에 의존하지 않는 다양한 데이터 프로세싱 엔진의 구동이 본격적으로 가능해진다는 의미다.
하둡 2.0 발표 전날 아파치 하이브 프로젝트도 새로운 버전인 하이브 0.12를 공개했다. 하이브는 하이브QL이란 유사 SQL 언어로 HDFS 데이터를 조회, 분석하는 애플리케이션이다. 맵리듀스 엔진에 의존하는 앱으로, 현재 맵리듀스 대신 테즈(Tez)가 개발되고 있으며, 하이브의 개선판인 스팅거가 개발되고 있다.
한국 개발자들이 주도하는 아파치 타조나 클라우데라의 임팔라 같은 엔진 역시 얀 아키텍처와 관련된다.
얀 아키텍처는 현재 클라우데라하둡배포판(CDH)에 반영돼 있다. 아파치 재단이 2.0 정식버전 완성에 앞서 얀의 코드를 선행공개했기 때문이다.
하둡 2.0은 개별 클러스터에 스케일을 추가해 4천대까지 확장할 수 있다. HDFS의 고가용성 기능이 구현됐고, 마이크로소프트(MS) 윈도를 지원한다. HDFS 스냅샷, HDFS의 NFS-v3 접근 등도 새로운 기능이다.
아파치 하둡 프로젝트 관리 위원회 회원인 애론 마이어스 클라우데라 엔지니어는 하둡2와 얀의 발표로 오늘 우리는 다음 단계를 얻었다라며 기본적인 멀티테넌시 고객을 넘어 배치와 인터랙티브, 리얼타임 워크로드를 혼합할 수 있게 됐다라고 밝혔다.
관련기사
- SK텔레콤 오픈소스SW 투자의 의미2013.10.17
- 인텔, 하둡SW 복제혐의 피소 '도둑질했다'2013.10.17
- 빅데이터, 기업시장 열어줄 열쇠는?2013.10.17
- 트위터, '스톰-하둡' 연동 기술 OSS로 공개2013.10.17
아파치 하둡 2.0의 릴리스 매니저인 애런 머시 호튼웍스 창업자는 하둡 2는 오픈소스 프로젝트의 중대한 혁명을 기록했다라며 열렬하고 헌신적인 개발자와 커미터가 더욱 탁월한 유용성과 안정성을 이 데이터 플랫폼에 불어넣었다고 강조했다.
빅데이터 관련업계는 하둡 2.0과 얀의 완성으로 전보다 더 빠른 속도로 다양한 앱이 쏟아져 나올 것으로 예상한다. 하둡 생태계를 중앙에서 관리하는 운영체제의 출현과 함께 엔터프라이즈 시장의 하둡 채택도 본격화될 것으로 기대한다.