다양한 속성의 데이터를 분석하려는 기업이 늘어나면서 그를 뒷받침하는 인프라로 하둡이 각광받고 있다. 삼성전자, 현대자동차, 포스코 등이 하둡 도입을 위해 검토작업에 돌입한 가운데, 엔터프라이즈 하둡이란 단어가 유통되는 모습이다.
엔터프라이즈란 일반적으로 대형 기업에서 사용한다는 의미와 함께, 높은 안정성과 가용성, 보안성 등을 보장한다는 뜻을 갖는다. 다시말해 서비스수준협약(SLA)이 가장 높다는 것이다. 엔터프라이즈 하둡은 오픈소스이면서도 미션크리티컬 애플리케이션 수준의 SLA를 보장한다는 것을 뜻한다.
아파치 재단의 오픈소스 하둡은 서비스에서 태어난 기술이다. 인터넷 서비스 제공을 위한 ‘수단’으로 개발된 만큼 완성도는 높지 않다. 개발자가 자신에게 필요한 부분만 개발하고, 그로써 만족하기 때문이다. 광범위한 오픈소스 생태계 속에서 빠른 속도로 다양한 기능과 구성요소를 확보했지만, 근본적으로 서비스를 위한 인프라 관련 기술이지 솔루션은 아니란 점은 동일하다.
여기서 하둡이 개발된 목적을 되새겨볼 필요가 있다. 하둡 같은 분산처리기술은 적은 비용으로 대용량의 데이터를 저장하고, 쉽게 활용하기 위해 고안됐다. 적은 돈을 들여 최대효과를 기대하므로, 기본적으로 고비용 구조를 지양한다. 하둡 역시 값싼 장비에서도 성능을 최대한 발휘하고, 대용량 데이터에 초점을 맞춰 스케일업보다 스케일아웃에 집중해 설계됐다.
엔터프라이즈 하둡은 통념에 따라 고비용 구조다. 적은 비용 때문에 각광받는 하둡이 고비용 구조를 갖게 되는 모순에 처하는 것이다.
■싸서 뜬 하둡도 엔터프라이즈만 가면 비싸진다
엔터프라이즈 하둡은 빠르고, 안정적이란 뜻을 내포한다. 때문에 성능좋고 비싼 하드웨어 장비와, 세밀한 유지보수 및 운영지원 서비스 등을 활용하게 된다. 저사양 x86서버 대신 고가의 RISC칩 유닉스 서버를 사용하고, 운영체제(OS)는 레드햇엔터프라이즈리눅스(RHEL) 같은 최고가 리눅스를 사용한다. 여기에 숙련된 운영인력을 추가로 아웃소싱한다.
앞서 밝힌대로 하둡은 비용 관점에서 가장 적은 돈을 들여 가장 많은 데이터를 활용하게 해주는 도구다. 그런데 엔터프라이즈 하둡은 가격대비 최대성능이란 근원적 이점을 완벽히 사라지게 만든다.
처음 엔터프라이즈 하둡이란 단어를 사용한 곳은 기존 솔루션 벤더들이다. IBM, 오라클, 테라데이타, EMC 같은 데이터웨어하우스(DW) 솔루션업체들은 오픈소스 하둡의 안정성 부족과 관리의 어려움을 지적하며, ‘엔터프라이즈 하둡’이란 용어를 강조했다.
이는 하둡이란 기술이 인터페이스는 어렵지 않은 반면, 구축 후 운영이 어렵다는 점에서 기인한다. 데이터 수집, 처리, 저장, 분석에 이르는 과정에서 다양한 변수가 존재하고, 작은 문제가 전체 시스템 과부하로 이어질 수도 있다.
그에 클라우데라, 호튼웍스, 맵R 같은 하둡전문회사들이 하나둘 설립되고, 하둡이 일반 대형기업들의 관심을 본격적으로 받게 되면서 엔터프라이즈 하둡은 화두로 떠올랐다. 까다로운 대기업 고객의 입맛에 맞추기 위해 하둡전문회사들도 엔터프라이즈급이란 단어를 사용하기 시작했다.
하둡을 전문으로 다루는 회사들은 엔터프라이즈급이란 SLA를 보장하기 위해 플랫폼을 고도화하고, 관리 기능을 강화했다. 시스템 설정과 배포, 모니터링, 트러블슈팅 등을 쉽게 할 수 있는 매니지먼트툴을 개발하거나, 재해복구 및 백업, 고가용성(HA) 등의 기능을 플랫폼에 추가하는 경우다.
문제는 이런 전문회사가 내놓은 엔터프라이즈급 하둡 플랫폼 역시 고비용 구조를 수반한다는 점이다. 클라우데라의 엔터프라이즈코어를 구매할 경우 연간 SW 라이선스와 서브스크립션 비용은 노드당 4천달러(400만원) 수준에 이른다.
■엔터프라이즈급 SLA에 하둡 쓰려면…
일반적인 대기업 SLA를 기준으로 하둡 시스템 10노드를 구성할 경우 구축 및 운영비용을 산출해보자.
리스트프라이스 기준으로 4소켓 x86서버 구매에 1억원가량의 비용이 필요하다. 여기에 OS로 레드햇엔터프라이즈리눅스(RHEL)를 설치하고, 프리미엄 서브스크립션을 구매하면 노드당 6천498달러(약 722만원), 약 7천만원의 유지보수비용이 연마다 지출된다. 하둡은 클라우데라 엔터프라이즈코어의 SW비용 4천만원이 추가된다.
네트워크 장비와 하드디스크, 운영을 위한 아웃소싱업체와 계약비용까지 더하면 첫해에 약 3억~4억원의 비용이 필요하다. 초기 구매비용 외에 연마다 소요되는 서브스크립션 비용이 수억원대다. 단순계산으로 엔터프라이즈 하둡은 투자대비수익률(ROI) 검토 측면에서 도입하기 힘들다는 결론이 나온다.
하둡 개발자들은 값비싼 하드웨어와 높은 SLA를 유지하려 한다면, 굳이 하둡을 사용하는 의미가 없다고 지적한다. 비싼 장비에서 하둡을 운영할 바엔 그냥 데이터웨어하우스(DW)를 사용하란 얘기다.
이들에 따르면, ROI 관점에서 엔터프라이즈 하둡은 거론할 가치도 없다.
그럼에도 엔터프라이즈 하둡이 거론되고 검토되는 건 분명 시장 개화의 조짐이 대기업 시장에서 나타나고 있다는 걸 보여준다. 하둡전문화사 입장에서도 대기업 시장에 진입해야 사업의 영속성을 보장받을 수 있다는 계산의 발로로도 볼 수 있다. 대형 기업의 하둡 도입의사가 강하다는 방증이기도 하다.
실제 미국 시장의 경우 하둡전문회사의 매출은 생각보다 안정적이지 않다. 대기업 사이에 엔터프라이즈 하둡의 비용구조 상 도입가치가 높지 않다는 판단이 퍼지고 있다는 후문이다.
현재 사용자는 더 저렴한 비용으로 하둡을 사용하고 싶어한다. SW를 판매하는 회사는 어떻게든 수입을 보장받고 싶어한다. 양측의 입장이 대립되면서 엔터프라이즈 하둡은 거론되는 수준에 그치는 상황이다.
■SLA 낮추고, 내재화로 해법 찾아야
그렇다고 엔터프라이즈 하둡이 실현 불가능한 건 아니다. 전체 비용을 낮추는 방안을 고민해볼 필요가 있다는 지적이다. 그는 하둡에 대한 SLA를 낮추는 것, 속된 말로 욕심을 버리는 것이다.
한 하둡 전문가는 “하둡은 운영과 관리 측면에서 급박한 대응을 요구하지 않는다”라며 “관리만 제대로 할 수 있다면, 일부 노드의 장애가 시스템 다운으로 이어지는 불상사를 막을 수 있다”고 설명했다. 고도로 정련된 관리툴을 통해 관리를 자동화하면 된다는 얘기다.
관련기사
- 하둡, DW진영에 십자포화 시작2013.05.22
- 3社3色 하둡 관리도구 빅3의 현재2013.05.22
- 인텔은 빅데이터 플랫폼을 어떻게 쓸까2013.05.22
- EMC-오라클-국산, 빅데이터 3파전2013.05.22
하드웨어 사양을 낮추고, 리눅스 OS도 오픈소스를 그냥 사용하거나, 서브스크립션 등급을 낮춘다. 노드당 200만~400만원씩 들어가는 인프라 관리 아웃소싱 계약도 해지한다. 대신 내부에 하둡 인프라에 대한 이해도가 높은 관리자를 보유한다. 대신 내부 인력의 관리부담을 줄이기 위해 다양한 기능과 쉬운 인터페이스를 가진 매니지먼트툴을 사용한다.
그는 “근본적으로 문제 발생 시 그를 빨리 해결할 수 있는 내부의 체계를 갖추는 게 중요하다”라며 “기술 내재화가 하둡에서 유독 강조되는 이유”라고 말했다. 그는 “관리체계를 최대한 자동화하면, 명시적인 SLA를 낮추면서 하둡의 이점을 십분 활용할 수 있게 된다”고 덧붙였다.