“스마트폰의 최고 혁신은 무엇보다 하나의 기기 안에 모든 앱이 다 들어있다는 점이다. 하둡도 이와 같다. 데이터를 여기저기 따로 두는 게 아니라 하둡이란 허브에 두고, 그 안에서 모든 걸 할 수 있다.”
아무르 아와달라 클라우데라 최고기술책임자(CTO)는 8일 월드와이드웹컨퍼런스2014와 함께 개최된 ‘BIG2014’ 컨퍼런스에서 이같이 밝혔다.
세계 3대 하둡전문업체 중 선두주자인 클라우데라의 기술총괄은 하둡을 ‘엔터프라이즈 데이터 허브(EDH)’라 표현하며, 관계형데이터베이스관리시스템(RDBMS) 중심의 기업 데이터 운영 체계를 바꿔야 할 때라고 목소리를 높였다. 그는 “스마트폰은 내가 원하는 정보를 즉시 찾아볼 수 있게 한다”며 “스마트폰 이후 사람들은 디지털카메라, 비디오캠코더, 녹음기 같은 것들을 별도로 갖고 다니지 않게 됐다”고 말했다.
그는 아파치 하둡의 가장 큰 특징으로 연산과 스토리지가 하나의 플랫폼에서 이뤄진다는 점을 들었다. 분산처리컴퓨팅기술인 하둡은 값싼 서버를 클러스터로 묶어 사용하며, 값비싼 외장 스토리지 대신 서버 안의 디스크에 데이터를 쪼개 저장한다. 이렇게 하둡분산파일시스템(HDFS)에 저장된 데이터를 조회하거나 분석할 때는 맵리듀스 프레임워크를 활용한다. 맵리듀스 과정에서 데이터가 분석을 위한 어딘가로 이동하지 않는다. 저장과 분석이 하둡 한곳에서 일어난다.
현재 전통적인 데이터웨어하우스(DW)업체들은 하둡과 DW의 병용을 주장하고 있다. 하둡을 저장매체로 활용하되, 분석을 위해선 하둡 내 데이터를 DW 영역으로 옮겨와야 한다는 입장이다. 클라우데라 CTO의 발언은 이같은 DW업체의 시도에 대한 일침이다.
그는 “이 덕분에 아파치 하둡은 테라바이트(TB)당 3만달러 이상인 외장스토리지와 비교해 TB당 300~1천달러의 총소유비용만 든다”며 “스케일업과 스케일아웃이 동시에 이뤄지는 구조로, 확장하기도 매우 쉽다”고 설명했다.
그는 이후 하둡과 새로운 데이터관리체계 수립에 대한 설명을 이어갔다. 그는 “확장된 데이터는 새로운 접근을 요구한다”며 “기존 시스템은 데이터가 각 컴퓨트 단위에 별도로 붙어 따로따로 존재하고, 계정 중심으로 사용한다”며 “모든 데이터를 하나의 장소에 모으는 과정이 필요하다”고 말했다.
엔터프라이즈 기업이 하둡을 회사의 데이터 허브로 만드는 과정을 그는 6단계로 설명했다. 기본 철학은 앞서 스마트폰처럼 하둡에 모든 데이터를 두는데 있다.
전통적인 기업 데이터 분석 환경의 스택별로 단계적인 변화과정을 거치게 되는데, 처음 3단계는 IT부서의 운영적 측면이고, 다음 3단계는 실제 현업의 데이터 활용 측면이다. 계층으로 보면, 아래부터 콜렉션, 스테이징, 스토리지, ETL, RDBMS, 비즈니스인텔리전스(BI) 및 애플리케이션 순으로 올라간다.
1단계에서 기업들은 데이터를 용도와 가치에 따라 구분해 각 스토리지에 저장하거나 나머지 데이터를 테이프 같은 장치에 저장해 아카이빙한다. 하둡을 도입하는 시작 단계는 여기다. 데이터를 수집하는 순간 저장되고, 기본적으로 3카피를 보관하므로 아카이빙도 곧바로 하게 된다. 테이프스토리지처럼 정기적인 백업 작업이 별도로 존재하지 않는다. 아무르 아와달라 CTO는 이를 액티브 아카이빙이라 표현했다.
이를 통해 기업은 백업과 아카이빙, 저장을 한번에 수행하게 됨으로써 비용절감과 운영효율성을 달성할 수 있다. 저장매체로서 하둡의 경쟁력이 발휘되는 순간이다. 그리고 데이터를 곧장 활용할 수 있는 최소한의 준비 ‘스테이징’ 단계가 함께 이뤄진다.
그리고 2단계로 넘어가면 콜렉션 단계가 사라진다. 데이터 수집은 그동안 별도의 수집 솔루션을 통해 수행됐지만, 플럼, 스쿱 같은 하둡 생태계를 통해 데이터를 모으는 과정부터 저장과 아카이빙까지 하나로 묶인다. 관리포인트를 하둡으로 줄이게 되는 만큼 더 다양한 소스에서 데이터를 수집할 수 있는 여유를 얻게 된다.
3단계에서 기업은 ETL을 하둡으로 교체한다. 데이터 추출, 변환, 적재의 작업이 하둡 생태계 안에서 이뤄지므로 ETL 작업이 전보다 가속화된다. 수집된 데이터가 표준화된 형태로 하둡에 담기게 되므로 데이터 활용을 위한 사전준비가 한 프로세스로 이뤄지게 되는 것이다. 아무르 아와달라 CTO는 ETL 가속화라 표현하면서, “하둡을 사용해 8시간 걸리던 ETL을 10분안에 완료했다”는 사례를 언급했다.
4단계는 RDBMS와 함께 하둡 생태계나 여러 NoSQL 기술을 이용해 데이터를 활용하는 작업이다. 요즘은 특히 하둡을 기반으로 엔터프라이즈데이터웨어하우스(EDW)를 최적화하려는 시도가 활발히 진행되고 있다. SQL온하둡이란 기술트렌드가 그것이다. 맵리듀스를 사용하는 하이브는 표준 SQL쿼리를 사용할 수 없는데, 표준SQL언어로 HDFS 데이터를 빠르게 조회, 분석하는 작업을 수행할 수 있게 된다.
아무르 아와달라 CTO는 “바로 이 단계로 넘어가느냐 여부가 엔터프라이즈데이터허브로서 하둡의 가치를 얻을 수 있느냐를 가르게 된다”고 말했다.
그는 “싸고 효율적으로 저장하고, 확장성을 얻었다고 해서, 그걸로 뭔가 바뀌는 것은 없다”며 “다음 단계로 넘어가는 게 필요한데, 빅데이터로 무얼 할 것인가에 대한 고민해결은 여기서 시작된다”
5단계는 ‘애자일 익스플로레이션’이라고 불린다. 데이터 과학자의 영역이다. 지금처럼 전문분석툴을 활용해 DW 데이터를 분석하고 시각화해 보고서를 작성하는 게 아니다. 어떤 문제를 풀어야 할 때 한번에 해답을 찾아내는게 아니라, 수많은 시행착오와 궤도수정, 반복적인 시도를 통해 답을 탐색해가는 작업이다.
그는 이 지점에 이르러 스마트폰과 카메라 비유를 들었다. 그는 “일반 카메라로 사진을 찍을 때 당신이 찍고 싶은 것에 초점을 맞춰 찍으려 할 것이다”며 “당신은 오로지 그 초점에 관심있을 뿐이지, 주위 배경들은 신경쓰지 않는다. 이것이 RDBMS다”고 설명했다.
그는 이어 “관계형 시스템은 온스키마온라이트(On schema On write) 시스템”이라며 “찍을 때부터 초점을 맞춰 찍고, 사후에 보정이나 편집하는 작업은 필요없다”고 덧붙였다.
반면 하둡을 디지털 카메라로 비유했다. “오늘날 디지털 카메라는 내 주변의 모든 것을 찍고, 나중에 노트북으로 찍은 사진을 보면서 초점을 바꾸거나 찍을 당시엔 놓쳤던 것을 발견하기도 한다”며 “사진을 당신이 원하는대로 다룰 수 있는데, 애자일 익스플로레이션이 그것이다”고 말했다. 이어 “이는 온스키마온리드(On schema On READ) 시스템”이라며 “온스키마온리드는 빅데이터에서 ‘매우, 매우 핵심적인 혜택이다”라고 덧붙였다.
그는 온스키마온라이트에 주력해온 RDBMS 회사들이 빅데이터에서 놓친 부분이 이것이라고 밝혔다. 쓰고 읽어내는 속도에 초점을 맞추면서 성능개선에 집중했고, 혁신과 애질리티란 빅데이터 활용의 목적에 맞지 않게 됐다는 설명이었다.
다음단계는 SQL을 넘어 어떤 언어로든 데이터를 살펴보는 일이다. 데이터 과학의 영역은 이때 비로소 실현된다. 소셜마이닝, 그래프서치분석 같은 작업이 해당된다. 여기에 인포매티카, 펜타호, 헝크 같은 기술을 더하는 컨버지드 애널리틱스란 최종단계에 이르게 된다.
관련기사
- 한국 주도 '타조', 아파치 톱레벨 프로젝트 승격2014.04.14
- 인텔, 클라우데라에 8천억 베팅…왜?2014.04.14
- DW 권위자, 하둡과 빅데이터를 말하다2014.04.14
- 빅데이터·클라우드 뜨니 DW 판도 급변2014.04.14
그는 “하둡은 농업, 제조, 상업, 자동차 등 모든 업계에서 사용 가능한 기술”이라며 “엔터프라이즈데이터허브로서 하둡은 액티브한 컴플라이언스와 아카이빙, 퍼시스턴트 스테이징, 셀프서비스 익스플로레이션 BI, 깊이있는 분석 플랫폼을 블록쌓듯 사용하게 된다”고 강조했다.
그는 클라우데라의 경우 임팔라와 스파크를 강조하고 있음을 분명히 했다. 호튼웍스가 주도하는 맵리듀스 대체 데이터처리프레임워크 ‘테즈(Tez)’에 대해서도 “테즈는 훌륭한 시도지만, 이제 시작단계”라며 “현재 테즈가 추구하는 기능을 스파크로 충분히 활용가능하기 때문에 테즈를 채택할 계획은 없다”고 말했다.