DW 권위자, 하둡과 빅데이터를 말하다

일반입력 :2014/03/19 18:19    수정: 2014/03/19 18:23

올해 가트너는 데이터웨어하우스(DW)시장 매직쿼드런트 보고서에 하둡 전문업체를 처음으로 포함시켰다.

작년 1월 빅데이터가 DW시장을 변화시키는 주요 동인으로 떠오른다고 변죽을 울리더니 이젠 주목할 만한 관련회사를 레이더망에서 다루기 시작한 것이다.

가트너는 관계형 데이터베이스(RDB)와 정형데이터 위주였던 데이터 분석 분야에서 분산처리시스템인 아파치 하둡과 키값 기반 DB인 NoSQL이 중요한 기술요소로 여겨지고 있다고 분석했다.

2012년까지 전통적인 DW솔루션업체들은 하둡, NoSQL에 대해 상호보완재 성격을 인정하면서도, 자신들의 영역은 아니라는 입장이었다. 하둡과 NoSQL은 현업 분석가보다 IT시스템을 다루는 개발자용이라는 것이었다. DW업체의 대응법은 하둡과 DW간 연결성만 보장하는 식이었다.

그런데, 불과 1년만에 주요 DW업체들이 하나같이 태도를 바꿔 하둡을 적극적으로 끌어안기 시작했다. 기업들이 데이터를 바라보는 관점이 빅데이터란 새로운 패러다임으로 넘어가면서, 더 이상 방어적인 입장을 유지할 수 없게 된 탓이다.

단순 링크에 불과한 하둡 커넥터로 빅데이터 전략을 포장하는 DW업체는 찾기 힘들어졌다.

EMC는 그린플럼에 하둡을 아예 통합해버린 피보탈HD란 별도의 배포판을 내놨다. IBM은 '퓨어데이터시스템포하둡'이란 어플라이언스를 출시했다. MS는 호튼웍스와 1년여 협업을 통해 클라우드 기반의 하둡인 ‘윈도애저 HD인사이트’를 공개했다.

테라데이타의 행보도 빨라졌다. 빅데이터 시대, 테라데이타의 비전은 통합데이터아키텍처(UDA)라는 전략으로 요약된다. 테라데이타의 DW 권위자 스티븐 브롭스트 최고기술책임자(CTO)는 18일 기자와 만나 “테라데이타 UDA는 기업의 데이터를 사용 사례로 분류해 그에 맞는 플랫폼에서 활용하게 한다”며 “우리의 철학은 고객의 목적에 가장 적합한 기술을 쓰게 해준다는 것”이라고 설명했다.

그에 따르면, 테라데이타 UDA를 사용하는 기업은 데이터 영역을 ‘DW-애스터-하둡’ 3종으로 나눈다.

브롭스트 CTO는 “하둡은 모든 데이터를 영원히 담는 일종의 데이터 호수다”며 “바이트당 가장 저렴한 비용으로 저장할 수 있고, 정형이나 비정형에 상관없이 비용효율적으로 저장할 수 있기 때문”이라고 말했다.

그는 “DW는 기업의 가치가 만들어지는 영역으로, 여기에 들어가는 데이터는 어느 정도 정형화돼 있고, 이미 비즈니스 사례로 인정받은 것들이다”며 “데이터 세트를 보면 작지만, 전사적으로 가장 많은 비즈니스 유저가 활용하는 영역이다”고 강조했다.

테라데이타는 애스터에 많은 역할을 부여한다. 하둡과 DW의 경계에 있으면서 아직 검증되지 않은 가치를 찾는 탐색 역할을 애스터에 맡긴다.

그는 “애스터는 디스커버리 플랫폼으로, 데이터 사용방법이 DW와 조금 다른 영역이다”며 “R&D연구소나 소수의. 데이터 사이언티스트가 작업하는 영역으로 데이터의 패턴이나 상관관계를 발견하는 영역이다”고 말했다.

이어 “일반적으로 과학연구소에서 항상 쓰는 물질은 연구공간에 두고, 상황에 따라 추가적으로 필요한 물질을 그때그때 창고에서 가져다 쓸 것이다”며 “애스터는 목적에 필요한 물질을 정제된 곳과, 데이터의 호수에서 실험에 필요한 데이터를 가져와서 실험해보고 흥미로운 사실을 발견하고, 현장에 적용할 가치를 찾으면 그를 DW로 보내게 된고 설명했다.

그는 애스터를 하둡과 DW를 연결하는 ‘지식적인 다리(Intellectual bridge)’라 표현했다. 현업과 데이터사이언티스트가 통찰력을 얻기 위해 기존의 영역에서 빅데이터로 지식범위를 확장하기 위한 수단이란 뜻이다.

테라데이타는 하둡의 저장매체로서 ‘저비용’과 ‘확장성’이란 강점을 인정한다. 그러나 하둡분산파일시스템(HDFS) 외에 오픈소스 진영의 광범위한 하둡 에코시스템까지 인정하는 건 아니다. 하둡 에코시스템 역할을 상용솔루션인 애스터가 하는 게 더 효과적이고, 기능적으로 우월하다는 인식이다.

브롭스트 CTO는 나는 개인적으로 오픈소스에 대한 열렬한 팬이며, DW 입장에서 하둡은 10년 내 나온 기술 중 최고라고 평가한다며 예전엔 버리거나 골라서 저장하던 것이 하둡 덕에 모두 담아둘 수 있게 됐다고 말했다. 그러면서도 하둡의 데이터를 디스커버리 플랫폼으로 몰랐던 패턴을 찾아 분석함으로써 DW의 가치 자체는 더 커지며, 비용효율도 더 좋아질 수 있다고 설명했다.

하둡에서 빠른 SQL분석을 실현하자는 ‘SQL온하둡’ 기술을 바라보는 브롭스트 CTO의 시각은 비판적이다.

그는 “HDFS에 SQL올리는 SQL온하둡의 경우 계속 발전하겠지만, DW를 따라잡았다고 볼 단계가 아니다”며 “클라우데라 임팔라가 성능을 내는 방식은 HDFS 파일을 속도가 빠른 메모리에 다 올려 읽는 것인데, 복잡한 조인이 요구되는 데이터 분석에서 비효율적이다”고 말했다.

그는 이어 “이는 워싱턴대학교, 이베이, 마이클 스톤브레이커 MIT 교수 등의 연구로 나온 판단으로, DW에 비해 50배 효율성이 떨어진다고 한다”며 “임팔라처럼 메모리를 활용해 성능을 높인다는 발상은 결국 비용을 높이게 해서 하둡이 가진 비용적 강점을 스스로 파괴하는 것이다”고 덧붙였다.

가트너가 클라우데라를 매직쿼드런트에 포함시킨 것에 대해선 “클라우데라의 위치가 매직쿼드런트 어디인가를 봐야 한다”며 “니치에 들어갔다는 건 아주 특별한 고유 영역이란 뜻이며, 이런 니치 모델에 합리적 투자를 결정하는 조직은 별로 없다”고 밝혔다.

피보탈HD란 하둡 배포판과 그린플럼 MPP와 하둡을 결합해 SQL문으로 HDFS 데이터를 분석하게 하는 기능 ‘호크(Hawq)’에 대해선 악평했다.

그는 “올해 가트너 매직쿼드런트에서 EMC의 피보탈은 아래로 뚝 떨어졌다”며 “작년 호크와 피보탈HD가 처음 나왔을 때 프리젠테이션 자료는 너무나 화려하고 놀라운 성능을 보여줬지만, 그 이후 실제로 적용된 사례를 만들어내지 못했다”고 말했다.

그는 “피보탈은 지금 매우 큰 실수를 범하고 있는데, 하둡에 유료 버전을 만들어 공급하고 있다는 점”이라며 “오픈소스가 있는데, 굳이 폐쇄적인 유료 버전을 쓸 이유가 없다. 결정적인 방향을 잘못 잡았다”고 강조했다.

그는 인터뷰를 마무리하며 데이터에 큰 가치를 두지 않는 기업들에게 한가지 조언을 내놨다.

관련기사

그는 “DW, 그리고 빅데이터 프로젝트는 IT 프로젝트가 아니라, 비즈니스 프로젝트로 다뤄야 한다”며 “비즈니스 현업이 무얼 필요로 하는지가 먼저고, IT가 무얼 도와줄 것인지 찾는 방향으로 가야 한다”고 말했다.

그는 “기술에 너무 무게를 두지 말고, 항상 비즈니스와 기술을 같이 가져가야 가치가 커진다는 걸 유념하는 게 빅데이터에 대한 기본조건이다”고 강조했다.