“기업 데이터에 ‘덜 중요한 데이터’란 영역이 생길 것이다. 데이터 시장의 변화가 여기서 시작된다.”
빅데이터 전문 업체 그루터의 권영길 대표는 2014년 빅데이터 시장을 전환기로 규정했다. 빅데이터 프로젝트가 쏟아진다는 의미는 아니다. 기술로 인해 시작된 변화가 시장 전반의 흐름을 본격적으로 바꿔놓을 것이란게 핵심 메시지다.
권영길 대표의 전망은 데이터를 바라보는 기업의 시각변화에서 시작된다. 그동안 기업은 데이터를 중요한 데이터와 버리는 데이터로 나누는 2분법을 사용했다. 중요한 데이터는 관계형 데이터베이스(RDB)에, 중요하지 않은 데이터는 폐기되거나 단순히 저장만 됐다.
빅데이터는 너무 많아서 바라볼 엄두도 못내고 버려야 했던 데이터에서 새로운 가치를 찾아보자는 시도였다. 작년까지 빅데이터 시장은 버려지는 데이터를 수습하는 단계였다고 볼 수 있다. 기술적 측면으로 보면 하둡 플랫폼은 버려졌던 데이터를 담는 그릇 역할을 했다. 때문에 하둡과 빅데이터는 RDB 영역을 침범하기보다 새로운 영역으로 자리잡는 모양새를 보였다.
수습 단계 속에 분석이란 고부가가치 부여작업을 투입하면서 빅데이터는 ‘약간의 가치’를 갖게 됐다. 이를 통해 기업 입장에선 버리기엔 아깝고, 그렇다고 RDB와 데이터웨어하우스(DW)에 담기엔 무리가 있는 데이터를 고민하게 됐다. 그리고 DW에 저장되던 중요한 데이터도 더는 감당하기 어려울 정도로 늘어나는 추세다. 기업은 이 시점에서 중요한 데이터 가운데 상대적으로 중요성이 덜한 데이터를 구분하기 시작한다. 권 대표는 이를 ‘덜 중요한 데이터’로 구분했다.
권 대표는 “하둡이란 기술은 다룰 엄두도 못냈던 데이터를 어느정도 다룰 수 있는 것으로 바라보게 했다”라며 “이제 덜 중요한 데이터를 어떻게 처리할 것인가를 고민하는 기업들이 나타나고 있다”라고 말했다.
그는 기존의 엔터프라이즈 환경에서 저장되고 분석된 데이터들이 지속적으로 DW를 증설하는 것으로 대응하기에는 무리가 있다라며 SQL온하둡의 등장이 이러한 데이터를 조금씩 흡수하는 과정에서 상대적으로 덜 중요하다고 생각되는 데이터를 안고 가는 모양새로 시작될 것이다라고 강조했다.
SQL에 익숙한 분석가들은 덜 중요다고 구분된 데이터를 RDB와 DW로 끌어오길 원한다. 이같은 바람을 충족하고 그 규모를 감당하려면 DW에 대한 대규모 투자가 이뤄져야 하는데, 만만치 않은게 현실이다. 실제로 작년 국내 기업의 DW투자는 고도화나 용량 증설 중심이었다.
권 대표는 RDB와 DW를 한없이 늘리는데 부담을 느끼는 기업들은 새로운 기술로 무장한 하둡에 눈을 돌릴 것으로 내다봤다. 특히 하둡 내 데이터를 표준 SQL로 조회하고, 대화형 분석을 가능하게 해주는 ‘SQL온하둡’ 기술을 주목하는 모습이다.
그는 “하둡은 DW 영역을 침범하지 않을 것으로 여겨졌지만, SQL온하둡의 등장으로 하둡이 기존 DW 시장을 잠식해 들어갈 수 있는 단초가 마련됐다”라며 “중요하지 않은 데이터는 계속 늘어나고, 덜 중요한 데이터의 영역이 규모를 늘리면서, DW 시장에 하둡이 진입하게 될 것”이라고 전망했다.
SQL온하둡은 DW에 담아야 할 데이터에 대해 다시 생각하게 만들었고, DW에 담을 데이터를 한번에 SQL온하둡용 하둡에 담기 보다는 상대적으로 덜 중요하다고 생각되는 데이터에 먼저 적용해 나갈 것이란 설명이다.
SQL온하둡이란 기술은 하둡분산파일시스템(HDFS)에 저장된 데이터를 맵리듀스란 분석처리기술을 이용하지 않고 SQL언어로 조회하는 것을 말한다. 하둡 생태계에서 하이브라는 기술이 유사 SQL 조회를 지원한다. 그러나 하이브는 맵리듀스를 이용하는 탓에 조회속도가 현저히 느리다.
SQL온하둡이 진화하면 DW에 버금가는 속도와 성능으로 대규모 데이터를 분석할 수 있게 된다. 클라우데라 ‘임팔라’, 호튼웍스 ‘스팅거’, 그루터 ‘타조’ 등이 하이브와 맵리듀스의 한계를 뛰어넘으려는 SQL온하둡의 대표기술로 꼽힌다.
그는 “SQL온하둡의 보급과 함께 하둡은 기업 전반의 데이터 수집, 저장, 처리, 분석을 위한 중심 플랫폼 자리를 차지할 것”이라며 “덜 중요한 데이터를 위한 플랫폼을 누가 잡느냐가 향후 빅데이터 시장의 핵심 관전포인트”라고 말했다.
권 대표는 이와 함께 국내에서 진행되는 빅데이터 프로젝트들의 문제점을 지적했다. 지난해초 본지와 인터뷰에서 ‘제대로 된 빅데이터 프로젝트를 위해서 POC 무용론을 주장했던 그다. 무료POC에 사로잡힌 국내환경을 비판했던 그의 의견은 돈을 지불하지 않고 가치를 얻을 수 있다는 착각에 날린 일격이었다. 정당한 비용지불에 대한 그의 생각은 올해도 유효하다.
그는 “작년 진행됐던 공공기관의 빅데이터 프로젝트를 보면, 저가입찰로 인해 프로젝트 단가가 터무니없이 낮아졌다”라며 “5억짜리 프로젝트가 3억짜리가 되는 등 빅데이터 프로젝트의 가치가 땅에 떨어졌다”라고 지적했다.
관련기사
- 하둡 속도 높여라...파일 포맷 대권레이스2014.01.02
- 하둡, 제대로 쓰고 싶으면 링크드인 보라2014.01.02
- 하둡2.0 마침내 완성 '운영체제 등장'2014.01.02
- SKT, 오픈소스 '타조'로 보물을 캐다2014.01.02
그는 “계획보다 현저히 낮아진 단가는 높은 수준의 인력을 투입할 수 없는 구조를 만들어버렸고, 투입되는 인력의 질적 저하는 결국 프로젝트의 품질을 떨어뜨린다”라고 덧붙였다.
그는 ‘가치’를 고려하지 않은 사업 진행 풍토에 날을 세웠다. 프로젝트를 가치로 따지지 않고, 비용으로 따진다는 것이다. 그는 “프로젝트에 10억원의 가치를 부여했다면, 10억원을 지불해야 그만한 가치를 얻는게 당연하다”라며 “정당한 대가를 주지 않고 원하는 것을 얻겠다는 건 얻고자 하는 가치를 제 스스로 깎는 행동이다”라고 강조했다.