[기자수첩]하둡에 딴지거는 사람들

기자수첩입력 :2013/03/27 08:48    수정: 2013/03/27 08:53

근래 빅데이터 관련 이슈는 플랫폼이다. 작년까지 분석, 검색 등의 분야에 쏠렸던 관심사가 올해 들어 급격히 인프라 영역으로 몰렸다. 동시에 ‘빅데이터=하둡’이란 등식도 성립되는 분위기다.

기업과 공공기관의 최근 빅데이터 사업추진 방향은 모두 하둡 플랫폼 구축이다. 이제 빅데이터란 주제를 들여다보며 소셜 분석, 검색 등의 화두에 시선을 보내는 곳은 드물다.

분위기가 하둡으로 쏠리자, 최근 ‘빅데이터=하둡’이란 등식에 딴지거는 목소리가 흘러나온다. 하둡은 빅데이터와 관련된 일부 기술에 불과하며 중요한 건 따로 있다는 지적이다. 이 주장은 빅데이터로 무엇을 할 것인가, 얼마나 쉽게 분석할 것인가, 얼마나 쉽게 원하는 데이터를 찾아낼 것인가 등의 질문으로 나뉜다.

이 중 무엇을 할 것이냐에 대한 부분이 가장 강한 반론이다. 기업이나 공공기관이 빅데이터를 어떻게 써야할지 모르는 상황에서 인프라부터 구축하는 게 바람직하냐는 얘기다. 먼저 무엇을 할 것이냐를 정하고 나서 인프라를 구축하는 게 순서라고 지적한다. 신기한 건 이런 지적을 하는 대다수가 솔루션 업계란 점이다.

빅데이터를 통해 무엇을 하고, 무엇을 얻어낼 것인가를 설정하는 작업은 매우 중요하다. 이는 하둡 인프라에 중점을 둔 회사나 전문가들 모두 동감하는 부분이다. 오히려 더 적극적으로 무엇을 원하는지 깊이있게 고민하라고 조언한다.

빅데이터는 몇가지 독특한 성격을 갖는다. 일단 빅데이터를 통해 무엇을 얻을 수 있는지 어느 누구도 장담할 수 없다. 빅데이터는 ‘뭔가 있을 것’이란 관심에서 가능성을 찾기 시작한다. 과거의 분석과 빅데이터가 극명히 다른 부분이다.

만약 기업 대표가 최고정보책임자(CIO)나 최고마케팅책임자(CMO) 같은 임원에게 빅데이터를 하면 뭐가 좋냐고 물었을 때, 과연 어느 누가 정답을 얘기할 수 있을까.

이런 상황에서 빅데이터는 적은 예산을 들여 소규모로 시작할 수밖에 없다. 적은 예산이라면 그 인프라를 마련하는 비용을 최소화해야 하는데, 하둡만큼 비용대비효과가 높은 솔루션이 없는 상태다.

다음으로 빅데이터로 찾아내는 결과물의 성격이다. 빅데이터에서 무언가 목적을 이뤄 결과를 얻었다면, 그 가치는 일회성에 가깝다고 봐야 한다. 일단 빅데이터를 통해 얻은 결과는 더 이상 새로운 게 아니기 때문이다.

예를 들면, 맥주와 기저귀의 연관성 사례가 대표적이다. 기저귀를 사는 사람에게 맥주를 추천했더니 많이 사더라는 결론을 빅데이터 분석으로 얻었다는 얘기는 이제 너무 일반적이어서 식상할 지경이다. 맥주와 기저귀의 상관성을 찾기 위해선 하둡을 써도 되고 데이터웨어하우스(DW)를 쓸 수도 있다. 속된 말로 슈퍼컴퓨터를 쓰면 찾아내 수 있다.

문제는 참신한 결과물을 얼마나 계속 내놓고 얼마나 빨리 쉽게 내놓을 수 있느냐다. 재벌집 자식이 전교 1등을 한다고 마냥 그의 재력을 부러워할 필요는 없다. 전교 1등의 공부비법이 더 근본적인 부분이듯, 독자적인 추천시스템을 만들기 위한 동원가능한 비법을 찾아 활용해야 하는 것이다.

지속적으로 새로운 걸 찾아내려면 다양한 방법을 동원해야 하고, 플랫폼이 개방적이어야 한다. 때론 웹페이지 방문 로그 데이터를 모아 분석해보기도 하고, 소셜네트워크(SNS)와 CRM 데이터를 결합해보기도 하고, DW와 하둡을 연결해보기도 하는 등 곳곳에 분산된 데이터를 유연하게 활용할 수 있어야 하는 것이다.

투자대비수익(ROI) 측면과 개방성 때문에 ‘빅데이터의 표준은 하둡’이란 말이 성립된다. 적은 비용으로 많은 데이터를 분석할 기반을 만들어준다는 점에서 하둡은 경쟁력 확보의 첨병으로 존재한다.

근래들어 하둡에 대한 지나친 관심을 우려하는 시각들은 오해의 측면이 강하다. 빅데이터 분석을 하려면, 데이터를 모아주고, 분석도구에 연결해줄 하둡이 필요하다. 최근엔 검색 기술들도 하둡에 연결되는 추세다.

오히려 일부 극렬하게 ‘빅데이터=하둡’이란 등식에 강한 반론을 제기하는 사람의 경우, 하둡에 대한 이해도를 눈여겨봐야 한다. 하둡을 단순한 파일시스템의 일종으로 보고, DW든 슈퍼컴퓨터든 메인프레임이든 뒷단의 인프라 비용은 남의 일로 여기는 부류다. 반대로, 하둡을 다루는 사람들은 ‘빅데이터=하둡’이란 말을 거부한다.

일반적인 IT 프로젝트는 특정 목적을 향해 추진된다. 사업명에 나오듯 XXX시스템 구축 등의 형식이다. 이 목표는 프로젝트가 완료되면 그 자체가 성과다. 반면, 빅데이터는 시스템 구축이 끝이 아니다. 시스템 마련은 단지 진정한 프로젝트를 시도하기 위한 준비과정에 불과하다.

관련기사

분석도 중요하고, 우수한 검색능력도 중요하다. 눈에 띄게 볼 수 있는 시각화도 중요하다. 하둡은 분명 빅데이터를 위한 기본 요소 중 하나다. 빅데이터와 하둡의 등식 관계는 성립되지 않는다. 하둡은 하둡일 뿐이다.

그러나 하둡을 빼놓고 분석, 검색, 시각화 등을 운운한다는 건 사실상 불가능하다. 하둡은 빅데이터 속 가치를 발견하기 위한 발판이다.