[기자수첩]빅데이터, 마법보다 현실을 볼 때다

기자수첩입력 :2013/02/22 08:18    수정: 2013/02/22 10:27

마치 빅데이터가 모든 것을 다 해결해주는 양 설파하고 다니는 브로커가 판을 친다. 뚝딱. 몇글자 키보드에 치면 회사의 매출이 쑥쑥 올라갈 듯, 당장 솔루션 하나 구축하면 모든 걸 얻을 수 있다는 빅데이터의 허상이 한국에 퍼지고 있다.

일반인은 빅데이터가 뭔지 잘 모른다. IT를 잘 모르는 기업의 임원들도 당연히 빅데이터에 대해 감을 잡지 못한다. 무지의 틈새를 비집고 들어가는 가짜 빅데이터는 진짜 빅데이터의 가능성까지 지하에 묻어버릴 기세다.

해외에서 빅데이터를 위한 기술이 막 움트던 시점부터, 관련 기술력 확보에 노력해온 국내의 전문가들은 먹먹한 가슴을 친다. 빅데이터 시장개화의 조짐 속에서 정작 국내의 전문가는 현장과 멀어지고 있기 때문이다. 전문가의 자리는 빅데이터를 마법이라 말하는 브로커들로 채워졌다.

전문가들은 경고한다. 빅데이터는 여전히 기술에 대한 문제이며 마법이 아니라고. 주문만 외우면 보물이 나타나는 게 아니라고. 준비도 갖춰놓지 않고 미래의 환상부터 보지 말아달라고.

빅데이터는 데이터에 내재된 가치를 밑바닥에서부터 찾아내려는 새로운 접근이자 도전이다. 상상초월 고가의 데이터웨어하우스(DW)를 이용하지 않고, DW로 엄두도 못냈던 데이터 프로젝트를 시도하고, 여러 데이터를 통해 복잡하고 어려운 문제를 해결해보자는 새로운 방법론, 새로운 패러다임이다.

빅데이터는 솔루션이 아니다. 솔루션을 찾기 위한 기본이다. 솔루션이 아니므로 결과와 성과를 약속하지 않는다. 그렇다면, 빅데이터 프로젝트란 빅데이터를 다루기 위한 기본을 갖추는 프로젝트여야 한다. A란 회사에서 빅데이터용 어플라이언스 사서 구축했다고, 고사 지내고 테이프 커팅행사 벌일 게 아니란 얘기다.

빅데이터란 새로운 패러다임을 가능케 한 기술은 하둡이다. 구글파일시스템에 모태를 두고 2006년 처음 세상에 나온 하둡은 저가의 x86서버 묶음을 사용해 데이터를 분산저장하는 오픈소스 기술이었다. 하둡파일시스템(HDFS)과 맵리듀스란 기본적인 구성에 수많은 구성요소가 더해져 하둡이란 거대한 생태계를 형성했다.

하둡은 저렴한 비용으로 대용량의 데이터를 처리할 수 있다는 점에서 경쟁을 불허한다. 쉽고 빠르게 규모를 확장할 수 있으며, 오픈소스라서 누구나 사용할 수 있다는 장점도 갖는다.

하둡은 수집, 저장, 검색, 분석 등 일련의 데이터 처리 과정을 수행하기 위한 기반이다. 그런데 이 일련의 과정이 원활히 수행되기 위한 시스템을 만들어내는 과정이 쉽지 않다. 특히 데이터 수집은 너무나 많은 변수가 존재하기 때문에 상당한 노고가 필요하며 지식과 경험을 요구한다.

하둡은 일단 완성만 하면 쓰기엔 편한 기술이다. 그러나 잘 사용하고 운영하기까지 수많은 변수가 존재하기 때문에 관리와 안정화에 엄청난 고통이 따른다. 기술 자체는 현재도 진화하고 있다. 성숙하지 못한 기술이기 때문에 향후 어떻게 변화할지 예측불가능하다. 미국의 하둡 코딩 전문가 연봉이 괜히 최소 40만달러(4억원)인게 아니다.

빅데이터 프로젝트는 투자대비수익(ROI) 검토가 중요하다. 성과를 내기 위한게 아니라 플랫폼을 갖추는 작업이므로 적은 투자로 시작해, 쉽고 빠르게 확장하고 변화시킬 수 있어야 한다.

지금 이순간 이곳저곳에서 진행되는 국내의 빅데이터 프로젝트는 앞서 언급한 기본적인 개념을 무시하는 경향을 보인다. 빅데이터를 솔루션으로 생각하는 허상에, 하둡은 오픈소스니 공짜란 오해, 오픈소스를 상용SW처럼 가져다 설치하면 바로 사용할 수 있을 것이란 착각, 빠르게 성과를 내야 한다는 조급함 등이 더해져 있다.

솔루션이 아님에도 목적을 지향한다. 쓰는 사람이 관련 기술에 어느정도 지식과 경험을 반드시 가져야 함에도 마냥 외부에 아웃소싱하면 되는 줄로 여긴다. 발주자는 프로젝트 수행자를 을(乙)로 여길 뿐 파트너란 생각을 갖지 않는다.

빅데이터를 하겠다고 나선 기업에 솔루션업체들이 득달같이 달려든다. 자사의 하드웨어가 SW가 빅데이터를 완벽히 지원한다며, 사용자의 장비구매를 부추긴다. 그러나 실상은 하둡 커넥터를 만들었을 뿐이고, 전반적인 하둡 플랫폼을 꾸려줄 능력도, 안정적으로 유지해줄 인력도 거의 없다. 사용자가 무엇에 쓸지 고민하지 않으면 분석 솔루션 구매로 인사이트가 생기지 않는다.

솔루션업체의 어플라이언스? 어플라이언스 자체가 문제는 아니다. 순서가 잘못된다는 게 문제다. 현재는 플랫폼을 구축하고, 그 위에 필요한 솔루션을 얹어가는 순서가 정반대로 뒤바뀌어 있다. 먼저 안정적이고 개방된 하둡 플랫폼을 구축하고 나서 용도에 맞는 어플라이언스를 사면 된다.

이는 빅데이터를 이전처럼 목적 중심의 프로젝트로 접근하기 때문이다. 빅데이터는 최종목적지를 향해가는 과정이다. 화려하지 않지만 묵묵한 전진이다. 플랫폼을 만드는 과정에서 조급증과 성급한 성과주의는 금물이다.

솔루션 중심의 프로젝트에서 정작 하둡을 다뤄보거나 관심을 가져온 현업은 배제된다. 현업은 안다. 누가 외부의 전문가고, 어느 것이 가짜인지. 그러나 현업의 빅데이터에 대한 사전지식은 프로젝트 계약단계에서 철저히 무시되고 있다.

발주자는 하둡의 정체도 모르는 상태로, 솔루션업체의 감언이설에 넘어간다. 솔루션 가격만 보고, 정해진 기간을 두고 성과를 내놓을 것으로 착각한다. 그러나 정작 구축하고 보니 결과가 안 나온다. 그리고 결론은 프로젝트 실패 판정이다.

전문가들은 작금의 현실을 안타까운 눈으로 지켜보고만 있다. 오랜 시간 하둡을 고민해온 인터넷 서비스업체나 통신사업자는 그나마 상황이 낫다. 필요를 명확히 알고, 그 필요를 충족하기 위해 플랫폼으로 빅데이터를 접근하기 때문이다.

일반 기업의 빅데이터 프로젝트에서 전문가가 소외되는 건 전문가들은 진실을 얘기하기 때문이다. 전문가들은 빅데이터가 완벽하지 않으며, 솔루션 산다고 번뜩이는 인사이트가 거저 생기는 게 아니라고 말한다. 목적과 성과만 머리에 든 발주자에게 이는 ‘안 된다’와 ‘못 한다’로만 들린다.

관련기사

전문가들은 강조한다. 빅데이터를 위한 기술을 내재화하지 않을 계획이라면, 프로젝트를 중단하라고. 아직 기술이슈가 더 큰 빅데이터인 만큼 전략과 실행을 현업에게 맡기라고.

이 조언을 무시한다면, 지금 빅데이터 프로젝트를 향해 원대한 꿈을 꾸고 있는 기업들은 허공에 무수한 돈을 뿌리고 인사이트는커녕 기본 인프라도 갖추지 못할 게 뻔하다. 그렇게 빅데이터는 현업의 가슴에 묻히고 말 것이다.