최근 데이터 분석에 대한 관심이 높아지면서, 공공뿐만 아니라 민간에서도 다양한 프로젝트가 많아지고 있는 추세다.
빅데이터 프로젝트의 핵심은 데이터 규모와 관련된 것뿐만 아니라, 데이터를 분석해서 가치를 창출하고, 이를 기반으로 의사결정을 해 실제로 비즈니스에 활용하는데 있다. 데이터의 가치를 찾아내기 위해서는 끊임없이 가설을 세우고 지속적으로 검증하는 절차가 필요하다.
즉, 데이터 분석은 이러한 작업을 반복적으로 수행하면서 결과를 만들어가는 과정에 초점을 맞춰야 한다. 그러나 실제 빅데이터 프로젝트를 수행하는 형태를 살펴보면, 기존의 SI 프로젝트처럼 진행하는 경우가 많다. 대규모 SI 프로젝트를 수행하듯 전체 아키텍처를 설계하고, 주어진 일정에 맞춰서 WBS(Work Breakdown Structure)를 구성한다. 그리고 미리 정해진 일정에 따라 구현 및 테스트를 통해서 프로젝트의 결과물을 만들어내기를 원한다.
이 과정에서 데이터 분석을 위한 가설 수립과 수많은 테스트를 통한 검증은 외면당하기도 한다. 실제 프로젝트 수행시 데이터 분석에서 "왜 이런 반복적인 프로세스가 필요한가?"를 설득하고 이해하는데 어려움이 있다. 심지어 데이터 분석 결과 원하지 않는 결과가 나올 수도 있다고 하면 고객은 당황하기도 한다.
다양한 측면에서 데이터를 분석해 보면 처음 설정한 가설이 틀릴 수도 있다. 이런 결과를 확인한 것도 분명히 성과임에도 고객은 실패로 받아들이는 것이다.
성공적으로 분석 결과가 나와서 새로운 서비스에 적용하면 끝이라는 생각도 위험하다. 베이즈 정리에서 축적된 데이터를 기반으로 확률을 높여가면서 보다 정확한 예측을 하는 것처럼, 분석 결과로 제공하는 서비스의 데이터를 다시 입력으로 보고 한번 더 분석, 검증하는 과정을 거치면서 지속적으로 정확도를 높여나가야 한다.
결론적으로 올바른 빅데이터 프로젝트를 수행하기 위해서는 가설 수립, 분석 모델 설정, 설계, 검증을 반복적이면서 체계적으로 관리할 수 있어야 한다. 그래서 애자일 방법론이 폭포수 모델 기반의 기존 방법론보다 빅데이터 프로젝트에 더 적합하다고 볼 수 있다. 전체 프로젝트의 일정을 짧게 나누고 계획, 분석, 검증 작업을 반복적으로 수행하면서 최선의 결과를 찾아나가는 방식이 빅데이터 분석에 어울리는 것이다.
또 빅데이터 프로젝트는 기존의 SI를 담당하는 IT 부서나 개발자 위주로 진행하면 안 된다.
첫째, 실제 빅데이터 프로젝트에는 다양한 이해 관계자들이 존재한다. 비즈니스 전문가, 데이터 분석가, 통계 전문가, 시각화 전문가, 개발자 등이 모두 참여하는 복합적인 프로젝트이다.
각각의 이해 관계자들이 끊임없이 의사 소통하면서 기존의 발견하지 못한 무언가를 찾아내는 것이 필요하다. 보다 효과적인 의사 소통을 위해서 난해한 개발자들의 용어가 아니라 공통의 언어로 소통할 필요가 있다. 그러므로 개발자가 아닌 비즈니스 전문가나 데이터 분석가 중심으로 프로젝트를 수행하는 것이 바람직하다고 본다.
관련기사
- 하둡과 스파크는 경쟁 관계인가2015.08.11
- '데이터 기반 지식경영' 어디까지 왔을까2015.08.11
- 옴니채널 구현, 기준정보가 주목받는 이유2015.08.11
- 클라우데라 하둡, EMC도 판다2015.08.11
둘째, 일반적으로 개발자는 결과물을 만들어 내기 위한 기술이나 도구에 집중하는 경향이 높다. 물론 빅데이터 프로젝트를 수행하는데 있어 어떤 도구를 활용하고, 어떤 기술을 사용하는지는 잘 결정해야 할 필요가 있다. 그러나 앞서 언급한 대로 실제 빅데이터 프로젝트는 결과물을 기반으로 새로운 서비스를 창출하거나 보다 효과적인 의사결정에 활용하는 것이 더욱 중요하다. 그러므로 기술이나 도구보다 어떻게 결과물을 검증하고 분석 모델을 보완해 나갈 것인지에 대해 보다 관심을 가져야 한다.
성공적인 빅데이터 프로젝트를 위해 관리자는 개발이 아닌 데이터 분석에 초점을 맞출 필요가 있다. 실제 현장에선 개발에 초점이 맞춰진 경우도 종종 있는데, 지켜보는 입장에서 아쉬울 따름이다.
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.