"빅데이터 프로젝트 핵심은 '순환주기'"

[11회ACC]한국EMC 이달수 상무

일반입력 :2014/07/03 13:29    수정: 2014/07/15 14:44

손경호 기자

액셀 파일 형태로 분석이 이뤄지는 BIDW와 빅데이터적인 접근방법은 달라야 합니다. 가장 중요한 것은 '순환주기'가 실제 업무에 적용돼야 한다는 점입니다.

이달수 한국EMC 상무는 3일 서울 잠실 롯데호텔에서 열린 '제11회 어드밴스드컴퓨팅컨퍼런스(ACC)' 기조연설에서 성공 반, 실패 반인 빅데이터 환경에서 중요한 것은 순환주기라고 강조했다.

순환주기는 빅데이터적인 접근법에서 주제를 선정한 뒤 이뤄지는 데이터 준비, 현상과 변화 감지, 변화 원인 찾기, 예측/최적화모델을 만드는 4가지 과정이 지속적으로 반복되면서 기업에 의미있는 데이터를 뽑아내는 작업이 필요하다는 것이다.

이 상무는 빅데이터는 예측이 어렵기 때문에 결국 에러가 날 수밖에 없고, 순환주기를 반복하는 과정에서 계속적으로 진화시켜나가야 한다는 설명이다.

이 상무가 구축사례로 든 것은 유가예측을 통해 비용을 절감한 기업 사례다. 해당 주제에 따라 이 회사는 최근 5년간 유가 변동 데이터, 원유 수요/공급데이터, 유가와 원유제고에 대한 데이터, 각종 경제 저널 리포트를 모았다. 이를 통해 유가에 영향을 미치는 키워드를 분석해 예측모델을 만들었다. 이 모델을 2010년 기준으로 적중률을 확인해 본 결과 80%에 불과했다.

이 상무에 따르면 이 결과에 대한 기업들의 반응은 두 가지로 나뉜다. 80% 예측모델은 수용할 수 없으니 프로젝트를 버리자는 것과 90% 이상 수준까지 적중률을 높여보자는 것이다. 해당 회사는 후자를 선택했다. 증권 애널리스트 칼럼, 주요 국가 경제성장률, 달러 인덱스 변동 데이터를 추가해 새롭게 만든 예측모델로 95% 적중률을 기록해 실제 기업 업무에 적용했다.

순환주기에 따라 데이터를 분석할 수 있는지 여부에 따라 빅데이터 분석을 통한 결과의 '질'이 달라진다는 설명이다.

관련기사

이 상무는 그 다음으로 데이터 과학자를 지향해야한다고 강조했다. 통계는 물론 분석, 개발, 기업자체 업무도 알아야 하고 장기적인 안목을 가질 수 있는 사람을 키워내야 한다는 설명이다. 물론 이를 위해 모든 것을 혼자 하겠다는 욕심을 버려야 한다고 그는 덧붙였다.

끝으로 이 상무는 제대로 된 솔루션을 통해 엔드포인트단에서 데이터를 조합, 통합하고, 실시간으로 데이터를 수집해 빠른 비즈니스 의사결정을 가능케 해야하며, 대용량 저장, 데이터처리성능, 정형/비정형 데이터를 조합할 수 있도록 해야 한다고 밝혔다.