[제10회ACC]SAS, 빅데이터와 통계분석의 차이

일반입력 :2013/11/19 15:01    수정: 2013/11/20 14:29

'더 많은 데이터를 사용한 단순한 모형이 전체 데이터를 더욱 잘 설명할 수 있다.' 구글의 음성인식 연구원들이 낸 결론입니다

19일 서울 잠실 롯데호텔 크리스탈볼룸에서 개최된 '제10회 어드밴스드컴퓨팅컨퍼런스(ACC)에서 SAS코리아 박성수 차장은 빅데이터 분석이 전통적인 통계분석과 어떤 차별화된 가치를 줄 수 있는지 설명하며 이 같이 말했다.

박성수 차장은 여러개 빅데이터 프로젝트를 진행하면서 느낀 경험을 중심으로 쉽게 설명하겠다고 운을 뗐다.

그는 올해 초 통계학관련 학회에 갔을 때 빅데이터 분석이 왜 필요한지, 과연 어떤 효용이 있는지에 대한 질문을 많이 받았다며 통계분석과의 차이점을 설명했다.

그는 전통적인 통계분석은 전체 데이터 중 일부를 샘플링해서 가져오고 평균 표준편차를 이용해 전체 데이터를 추정할 수 있다는 가정하에 이뤄진다며 통계학에서는 샘플링과 추론만 잘하면 굳이 빅데이터를 통해 전체 데이터를 분석할 필요 없다고 생각한다고 말했다.

그는 빅데이터는 기술적으로 수집할 수 있는 전체 데이터를 다 수집하고 이를 단순한 그래프나 통계적인 모형 등 다양한 분석 모형을 만들 수 있다며 더 많은 데이터를 사용한 단순하 모형이 전체 데이터를 더 잘 설명할 수 있다고 강조했다.

이것은 구글 음성인식 연구원들이 낸 연구 논문을 인용한 말이다.

박 차장은 국내 한 국가 기관이 성범죄 데이터를 피해자 관점에서 분석한 사례를 예로 들었다. 이 기관이 그동안 보관해온 데이터를 분석해 본 결과 10~18세 사이 연령대에서 피해자가 가장 많은 것으로 나타났다.

관련기사

기존 뉴스에서 보도된 내용들은 샘플링을 통해 표본을 추출한 결과지만 이 데이터는 실제 전체 데이터를 가지고 실시한 것이라 신뢰도가 더 크다는 것이다.

그는 빅데이터의 요소를 규모(Volume)와 속도(Velocity), 다양성(Variety)이라고 하는데 이중 규모와 속도는 더 좋은 성능의 장비를 사용하면 대체 가능하다며 핵심은 비정형 데이터, 로그데이터 등 다양한 데이터(다양성)를 가지고 비즈니스 적인 가치(Value)를 뽑아 내는 것이라고 강조했다.