빅데이터는 헛소리다(Big Data is bullshit).'
버락 오바마 미국 대통령의 2012년 대선 캠프 최고기술책임자(CTO)였던 하퍼 리드가 빅데이터란 단어에 욕설을 날렸다.
28일(현지시간) 외신에 따르면, 하퍼 리드는 오스트레일리아 시드니에서 열린 CeBIT 컨퍼런스에서 이같이 말했다.
그는 2007년 빅데이터란 단어를 맞닥뜨린 건 스토리지 문제를 알아보면서였다라는 말로 시작했다.
그는 이미 해오던 사람들은 빅데이터를 잘 하고 있었다라며 하지만 모든 사람이 빅데이터가 어떻게 혹은 어떤 도구가 있는지 잘 아는 건 아니었다라고 말했다.
하퍼 리드가 처음 빅데이터를 접했을 때 기술적 부분부터 많은 어려움을 겪었던 것을 술회한 것이다. 그리고 6년 후인 지금 시점에서 든 생각이 이어졌다.
그는 현재 하둡과 H베이스 같은 부류는 분석을 하기 위해 대규모 데이터를 저장하고 준비하는 것이라며 하둡은 더는 어려운 문제가 아니다라고 말했다. 이어 그러나 빅데이터란 단어는 어려움이 지속되고 있다라고 덧붙여다.
그는 빅데이터란 단어가 차라리 널리 사용되지 않는게 낫다고 밝혔다.
빅데이터란 말을 쓰기에 적합한 양이나 성격도 가지지 않은 데이터를 가진 사람들이 투자를 꺼리고 있다는 말이 이어졌다.
오바마 캠프의 데이터과학자였던 레이드 가니도 그의 발언에 동의했다.
레이드 가니는 선거 기간 중 사용했던 데이터보다 더 많은 데이터가 자신의 집안 스토리지에 저장돼있다라며 현재 행사 참여자 가운데 '빅'으로서 자격을 갖춘 충분한 데이터를 보유한 경우도 거의 없다고 폭로했다.
그는 당신은 아마 평균정도의 데이터를 가졌다라며 빅데이터란 단어는 데이터 자체가 아니라 분석도구를 표현하는 것이 돼 버렸다라고 말했다.
프라이버시와 개인정보에 대한 의견도 밝혔다.
그는 빅이든 미디엄이든 데이터가 개인정보를 포함한다고 하더라도 분석가는 아마 섬뜩할 정도로 섬세한 목표지점을 만드는데 사용하지 않을 것이라며 당신이 타는 차의 정보는 선거 캠페인에서 별로 유용하지 않았고, 우리는 개인정보를 다루지 않았다라고 강조했다.
이어 더 유용했던 건 '당신은 대통령을 지지합니까'란 질문에 응답하는 단순한 데이터 포인트들이었다라고 덧붙였다. 오바마를 지지하느냐는 질문에 답을 하면서, 응답자가 과거에 투표를 했는지를 식별해내고, 캠프가 더 많이 집중해야 할 선거권자를 분류하는데 도움을 줬다는 것이다.
또한, 프라이버시 문제에 주의깊지 않은 나이든 사람들에게 경고했다. 젊은 사람들은 페이스북 같은 서비스를 이용하면서 프라이버시를 제어하는데 익숙하지만, 나이든 사람들은 그렇지 않다는 발언이었다.
관련기사
- 누구를 위한 '빅데이터 SW인증'인가2013.05.29
- 한국 빅데이터, 거짓말에 물들다2013.05.29
- 정부3.0전담국 국가 빅데이터 업무 맡지만…2013.05.29
- 빅데이터로 가는 여정 5단계2013.05.29
버락 오바마의 2대 선거캠프는 수년동안 다양한 성격의 데이터를 축적하고, 분석해 선거전략을 수립한 것으로 유명하다. 때문에 빅데이터를 정치에 활용한 가장 대표적인 사례로 참고된다. 그 작업을 주도했던 인물들이 '빅데이터'란 단어가 엉뚱하게 남용되고 있으며, 그로 인해 많은 오해가 생기고 있다는 의사를 표현한 것이다.
실제로 국내외 IT업계에선 CRM, 소셜분석, 통계분석, 검색기술 등이 빅데이터란 단어로 포장돼 혼란을 주고 있다.