빅데이터의 최종 장애물 '사람'

일반입력 :2013/03/25 08:26    수정: 2013/03/25 12:55

빅데이터 열풍이다. 미국의 기업과 공공기관의 빅데이터 활용사례를 접한 한국도 빅데이터 활용을 검토하는 분위기가 달아올랐다.

그러나 빅데이터에 대해 그저 환호만 하는 분위기는 아니다. 빅데이터에 대한 윤리적 검토가 필요하다는 지적도 나온다. 빅데이터의 본고장이라 할 미국에도 비판적인 입장이 존재한다. 작년 연말 뉴욕타임스의 한 기자는 빅데이터가 갖는 비인간성을 지적했다. 그는 스스로를 이전까지 빅데이터에 대해 환호했던 인물 중 하나였다고 고백했다.

빅데이터는 확실히 양날의 검이다. 디지털 세계에선 사람들의 모든 행동이 데이터로 남는다. 과거엔 이 막대한 데이터들을 분석할 수 없어 방치했다. 그러나 수년 사이 기술적 방안이 마련되면서, 버려졌던 ‘쓰레기’는 ‘빅데이터’로 주목받게 된다.

뉴욕타임스가 제기했던 빅데이터의 문제는 ‘사람’이다. 데이터를 사용하는 사람과, 빅데이터를 가공하는 사람이다. 빅데이터의 최종 장애물은 '사람'이며, 빅데이터에 대한 관심은 최종적으로 '사람의 운영'에 초점을 둬야 한다는 것이다.

■빅데이터의 비인간성

우선 빅데이터는 프레드릭 윈슬로 테일러에 의해 고안됐던 ‘과학적 관리’의 자손으로 비유된다. 테일러의 과학적 관리 방법론은 공장에서 일하는 직원들 옆에 스톱워치를 두고, 근무시간 중 직원의 모든 행동을 분석하는 것으로 만들어졌다.

테일러는 직원의 행동 분석을 통해 정해진 시간에 가장 많은 양을 생산할 수 있는 효용을 찾아냈다. 직원이 정해진 시간 안에, 정해진 동작만 하도록 하는 게 과학적 관리의 핵심이다. 테일러의 과학적 관리는 기업의 이익을 위해 사람을 기계의 부속으로 만드는 방법이란 평가를 받으며 오래도록 비판의 대상이었다.

빅데이터 역시 기업이나 공공기관에서 사람들의 디지털 행적을 집단의 이익을 위해 사용하는 것으로 이해될 수 있다. 마음만 먹으면 사람의 일거수일투족을 감시하는 ‘빅브라더’로 돌변할 수 있다.

빅데이터의 또 다른 측면은 수학 모델이란 점이다. 수학 모델은 과거 속에서 특정한 패턴을 찾아내고, 추세를 기반으로 미래를 예측하는 것이다. 불규칙 속에서 패턴을 찾아내면서, 정형화된 알고리즘이 나오게 된다.

알고리즘에 따라 사람은 컴퓨터의 추천을 따를 것인가, 말 것인가만 고민하면 된다. 데이터의 힘을 신뢰한다면, 컴퓨터에 질문을 던져 곧바로 제시되는 해법을 가장 정답에 근접한 방법으로 여긴다. 이 작업을 반복하는 과정에서 완성되는 알고리즘은 결국 최종의사결정 작업을 완전히 대체할 수 있다. 과학적 판단이 컴퓨터의 기술적 판단으로 변모하는 것이다.

기업의 의사결정이 알고리즘에 따라 이뤄질 때 사람의 오류를 최소화한다고도 볼 수 있다. 그런 사상이 이미 비즈니스인텔리전스(BI) 영역에서 도출돼 10년 이상 존재해왔다. 그런데 그 알고리즘 자체를 만들어내는 건 사람이다. 알고리즘이 잘못됐다면 어떻게 될 것인가. 생각해볼 문제다.

빅데이터는 분명 강력한 무기로써 무한한 잠재력을 가졌다. 기업에겐 매출개선과 위기관리 능력을, 국가에겐 행정, 안보 역량을, 사회엔 복지 개선 등의 효과를 제공할 수 있다. 빅데이터를 바탕으로 사업해 성공한 대표적인 기업은 구글이다. 구글은 사용자의 검색과 활동 기록을 분석해 다양한 사업을 벌였고, 승승장구다.

그러나 수학 모델 기법의 함정은 단순화다. 필요없는 것을 걷어내고 단순화한 알고리즘은 과학 영역 밖의 예측불가능한 변수에 무력하다.

수학 모델이 가장 활기를 띄었던 분야는 증권가였다. 퀀트는 과거 데이터에 기반해 시장의 움직임을 읽고, 미래를 예측하는 방식으로 주식에 투자했다. 퀀트는 컴퓨터의 프로그램거래로 이뤄지는데, 컴퓨터는 정의된 시장의 움직임에 따라 주식의 매수, 매도를 결정한다.

지난 2008년 서브프라임모기지론 사태는 수학 모델에 젖어있던 월가에 엄청난 타격을 입혔다. 헤지펀드들은 리스크를 최소화한 것처럼 보였던 퀀트를 믿었다가 줄도산을 맞았다.

당시 투자자들은 안전 자산에 투자하기 위해 매도하기 쉬운 우량주를 대량으로 팔아치웠다. 우량주 대규모 매도로 주가가 하락하자, 퀀트는 우량주를 저평가로 인식하고 대량 매수했다. 결과적으로 퀀트는 차입자금의 이자를 늘리게 됐고, 전반적인 주식시장 폭락에 손실률만 커졌다.

많은 빅데이터 애플리케이션 역시 수학모델을 차용한다. 데이터가 사람의 행동을 이해하게 해준다는 발상이 빅데이터의 기본적인 생각. 사람의 감보다 데이터에 기반한 과학적 분석이 더 앞선다는 게 빅데이터를 주목하는 이유다.

아주 제한적인 범위에서 도출되는 BI를 넘어, 빅데이터로 도출되는 알고리즘이 모두 정확하다고 볼 수는 없다. 미완성인 알고리즘일 수도 있다. 퀀트는 불완전한 알고리즘에 대한 과심으로 벌어진 실패였다.

■빅데이터를 다루는 사람의 윤리

더 심각한 건 이 알고리즘을 만들어내는 사람이 비윤리적일 경우다. 온라인 타깃광고 스타트업인 미디어6디그리의 책임과학자 클라우디아 펠리히는 “당신이 어떤 것도 할 수 없는 데이터로 인해 스스로 바보가 될 수 있다. 나는 빅데이터 거품이 두렵다”고 밝혔다.

펠리히의 빅데이터 거품에 대한 우려는 무분별한 퀀트가 득세했던 월가의 과거에서 비롯된다. 그는 ‘데이터 과학자’란 명함을 들고 다니는 무수한 사기꾼들의 득세를 우려했다.

맥킨지연구소의 2011년 보고서에 따르면, 컨설팅업체는 약 14만~19만명의 심층분석전문가를 필요로 할 전망이다. 또, 기업이 약 150만 명 이상의 데이터를 다룰 줄 아는 관리자를 만들어내야 할 것으로 전망된다. 기업의 데이터 과학자 대한 수요가 증가하면서, 무늬만 데이터 과학자인 사람도 많아질 것이란 예측이 가능하다.

악의적인 데이터 과학자, 무능한 데이터 과학자, 그리고 데이터를 이해하지 않는 관리자의 조합은 끔찍한 결말이다.

하버드비즈니스스쿨의 토마스 H. 데이븐포트 교수는 최근 저서에서 빅데이터 프로젝트를 진행하기 위해 던져야 할 질문을 열거했다. 데이터 과학자는 아니더라도, 최소한 데이터를 다뤄야 하는 기업의 관리자들에 대한 조언이다.

그는 ▲어떻게 문제를 정의할 것인가 ▲무엇이 당신에게 필요한가 ▲빅데이터를 어디서 가져올 것인가 ▲데이터를 공급받는 모델 뒤에 무슨 가정을 설정할 것인가 ▲모델은 현실과 얼마나 다른가 등의 질문을 던지라고 조언했다.

마지막으로 데이터를 만지는 사람과 그를 활용하는 사람의 결합에서 나타나는 문제다.

데이터 과학자는 빅데이터를 통해 모델을 만들어낸다. 모델은 행동의 고리를 창조할 수 있다. 알고리즘에 의해 가공된 데이터를 접하는 사람은 그에 따라 선택을 하게 된다. 모델이 예측을 하는 게 아니라, 의도된 선택을 유도하는 것이다.

뉴욕타임스에서 레이첼 슈트 구글리서치 수석통계학자는 “모델은 단순히 예측이 아니라, 미래를 만들어내는 것이다”라며 “이는 우리 영역에서 일반적으로 논의되지 않는다”고 밝혔다.

페이스북이 비근한 예다. 페이스북의 소프트웨어는 가입자가 입력한 개인정보와 검색 및 클릭 기록을 수집한다. 알고리즘은 가입자에게 데이터를 통해 친구추천(알 수도 있는 사람)을 내놓는다. 페이스북 친구추천은 매우 편리하다. 여러 검색서비스 역시 비슷하다.

그러나 페이스북에서 추천되는 사람의 면면을 보면 어떻게 알아냈을지 섬뜩한 기분을 느끼게 된다. 페이스북도 구글도 사실 윤리를 고려하지 않았다. 편리를 고려한 기술적 완성도에 초점을 맞췄을 뿐이다.

관련기사

모델 제작자들이 자신들의 수학모델 개발 작업에 대해 윤리적 깊이를 숙고해준다면 사회는 빅데이터의 혜택을 입을 수 있을 것이다. 또한 데이터를 활용하는 기업과 공공기관이 선의를 유지해줄 때 빅데이터의 잠재력이 효과를 드러낼 것이다.

비인간적인 알고리즘 속에서 사람의 비윤리적인 활용은 얼마든 우려할 수 있다. 이미 많은 기업들이 직원을 감시하는 수단으로 이같은 소프트웨어를 활발히 사용하고 있다. 업계 전문가는 “데이터에 대한 접근과 활용범위에 명확한 가이드라인이 필요한 시점”이라고 강조했다.