기업과 조직들이 빅데이터를 활용하려면 이를 지원할 전문가들의 도움이 중요하다는 목소리가 높다. 그에 앞서 국내서 컨설팅업체, 기술전문기업, 연구조직이 모여 데이터를 분석해 실용적인 가치를 이끌어내는 '데이터 과학자'의 역할과 향후 분석 시장의 전망에 대한 업계의 궁금증이 누적되는 추세다. 빅데이터를 정의하는 관점부터 이를 다루고 활용하는 방법론과 전문 분석가의 역할에 방향타가 필요한 시점이다.
이에 따라 15일 서울 삼성동 코엑스 제7회 ACC 행사장에서 '빅데이터 분석을 위한 데이터 사이언티스트 역할 및 빅데이터 분석 시장 전망'을 주제로 토론이 열렸다. 김인현 투이컨설팅 대표, 김은생 한국테라데이타 전무, 황승구 한국전자통신연구원(ETRI) 소장이 패널로 참석해 빅데이터의 정의, 의견을 피력하고 전망을 제시했다. 최대우 한국외대 교수가 발제와 진행을 맡았다.
김 대표는 IT관리와 소프트웨어 엔지니어링, IT컨설팅 프로세스 분야 경험에 바탕을 둔 ISP와 EA 전문가 관점의 의견을 내놨다. 한국테라데이타에서 서비스와 컨설팅 업무를 총괄하는 김 전무는 금융, 통신, 제조업계 전사 데이터웨어하우징(EDW)과 정보계 분석 컨설팅 전문가로 자리했다. 황 소장은 ETRI에서 올해 정부가 이끄는 빅데이터 소프트웨어 연구부문 책임자로 공공영역의 빅데이터 관점과 전망을 소개했다.
■빅데이터, 대체 뭐기에
빅데이터를 정의할 때 가장 흔히 회자되는 용어는 '3V'다. 엄청난 규모(Volume)와 생성주기에 맞춰 요구되는 빠른 처리속도(Velocity)와 정형화되지 않은 데이터의 다양성(Variety)을 요약한다. 빅데이터는 각 패널의 경험과 현업 환경에 따라 조금씩 다르게 정의됐다.
김인현 : 컨설팅회사 관점에서 최대 관심요소는 '누가 고객일까'다. 그런 측면에서 빅데이터는 기업, 기관에 대한 것이다. 정부기관이 갖고 있는 방대한 공공정보는 오픈데이터다. 개인들이 만들고 다루는 미디어상의 자료들은 소셜데이터다. 둘째로, 규모가 크고 빠르고 다양하다는 3개 요소를 함축하면, 현재 우리가 가진 IT기술과 기업 인프라의 데이터웨어하우스(DW)로는 처리해낼 수 없어 새로운 대응 노력이 요구되는 데이터가 빅데이터다.
김은생 : 테라데이타가 빅데이터를 정의할 땐 데이터를 둘로 구별한다. 기존 DB에 저장되는 관계형데이터, 그리 저장되지 않는 비관계형데이터다. 전형적인 SQL로 분석하기 어려운 것들을 여러 다른 빅데이터 분석기법으로 접근해 나가는 게 테라데이타의 빅데이터 대응 관점가운데 하나다. 정보수명주기관리(ILM) 관점에서 정보의 성장속도를 따라가지 못하는 현상황을 극복할 여러 방법들이 필요해진다.
황승구 : 1월1일부로 ETRI 빅데이터 소프트웨어연구소장을 맡아 연구를 진행케 됐다. 공공부문이나 정부영역에서 빅데이터를 바라보는 관점은, 부처가 자체 활용을 위해 활용하던 정보를 수평적으로 부처간 경계를 넘나들며 실시간적으로 발생한 사안에 대응하기 위한 일, 국가안보와 재난관리 등에 활용하겠다는 방향을 설정하고 추진중이다. 일례로 국내 지난해 우면산 산사태 등 사건의 피해를 줄이거나 재난관리를 위한 방법으로도 접근한다. 대외적으로 싱가폴이나 미국 등이 이런 시스템을 구축 활용중인 걸로 안다.
ETRI는 빅데이터 기술을 중심으로 수퍼스케일, 수퍼스마트, 수퍼컨버전스 시대로 발전이 예상되며 이를 선도할 5대연구분야(빅데이터SW플랫폼, 수퍼컴퓨팅, 클라우드컴퓨팅, 스마트HCI, 디지털 인텔리전스)를 중점 추진해 핵심기술 창출할 계획을 세우고 있다.
■기존 분석-BI와 다른 점은…
최대우 : 구글 트렌드에서 2000년 12월에 구글 애널리틱스가 소개되면서 기존 '마이닝' 용어보다 애널리틱스란 표현이 널리 쓰인 것 같다. 구글 애널리틱스를 뺀 애널리틱스 낱말만 검색하는 곳을 보니 국가별로 인도가 1위고 미국이 그 다음이다. 데이터 분석은 데이터 마이닝이라 봐도 좋을 것 같은데 기존 비즈니스인텔리전스(BI)의 마이닝과 미래 빅데이터 애널리틱스는 무엇이 다를까.
김인현 : 회사가 BI컨설팅을 많이 해봤다. 고객들을 보면 과거 BI투자를 작게 몇십억부터 많게 100억이상 했는데 효과가 별로 없었더라 한다. 대개 3가지 개선점을 찾아준다. 기업과 고객간 데이터를 연결시키는 관계의 적절성, 분석 결과 도출 지연성 개선, 활용규모의 범위와 그 활용을 위한 민첩성이다. 활용인원이 기업내 많아야 몇십명인 BI는 그 투자효과를 거두기 어렵다. 또 현재와 분석결과가 나오기까지 최소 2~3개월 걸리는 지연된분석에 문제가 있다. 그리고 고객과 기업간 거래실적을 바탕으로 한 분석이 실제 기업 운영을 돕는 관계의 적절성도 필요하다.
최대우 : 기업 분석 여건의 동인은 기술적 혁신일 수 있다. 하둡과 같은 저가 자원으로 고성능 컴퓨팅을 구현하는 기술, 하이브, 몽고DB나 카산드라, 분석엔진 R과 이를 위한 편의성 엔진 나임(KNIME)이나 래피디(rapidi)와 예측모델마크업언어(PMML) 등 연계기술이 있다. 이를 적극적으로 도입하는 기업 움직임도 나온다. 테라데이타는 어떤 기술로 투이컨설팅이 말하는 민첩성, 적절성, 규모가변성을 실현하고 있나?
김은생 : 과거BI를 대체하는 건 아니라고 본다. 제품전략으로써도 과거 관계형DB 계열을 함께 가져갈 것이다. 앞서 데이터를 관계형, 비관계형으로 나누고 SQL 처리여부를 기준으로 제시했다. 기존 데이터를 SQL로 활용하는 한편 하둡과 맵리듀스, NoSQL같은 기술을 기존 관계형데이터를 연계하는 방식으로 새로운 BI영역을 발굴해 병존시켜나가는 시나리오를 바라본다. 두개 영역이 하나로 수렴되진 않을 것이라 본다.
■'데이터과학자', 그들은 누구인가
최대우 : 역시 구글트렌드에서 '데이터사이언티스트'라는 낱말 검색량을 보면 마이닝보다 조금 낮은 상황이다. 2004년 기준으로 과거 빅데이터보다 많이 논의되고 있었는데 이 낱말은 빅데이터에 앞서 화두가 됐단 얘기다. (황 소장에게) 연구자입장에서 빅데이터 사이언티스트의 중요성에 대해 말씀 바란다.
황승구 : 기존에는 과거 일어난 일을 바탕으로 정보 관점의 분석을 했다. 통찰력관점에서 왜 사건이 일어났고 앞으로 어떻게 될것인지, 예측하는 것이 중시되는데 이게 빅데이터 패러다임에 좀더 요구될 듯하다. 이런 통찰력과 창의성을 갖춘 사람이 빅데이터를 다루기 위한 데이터 사이언티스트가 될 듯하다. 통상 데이터를 파악하고 수집, 추출된 데이터를 통해 가치를 창출하는 전문가라고 정의된다. 분석가 가운데 프로 분석가가 사이언티스트 수준에 해당되고 세미프로는 데이터 분석 결과를 활용하는 전문가들이다. 다방면에 전문적 스킬과 지식을 갖춰야 하고, 요구되는 것은 정형, 비정형데이터를 연관지어 가치를 찾아내는 것이 향후 요구되는 전문가 자질이 아닐까. '포어사이트 인사이트'를 얻어내는 것이 중시될 거다.
최대우 : (김인현, 김은생에) 데이터 사이언티스트에 대해 정의하자면?
김인현 : '사이언스'가 핵심같다. 사이언스는, 전략과 의사결정에도 이론이 있다는 입장을 함축한다. 과학적 방법론, 통계적 모델링, 다양한 데이터 핸들링, 여기에 더해 우리회사 비즈니스모델이 무엇인가, 어떤 데이터가 비즈니스를 창출하는가 파악 가능한 사람이 데이터사이언티스트 자격을 갖췄다 본다. 과거 기업 경영 환경을 돌아보면 '어떤 기업들이 경영을 잘할 것인가'를 알고자 이미 벌어진 현상을 분석했다. 과거엔 잘 짜여진 전략이 중요했고, 중앙화된 의사결정 환경과 실행이 중요 성과 요인이었다. 이제까지 전략과 의사결정을 사람이 했다.
김은생 : 시행착오를 많이 하면서도 대안을 빠르게 찾아내는 사람이어야 한다. 기술적관점에서 전형적 데이터관리와 마이닝 지식이 필요하다. 기술적으로 통계 지식, 프로그래밍 개발, 데이터 관리, 비즈니스분석, 다 할줄알아야 한다. 물론 최대 포인트는 그 분석결과와 인사이트를 실제 비즈니스 오퍼레이션에 어떻게 적용할 것인가다. 빨리해보고 실패하면 ROI높은 대안을 찾고, 비즈니스에 적용하고, 이 사이클을 잘 수행할 수 있는 인사이트 갖춘사람이다. 과학의 영역이 과거 마이닝과 다른점은 실제 자기입맛에 맞는 프로그래밍 니즈를 투입해야 하기에 개발관련 스킬도 필요하다. 비즈니스에 이해를 갖고 인사이트 찾아내는 스킬도 데이터사이언티스트 요건이다.
최대우 : 요새 '샌드박스 애널리틱스'라 해서 제한된 범주의 분석을 실행해 보고 실제 비즈니스에 도입하는 사례가 늘고 있다. 가장 중요한 데이터사이언티스트의 덕목은, 그 분석결과를 여러 사람이 공유할 수 있도록 공유하고 의미 창출하는 것이 아닐까 싶기도 하다.
■빅데이터를 둘러싼 시장과 미래
최대우 : 한편 지금 빅데이터 회자 분위기는 버블의 정점을 향한 시점으로 보인다. 조사업체에 따르면 빅데이터 85% 프로젝트가 실패할 거란 전망도 나온다. 그럼에도 최근 다보스포럼에선 빅데이터가 중요 자산이라고 언급됐다. 현업의 관심과 대응이 지속될 것이다. 앞으로 빅데이터 이슈가 어떻게 다뤄질까?
황승구 : 스마트혁명, 새로운 비즈니스창출, 궁극적 비즈니스 운명, 3가지 관점에서 조망하겠다. 스마트혁명을 제대로 만들어줄수있는 변화 동인이 되겠다는 생각이 든다. 단순히 분야내 IT융합 아니라 분야간 융합을 이끌어낼 거다. 또 외국사례, 데이터 수집 가공해 판매하는 데이터마트 등 비즈니스가 새로 만들어지는 단계다. 마지막으로 데이터를 지배하는자가 비즈니스와 산업을 지배할 것이라 본다. 이를 대응하지 않는 부문의 비즈니스는 소외될 수 있다. '데이터 권력'이란 개념이 떠오를 것이다.
관련기사
- [제7회 ACC]맥주는 많이 팔렸지만 수익은↓2012.02.15
- [제7회 ACC]“빅데이터는 개인의 창의성에 달렸다”2012.02.15
- [제7회 ACC]현장 이모저모...빅데이터 '뜨거운 관심'2012.02.15
- [제7회 ACC]장영재 카이스트 "빅데이터, 경영을 과학으로"2012.02.15
김인현 : 빅데이터 논의 안에서 아쉬운점이 있다. 빅데이터도 반드시 분석과 결합돼야 의미가 있다. 아니라면 단지 비용을 유발할 뿐이다. 분석과 활용 이전의 데이터는 그 자체로 가치가 없기 때문이다. 핵심은 어떤 분석을 통해 회사경쟁력을 높일 것인가, 이를 어떻게 찾아낼거냐가 선행돼야한다. 모바일기기 보급과태블릿 사용량 증가에 따른 빅데이터 활용의 모바일화도 주목할 부분이라 본다.
김은생 : 구글이 하둡에 맨처음 적용하고 아마존, 반즈앤노블 등이 뒤따르는 빅데이터 대응시나리오가 있다. 다음과 네이버 등 포털이나 검색분야 담당자들도 관심 두는 걸로 안다. 이들 현실상 초기 단계에서 빅데이터를 분석하는 것은 매우 힘들 수 있다. 데이터를 단지 모으는것에 많은 비용과 시간 들일 수 있다. 테라데이타는 기술 공급자 관점에서, 좀더 상용화와 비즈니스 직접 활용가능한 사례를 원하는 기업들에 해법을 제시할 계획이다. 각 기업들이 어떤 비즈니스밸류를 기대하고 빅데이터분석을 할런지, 선도기업을 대상으로 빅데이터 비즈니스 해나갈 듯하다.