[제8회 ACC]"빅데이터, 클라우드로 처리해봐"

일반입력 :2012/09/12 11:37

빅데이터는 사라지지 않을 것이다. 클라우드 업체들도 그 인프라에 빅데이터를 올리고 저장하고 분석해 활용하는 여러 방안을 연구중이다. 데이터과학자에 대한 요구가 빠르게 늘 것이다. 기존 소프트웨어 도구들이 빅데이터 플랫폼과 현대화된 기술로 대체될 것이다.

빅데이터 처리 기술로 탈바꿈한 오픈소스 통계기술 전문업체가 클라우드에서도 자사 솔루션이 최적임을 강조해 주목된다. 학계를 중심으로 널리 쓰여온 오픈소스 통계언어 R이 최근 비즈니스시장을 겨냥한 분석솔루션 '레볼루션R'로 거듭나, 국내 기업들 사이에 확산될지 관심을 끈다. R은 기업, 컨설팅, 공공분야에서 인기있는 분석도구지만 오픈소스 제품이란 특성과 대용량데이터 처리속도 한계로 민간보급에 더딘 모습이었다.

레볼루션R 개발사 '레볼루션애널리틱스'의 데이비드 샴페인 최고기술책임자(CTO)는 12일 서울 잠실 롯데호텔서 열린 제8회 ACC 기조연설에 나서 자사 솔루션과 '하둡'기반 분산데이터처리환경을 조합하는 요령과 노하우를 소개했다.

그는 우선 현재 빅데이터를 활용함으로써 얻는 이점 4가지를 제시하고 데이터분석과 R 언어를 소개한 다음 자사 '레볼루션R엔터프라이즈' 솔루션을 통해 빅데이터를 다루는 전략에 대해 설명했다.

샴페인 CTO는 빅데이터는 그 절대적 용량을 기준삼기보다는 발생한 데이터를 수집해 의미있는 활동으로 연결할 수 있는지로 구분할 수 있다며 기업들이 고객으로부터 제대로된 툴과 인프라를 통해 데이터를 모으고 활용하면 산업별로 뚜렷한 성과 향상을 꾀할 수 있다고 말했다.

그에 따르면 빅데이터의 가치는 성과와 고객별 매출등 미래를 예측하고 불확실성이나 리스크를 줄임으로써 얻을 수 있다. 통계처리시 샘플링이 아닌 전체데이터를 놓고 비용분석과 수익성평가 등을 수행해 과거에 할 수 없었던 질문을 던져 답을 얻고 R&D부서가 창의적인 프로젝트를 추진할 때도 장점을 발휘한다.

데이터마이닝 관점에서 예측모델을 활용하는 프로세스는 항목별 응답에 대한 모델을 만들고 스코어링룰을 적용하고, 평가세트의 스코어링룰을 거쳐 예측결과를 놓고 모델의 정확성을 평가하는 등 작업이 요구된다. 이는 계속 반복수행돼 예측을 정교화해야 한다는 설명이다.

샴페인 CTO는 교육연한이나 경력기간 등을 바탕으로 소득과의 관계를 추적시 연관성 파악에 한계가 있는것처럼 선형모델을 사용한 데이터분석은 정확성이 떨어진다며 이처럼 선형적 데이터모델만 쓰거나, 샘플링된 데이터의 예외사례에 대한 의미를 과소평가하거나, 문자그대로 '통계적 의미(유의성)'만 바라본다거나 하는것을 빅데이터 활용 시나리오로 극복할 수 있다고 설명했다.

레볼루션애널리틱스가 데이터분석 환경에서 활용하는 R은 통계분석, 예측모델링, 데이터접근과 처리 등에 쓴다. 통계 학자들이 통계분석과 데이터해석을 위해 만든 프로그래밍 언어이자 오픈소스 분석소프트웨어다. 툴, 알고리즘, 인터페이스, 통계 시각화 등 데이터 분석과 해석작업에 필요한 여러 활동을 모두 지원한다.

R은 출시이래 지난 10년간 학계에서 처음 써오면서 SAS, SPSS, S플러스, 스테이츠같은 상용 통계패키지 대비 사용자 커뮤니티 규모가 급성장해왔고 대학과 연구기관에서 광범위하게 쓰이는 걸로 알려졌다. 구글, 링크드인, 페이스북이 사용중이며 데이터과학자들이 여러 데이터소스에서 가져온 자료를 시각화하거나 새로운 모델링기법을 적용해 결과물을 바인딩하고 예측을 최적화시켜가는데 활용중이란 설명이다.

샴페인 CTO는 R은 4세대 통계언어로 데이터사이언티스트들을 위해 설계됐다며 널리 쓰이는 이유중하나는 수천개 패키지를 여러 산업분야 다양한 영역에서 누구나 내려받아 생명과학, 제약, 경제분석, 베이지언추론, 소셜네트워크 분석 등에 폭넓게 쓸 수 있다고 말했다.

그는 빅데이터 기술로 불리려면 테라바이트단위 데이터를 다루고 수십테라수준의 모델 트레이닝을 수행 가능해야 한다고 지적한다. 또 수시간내지 며칠이 걸리는 게 아니라 몇분이내 빠르면 몇초이내로 신속한 결과를 내놓을 수 있어야 한다고 강조한다. 이에 따라 R을 사용해 빅데이터 아키텍처를 구축시 기존 오픈소스 기술은 하계가 있었다. 인메모리 연산을 위한 단일처리방식이었기 때문이다.

레볼루션애널리틱스가 내놓은 레볼루션R엔터프라이즈는 그래서 오픈소스 버전에 인메모리 제약을 넘어서 외부메모리 알고리즘을 지원했고 분산된 컴퓨팅 환경에서 구동되는 역량을 갖췄다. 많은 메모리를 쓸 필요 없이 외부메모리와 기존에 널리 보급된 하드웨어를 씀으로써 데이터처리가 가능하기에 고비용을 들여 빅데이터 처리환경을 구축할 필요가 없다는 주장이다.

회사는 R기반 데이터처리를 클라우데라 하둡, 윈도 HPC서버2008이나 IBM 컴퓨팅플랫폼의 파일기반 클러스터, 네티자 데이터웨어하우징 환경 등에 연결시킬 수 있다. R 언어 코딩은 한 번만 해서 여러 플랫폼에 맞물리게 할 수 있다. 기저의 인프라에 신경쓰지 않아도 데이터 수집과 처리가 가능하고 데이터 과학자들이 분석에 집중 가능하다는 얘기다.

샴페인 CTO는 애널리틱스 인프라를 심사숙고해 구축할 계획을 잡아야 하고 클라우드 자원, 하둡 등 인프라에서 쓸 분석도구를 다룰만한 숙련된 인력을 조직 안에 갖추고 시작해야 한다며 소규모 단위에서 시작해 점점 큰 환경으로 뛰어들 준비를 해나가야 한다고 조언했다.

이밖에도 데이터 성격에 따라 최적 분석모델은 서로 다를 수 있기에 어떤 툴이 해당 프로세스에 적합한지 먼저 생각해야 한다고 그는 강조했다. 실가동중인 기존 업무시스템, 데이터웨어하우징에 새로운 분석작업을 얹어 씀으로써 부하나 병목을 초래해선 곤란하다는 예를 들었다. 클라우드를 통한 빅데이터 분석은 관리나 설정에 드는 시간을 단축시킬 수 있다는 이점이 있다고 말했다. 단시간에 도입하고 사용량만큼 과금해 대자본이 불필요해 소요비용을 줄이면서 최신 패키지를 활용 가능하다고 설명했다.

관련기사

클라우드상에 빅데이터분석을 하기 위해 필요한 것은 리눅스나 윈도기반 HPC 클러스터, 하둡클러스터, 여러 코어를 품은 단일머신 등 확장가능한 연산리소스와 HDFS, 데이터베이스같은 규모가변적 스토리지, 보안성을 갖춘 인프라가 필요하다고 덧붙였다. 데이터수집 자체는 정부나 시민들의 공익적 활동에 도움받을 수 있고 소셜데이터같은 온라인에 공개된 데이터도 유용하다고 언급했다.

샴페인 CTO는 빅데이터 분석환경을 클라우드에서 수행하기에도 레볼루션애널리틱스의 기술은 최적 환경을 제공한다며 R과 레볼루션애널리틱스가 클라우드상의 빅데이터 처리에 대한 여러 패키지를 즉시 활용가능한 형태로 다양하게 제공한다고 주장했다.