[제9회 ACC]MSTR "빅데이터분석 해법 고성능BI"

일반입력 :2013/04/17 14:38

비즈니스인텔리전스(BI)란 인터페이스를 그대로 두고 하둡과 데이터웨어하우스(DW)를 함께 활용할 수 있는 방법이 있습니다.

마이크로스트래티지(MSTR)가 BI 전문업체 관점의 빅데이터 전략을 제시했다. 데이터를 둔 곳이 오픈소스 기술 하둡이든 DW든 자사 BI를 통해 최종사용자에게 편의성을 제공하겠다는 관점이다.

MSTR 정경후 차장은 17일 서울 잠실 롯데호텔 제9회 ACC 현장에서 '빅데이터 분석을 위한 하이퍼포먼스 BI 기술'이란 주제로 하둡, 고성능, 데이터디스커버리, 소셜인텔리전스, 4개 측면에서 빅데이터 분석전략을 설명했다.

정 차장은 하둡은 파일시스템이라 실제로 분석을하려면 유일한 방법이 맵리듀스 코딩을 통해 '한땀한땀' 작업하는 것이었다며 파일시스템에 뭔가를 집어넣으면 그대로 들어간다는 점이 편리하지만 내용을 보기에는 불편한 환경이라 BI 측면에서 접근하기엔 애매했다고 지적했다.

회사는 빅데이터분석시스템 아키텍처를 그릴 때 하둡을 DW어플라이언스와 대등한 '데이터 저장소'로 놓는다. 이걸 분석하기 위한 고성능분석플랫폼, 그와 별개로 외부데이터, 소셜미디어, 비정형데이터를 처리할 기술도 포함한다.

■인메모리, 관계형DB, 하둡의 차이

회사쪽 설명에 따르면 하둡은 아파치라이선스에 기반하는 오픈소스 기술로 장애내구성이 유연한 데이터저장 및 처리시스템이다. 신뢰성과 고대역 클러스터 스토리지를 제공하는 '하둡분산파일시스템(HDFS)'과 맵리듀스연산패러다임에 기반한 분석프레임워크 '맵리듀스'로 구성된다.

하둡은 기존 인메모리와 관계형데이터베이스(DB) 기술로는 필요한 시간안에 맞춰 처리할 수 없었던 규모의 데이터를 다룰 수 있게 해준다. 느린 속도를 보정하기 위해 별도의 장치들이 자연스레 필요해진다고 정 차장은 설명했다.

각 환경의 특성을 거칠게 표현한 MSTR 발표자료에 따르면 인메모리는 적은 데이터를 다룰 때 엄청나게 빠르지만 일정 용량을 넘어가면 아예 담을 수가 없다. 관계형DB는 인메모리에 비해 훨씬 여유로운 데이터를 다룰 수 있지만 역시 일정 용량을 넘기면 담을 수 없다. 하둡은 저장용량에 제약이 없는 환경이지만 아직 인메모리와 관계형DB처럼 빠르진 않다.

이런 점에서 기업들이 다뤄야 할 데이터소스가 확장됐을 뿐이라면 기존 BI 방법론을 전혀 새롭게 바꾸는 방식은 비효율적이란 게 MSTR의 판단이다.

정 차장은 MSTR은 하둡을 BI의 데이터소스로 활용하기 위해 하이브를 이용하거나 하둡을 위한 쿼리생성엔진, '프리폼 피그'를 사용해 보고서를 작성하는 도구와 커스텀맵리듀스 스크립트 플러그인 기능 등 다양한 연결 방법을 제공한다고 밝혔다.

■고성능 BI에 필요한 것은…

MSTR이 여기에 연결짓는 전략상의 화두가 고성능이다.

MSTR이 제시하는 방향은 하둡을 위한 분석애플리케이션을 만들 때 계층적으로 로데이터를 분산저장해 인메모리와 DW와 하이브에 각각 놓고 주어진 질의에 계층적 환경에서 필요한 상황에 맞춰 데이터를 제공하는 방식이다. 기존 시스템의 한계로 빅데이터 대응이 어려울 경우 이같은 접근으로 각각의 방식에 집중할 때 따르는 어려움을 분산시킬 수 있다는 게 회사쪽 입장이다.

회사는 DW대비 속도가 느린 하둡을 BI로 접근할 때 성능 한계를 끌어올리는 방식을 제시한다. 인메모리큐브에 하둡데이터를 끌어올려놓고 이를 빠른 속도로 시각화해주는 기법이다. 또 하둡환경에 직접 쿼리를 던져 결과를 받는 셀프서비스 형태의 시스템을 구축하는 방식도 가능할 것으로 본다. 또는 하둡데이터를 DW환경처럼 모델기반 접근을 하는 방식도 있다. 그러나 이는 느려서 현실성이 떨어진다.

정 차장은 클라우데라가 글로벌 하둡업체로 가장 활발한 곳인데 알려진 고객수는 100군데 뿐인데 하둡만이 빅데이터라 보는 것은 맞지 않다며 데이터가 하둡에 있던 DW에 놓이던 BI 애플리케이션이 최종사용자 관점에서 성능과 편의성을 뒷받침해야 한다는 것이 관건이라 주장했다.

그는 고성능BI를 위한 요소기술로 인메모리, 하이퍼포먼스대시보드디자인, 쿼리최적화, 최적캐시, MSTR서버환경구성, 최신DB기술, 6가지를 제시했다. 나머지는 일반적인 요소들로 포괄적으로 언급됐고 MSTR의 인메모리 전략은 데이터가 메모리에 미리 올라가지 않았더라도 DB에서 접근이 가능한 경우 함께 가져올 수 있게 만드는 방식으로 요약됐다.

한편 데이터디스커버리는 시각화를 통한 BI시스템의 활용도 증진에 초점을 맞춘 화두다. 일반적인 빅데이터 이슈와는 별개일 수 있다. 사용자가 데이터를 도식화하고 시각적으로 자유롭게 데이터와 상호작용할 수 있느냐가 관건이 된다. 현업 사용자들이 IT의 도움 없이 분석을 수행해 비즈니스 통찰력을 얻게 한다는 제안이다.

관련기사

소셜인텔리전스는 소셜미디어에 대한 비즈니스적 접근을 관심사로 놓는다. 페이스북같은 공간에서 브랜드관리, 광고와 이벤트효과분석, 감성분석을 통해 고객을 대상으로 광고 및 메시지전달 효과 분석과 고객관계관리(CRM) 활용 등이다.

MSTR이 소셜인텔리전스제품 '위즈덤프로페셔널'로 제시한 '페이스북데이터로 알 수 있는 것' 들은 고객들의 주요활동지역, 연령분포, 선호하는 연예인이나 TV프로그램, 평균소득, 선호하는 쇼핑채널, 정치성향, 경쟁사 고객과의 성향차이 등이다.