빅데이터의 개념, 사례, 기술. 알아야 할 것은 많지만 이 많은 내용을 알려주는 한권에 담은 책을 만나기는 어렵다.
최근 임팩트라인 윤형기 대표가 저술하 ‘빅데이터-하둡과 분석기법’은 대용량 데이터의 분산처리를 위한 하둡 프레임워크, 분석기법을 다양한 실사례와 함께 소개한 책이다.
빅데이터란 기존에는 처리가 불가능하거나 너무 많은 시간이 소요되던 대용량 데이터를 분산컴퓨팅 기술을 통해 비교적 손쉽게 처리하는 것을 말한다. 빅데이터는 저가 컴퓨터를 여러 대 연결해 처리하기 때문에 처리비용이 절감된다.
빅데이터는 단순히 데이터의 양이나 처리 비용 절감에 그치지 않는다. 과거에 엄두를 내지 못했던 일들이 가능해지면서 우리사회에 질적 변화를 가져오게 된다.
가령 로그 분석을 통한 생산 최적화도 구현할 수 있고 유전자 분석을 통한 개인 처방, 맞춤 치료로 의료보험의 근본적 변화를 꾀할 수 있다. 나아가 얼굴인식 등의 새로운 보안 시스템이 활성화되고 천문 우주과학은 새 전기를 맞게 될 전망이다.
■미래담론 벗어나 프레임워크를 담다
빅데이터는 분산처리 기술인 하둡에 기반한다. 이 책은 하둡 프레임워크가 개발된 배경과 HDFS, 맵리듀스 등 세부기술은 물론 관련 분석기법, 도입 방법론에 이르기까지 상세히 기술했다.
이 책은 우리나라에도 이미 많이 소개된 빅데이터 관련 도서와는 다르다. 그동안 소개된 빅데이터 관련 책은 크게 세부로 나눌 수 있다. 첫번째는 SF류의 미래담론이다. 빅데이터가 이렇게 신기한 것이고 이것저것 모두 가능한 세상이 될 것이라는 식이다. 누구나 가볍게 읽고 새 트렌드를 익힌다는 점에서 의의가 있지만 깊이에는 제약이 있다.
둘째는 프로그래머 학습서다. 국내의 기술서적 수요가 한정돼 대부분 외국서 번역 중심이다. 반면 프로그래머 학습서 역시 전문 프로그래머 대상으로 일정한 시장을 형성하고 있다.
셋째 부류는 빅데이터 세부 분야별로 전문가 논문 등을 엮어낸 책이다. 이 역시 분야별로 필요한 정보를 제공하고 있으나 여러 저자가 나눠 집필하다 보니 통일성이 결여된 면이 있다.
앞서 나온 빅데이터 관련 서적에서 아쉬운 점은 분석(마이닝) 내지 기계학습은 거의 취급하지 않았다는 점이다.
‘빅데이터-하둡과 분석기반’은 앞서의 빅데이터 관련 서적과는 다른 형식으로 우리에게 다가온다. 하둡과 관련 프로젝트를 체계적으로 정리하면서도 동시에 각종의 분석알고리즘, 고 다양한 사례를 상세히 설명했다. 아울러 R등의 분석도구와 맵리듀스 적용을 곁들였으며 빅데이터 도입방법론까지 소개했다.
이 책은 하둡 관련 프로젝트를 망라했다. 이들 프로제그를 설명하면서 아키텍처 상의 특징과 함께 예제 코드를 함께 수록하고 설명해 구체성을 더했다.
■IT 2세대가 말하는 1세대 빅데이터
‘빅데이터-하둡과 분석기반’은 빅데이터 관련 다양한 분석기법을 상세히 소개했다. 여기에는 연관성분석, 분류, 군집화, 이상치 분석 등을 포함하는 대표적 마이닝 알고리즘이 소개됐다.
대표적 분석 알고리즘에 대해서는 이론 설명 후에 맵리듀스 방식을 통한 확장 알고리즘까지 설명했다. 특히 머하우트(Mahout)를 이용한 기계학습 알고리즘에 대해서는 구체적 사례까지도 소개했다.
다양한 사례를 소개하는 데에 있어서는 기술적 깊이를 잃지 않으면서도 흥미를 유발할 수 있는 몇 가지 주제를 포함시켰다. 대표적인 것이 보스톤 마라톤 사건에서 활용된 얼굴인식을 위한 이미지 처리에서의 하둡 적용이다. 미국 여러 지역에서 도입중인 예방치안에 빅데이터가 어떻게 활용되는지에 대한 내용도 다뤘다.
하둡 관련 프로젝트 외에 R에 대해서도 그 기본적인 사용법을 소개하고 R과 하둡을 어떻게 결합해 맵리듀스 방식으로 이용할 수 있는지에 대해 설명했다.
이 책은 데이터웨어하우스와 하둡의 영역구분 내지 도입상의 유의점, 빅데이터의 도입방법론에 대한 대표적 접근을 소개해 실무 담당자를 배려했다.
이 책은 다양한 주제를 통해 프로그래머, 현업전문가, 분석가, 기업체 임원에서 학생에 이르기까지 빅데이터와 관련한 관심을 포괄해 다뤘다.
이 책의 저자인 윤형기 임팩트라인 대표는 IT업계에 30년 가까이 몸담은 이 분야 전문가다. 쌍용정보통신으로 IT업계에 입문한 그는 전산 2세대다.
관련기사
- 오라클, 보안강화한 빅데이터어플라이언스 발표2013.10.21
- HP, 빅데이터 공략 SW 역량 총동원2013.10.21
- 헉! 강풀 만화에 '빅데이터'...웹툰도 IT바람2013.10.21
- 분당서울대병원 "빅데이터 기반 의료란…"2013.10.21
윤 대표는 계량분석, 모델링 업무를 담당했으며 현재는 임팩트라인에서 텍스트 처리 전문검색 사업 등을 추진하는 등 빅데이터 분야에서는 1세대라 불릴만하다. 이 책은 저자의 30년 가까운 경험이 담겼다.
<빅데이터-하둡과 분석기법 / 윤형기(임팩트라인 대표)/ 펍플(교보문고) 펴냄/ 385쪽/ 1만9천500원(전자책 6천원) /2013년 9월30일>