그루터 "빅데이터, '맨땅에 헤딩' 필요하다"

일반입력 :2012/01/18 14:54    수정: 2012/01/18 16:15

기업들이 빅데이터 솔루션을 제대로 구축하고 활용하려면 검증에 그치지 말고 소규모나마 실행과 실패를 반복하는 게 차라리 낫다는 주장이 나왔다. 많은 조직들이 빅데이터를 화두로 인식하면서도 선뜻 움직임을 보이지 않는 가운데 던져진 조언이다. 주로 오픈소스를 기반으로 통합되지 않은 기술들을 혼용해 시행착오를 겪으면서 장기간에 걸친 안정화를 추구하며 실전 경험을 쌓으란 메시지는 주요 솔루션 업체들이 보여주는 비전과 상충할 수 있는 얘기라 주목된다.

빅데이터가 새해 여러 조사업체들의 전망과 관측에 따라 규모가 큰 기업들을 중심으로 차기 전략적 요충지로 떠올랐지만, 국내뿐 아니라 해외서도 범용화된 비즈니스 모델이나 기술 도입 전략이 완성되지 않았다는 게 업계 중론이다. 오픈소스 기반 분산컴퓨팅 구축, 통합관리 솔루션업체 그루터의 김형준 수석아키텍트는 지난 17일 빅데이터 개념과 국내외 기술사례를 소개하고 기업들이 이에 대응할 경우 염두에 둘 전략적 지침을 제시했다. 업계에 통용되는 용어가 전체 배경을 담지 못했다는 비판과 데이터 분석에 매몰된 접근에 근본적 한계가 있다는 문제제기가 담겼다.

■'빅'보다 '데이터'가 중요

김 수석은 우선 국내서 클라우드컴퓨팅과 마찬가지로 빅데이터 개념이 적절히 이해되지 않고 있다고 지적했다. 데이터 크기뿐 아니라 처리 속도와 그 대상이 취한 형태도 중요한데 '빅'이라는 표현 때문에 나머지 특성이 묻혀버린다는 비판이다.

일반적으로 빅데이터는 전통적인 기업의 데이터 인프라로 처리하기 어려운 데이터를 가리키는데, 김 수석에 따르면 일정수준을 넘어서는 절대적 크기가 아니라, 단위와 무관한 상대적 크기(Volume)가 문제가 된다. 수십GB라는 용량은 개인용PC에도 들어가는 수준이지만, 이 크기는 소셜네트워크의 2~3억개 노드와 그 연결상태(관계)를 담아낼 수 있는 용량이기도 하다. 그래서 이를 다루려면 매우 빠른 속도(Velocity)의 환경도 요구된다. 더불어 관계형DB에 쌓이는 구조화된 데이터 외에 텍스트, 이미지, 영상, 음성 등 다양한(Various) 데이터를 다뤄야 하기 때문에 전혀 다른 기술이 요구된다.

김 수석은 전통적 비즈니스 환경은 ERP, SCM, 과금시스템같이 투자에 따른 수익률(ROI)이 보장되는 기술들에 적극적으로 투자해왔고, 현재 빅데이터로 분류되는 대상들은 그냥 버려졌다며 이제 정형화된 기존 시스템만으로 차별화가 거의 끝난 상황이라 빅데이터를 다루면서도 ROI를 기대할 수 있는 투자처가 '빅데이터기술'로 자리잡을 것이다고 설명했다.

이를 위해서는 크기뿐 아니라 앞서 지적한 데이터의 종류와 그 처리 속도까지 아우르는 전략이 필요해진다. 이를 위해 기존 비즈니스 환경이 다뤘던 구조화된 데이터와 아직 다뤄지지 않고 있는 빅데이터가 어떤 차이를 보이는지 이해해야 한다는 설명이다.

김 수석은 온라인 뱅킹 트랜잭션이나 증권거래, 상품구매 기록 데이터처럼 전체 환경에 엄밀한 일관성, 안정성, 가용성을 필수로 요구하는 환경은 오라클, IBM, MS 등 전통적인 관계형DB 기술이 지원하던 것(일명 ACID)이라며 빅데이터는 기본적으로 가용성에 초점을 맞추면서 최종적으로 일치된 결과를 목표로하는 서비스에 강한 속성(일명 BASE)을 보인다고 말했다.

■빅데이터=분석?

그래서 빅데이터 처리 환경이 실제 중점을 둬야 할 부분은 가용성이다. 이는 클라우드 환경으로 제공되는 솔루션가운데 서비스형 소프트웨어(SaaS) 제품들이 99.99%부터 99.9999%까지 수치를 내거는 '가용성'과 유사한 개념이다.

김 수석은 기술업체들이 솔루션을 판매하기 위해 의도적으로 그 쪽으로 포지셔닝했을 뿐, 빅데이터 기술은 근본적으로 분석만을 위한 기술이라고 볼 수 없다며 예를 들어 구글의 사이트 방문자 통계서비스는 전세계 사용자들의 웹페이지 검색과 방문요청을 실시간 처리해 보여주는데, 그 수집, 저장 프로세스 역시 빅데이터기술이다고 지적했다.

그에따르면 구글이 제공하는 방문자 통계는 한때 일정한 단위로 처리대상을 한정하고 추가 데이터 유입이 없는 상태에서 수행하는 전통적인 분석, 즉 '배치 어낼리틱'으로 제공됐다. 언제부턴가 이를 실시간처리로 바꿔, 방문자 통계 그래프를 보고 있으면 실시간으로 달라지는 방문자와 접속경로 현황을 계속 노출시켜 준다.

여기서 분석과 리포팅 서비스를 제외하더라도, 전세계에 흩어진 시스템에서 방문자 접속정보를 실시간 처리하는 기술 자체가 빅데이터에 해당된다. 가입자수 8억명의 실시간 접속정보를 상시 처리하는 페이스북의 메시지 입력, 저장 시스템도 용도는 단순히 ETL이지만 엄연한 빅데이터 기술이다.

김 수석은 국내 서비스는 좁은 지역 안에서 높은 가용성과 일관성을 제공하는 방향으로 기획되는 경우가 많기 때문에 해외 서비스와 구현목표가 다르게 설정된다며 페이스북이나 트위터가 이런 통념에 반하는 서비스로, 일시적으로 같은 사용자가 브라우저마다 다른 데이터를 보거나 다른 지역 사용자끼리 다른 현황을 접할 수 있지만 광범위한 서비스 가용성을 제공하도록 설계된 것이라고 밝혔다.

네이버나 다음 등 국내 포털서비스의 가용성이 굉장히 높은 편이고 장애에도 강하지만 이는 예의 BASE 속성을 지향하지 않기 때문에 태생적으로 글로벌서비스를 제공할 수 있도록 설계하기 어려운 모델이라는 지적이다. 빅데이터 대응 인프라를 구축시 분석 시스템은 나중에 만들면 되지만, 기본적인 트랜잭션(ETL) 서비스가 글로벌한 가용성을 제공하는 게 우선시돼야 한다고 김 수석은 강조했다. 24시간 세계 어느지역에서든 접속 가능한 체계를 만드는 것은 의외로 어렵기 때문이다.

김 수석은 국내 시장이 잘 보여주는 능력은 조직에 필요한 부문별 업무를 시스템화해 만들어내는 것인데, 글로벌화할 수 있는 서비스에 필요한 기술셋을 잘 갖추지 못해 시장 확대에 어려움이 있는 것같다고 말했다.

■인내심을 갖고 접근하라

기업들이 빅데이터 처리를 어려워하는 이유는 근본적으로 기존 트렌드 대응 시나리오처럼 '한 방'에 처리해주는 범용 솔루션이 아직 존재하지 않기 때문이다. 오라클과 같은 기업들이 실험적인 솔루션(NoSQL)을 내놨지만 안정화되지 않은 초기 버전이라 추천되지 않는 상황이다.

김 수석은 빅데이터 기술은 전통적인 데이터 솔루션 업체들보다 그 처리기술을 주력 사업모델로 하지 않는 인터넷업체들이 만들어내고 있다며 그들도 ROI 때문에 오픈소스에 의존하고 있으며 SW 트렌드를 주도하는 미국의 엔지니어들도 글로벌 소싱할 여력이 없어 현지 활동에 그치고 있는 상황이다고 전했다.

뒤집어말하면 아직 특정기업이 시장을 주도하지 못하고 있기 때문에 비용 효율적인 솔루션과 사례를 갖췄다면 국내 기업들에게도 충분한 시장 기회가 존재한다는 얘기다. 다만 인터넷 업체들이 만들어낸 기술들은 실제 서비스 운영 환경에서 수시로 장애와 결함을 발생시키고 이를 개선, 해결하는 과정을 통해 고유한 영역에 맞춰 성숙되는 결과물이다. 일반 기업들이 빅데이터 환경에 자체 대응하길 원한다면 기존 사례와 마찬가지로 간편하게 몇 개 솔루션을 붙여 단기간 프로젝트를 추진해서 결과물 내놓고 끝낼 생각을 버려야 한다.

김 수석은 단일 솔루션으로 문제를 해결한다거나 6개월~1년내 전체 시스템을 구축할 욕심을 버리고, 요구사항과 데이터성격에 따라 여러 솔루션을 조합한다면 수많은 인력을 투입하는 대신 제대로 된 엔지니어 몇명에게 적절한 보상을 제시함으로써 빅데이터 대응 시스템을 만들 수 있다고 주장했다.

관련기사

이어 다만 오픈소스 중심으로 소프트웨어 스택을 구축해 운영하려면 내부에 그만한 기술력을 갖추고 실패에 대한 두려움 없이 구축후에도 지속적인 진화를 거듭해나가야 한다며 솔루션 자체 비용을 줄이는 노력도 병행해야 하기 때문에 외부 벤더에 의존하지 않는게 좋다고 덧붙였다.

그는 또 오픈소스 검증에 시간을 허비하기보단 작은 규모로나마 실행에 옮기는 게 더 가치있다며 기존 운영시스템의 서비스 자체에도 빅데이터에 적응할 수 있는 능력이 전제돼야 한다고 당부했다.