판 커진 데이터스트리밍처리 시장...맵알도 본격 참여

독자 기술 '맵알 스트림' 발표

컴퓨팅입력 :2015/12/11 18:02    수정: 2015/12/11 18:30

실시간 데이터 분석에 대한 수요가 급증하는 가운데, 하둡 전문 업체 맵알도 이를 지원하기 위한 행보를 본격화했다.

M.C 스리바스 맵알테크놀로지스 최고기술책임자(CTO)는 최근 한국을 방문해 가진 기자간담회에서 데이터 스트리밍 처리 기술인 ‘맵알 스트림’ 출시를 발표했다. 스리바스 CTO는 “고대역폭 스트리밍을 제공하는 맵알 스트림은 통합된 보안 환경을 전 클러스터에 제공하고, 지속적으로 분석하게 해준다"고 강조했다.

그는 “웹 데이터 시대에 한 시점, 한 이벤트가 바로 바로 계속 생성되는데, 이런 이벤트 스트림에는 다양한 인프라 로그나 메트릭스, 콘텐츠 액세스나 품질 관련 이벤트. 병원 의료기기 정보, 콜 디테일 기록 등이 포함돼 있다”며 “맵알 스트림의 핵심 아이디어는 다양한 데이터 소스의 스트림을 계속해서 유지해 비즈니스의 실시간화를 구현하는 것”이라고 덧붙였다.

M.C. 스리바스 맵알 CTO

빅데이터, 사물인터넷(IoT), 머신러닝 등 최근 IT업계의 핫이슈는 공통적으로 방대한 데이터를 어떻게 다룰 것인가와 관련된다. 초기 빅데이터 시장이 데이터를 어떤 방식으로든 저장해두고 인사이트를 찾는 쪽이었다면, 흘러가는 데이터에 실시간으로 쿼리를 날려 즉각 활용하는 데 관심이 급증했다. 물의 흐름 속에서 현재 일어나는 현상을 파악하고, 바로 대응해 성과를 높이려는 목적이다.

스트리밍 데이터를 활용하는 일은 만만치 않다. 데이터 양도 많고, 형태도 소스에 따라 제각각이어서 쿼리를 날리기 좋게 정돈된 상태가 아니다. 무엇보다 데이터가 끊임없이 흘러 들어오도록 파이프라인이 튼튼해야 한다. 일단 물 샐 틈 없이 데이터가 흘러야 하는 것이다.

이에 데이터 기술로 먹고 사는 전문회사들이 스트리밍 데이터에 대한 제품과 서비스를 앞다퉈 내놓는 추세다. 기존 ETL업체와 콤플렉스이벤트프로세싱(CEP) 솔루션업체가 스트리밍 처리 기술회사로 변신하고 있다. 아마존웹서비스, 구글클라우드플랫폼, 마이크로소프트 애저 등 퍼블릭 클라우드 서비스업체는 스트리밍 데이터 처리 기술을 서비스로 내놓고 있다.

오픈소스 진영의 대응도 일찌감치 진행됐다. 트위터가 개발한 스톰, 링크드인이 개발한 카프카 등은 튼튼한 스트리밍 파이프라인을 구현하기 위한 기술로 일찍부터 인기를 끌었다. 아파치 스파크 같은 인메모리 데이터처리 기술도 스트리밍 요소를 추가했다. 이에 배치 분석에 초점을 맞춰온 하둡 업체 맵알도 독자적인 스트리밍 데이터 기술을 선보이고 실시간 분석 영역에서 지분 확대에 나서게 됐다.

‘맵알 스트림’은 맵알 플랫폼 내 데이터베이스, 파일시스템 등과 긴밀하게 결합된 통합 플랫폼을 표방한다. 그는 “맵알 스트림의 주요 목표 사례는 스마트차량, 가정, 스마트도시, 스마트병원 등이며, 전세계적인 금융거래에도 활용가능하다”고 설명했다.

맵알 스트림은 데이터 생성자의 네트워크 지점을 하나의 데이터센터로 다룬다. 생성자가 데이터를 소비자에게 보내는데, 중앙의 대형 데이터센터로 집중시키는 게 아니다. 네트워크 자체가 스트리밍 파이프라인으로, 분산 컴퓨팅과 겉모습을 같이 했다고 볼 수 있다.

그는 “데이터 퍼블리싱과 서브스크라이브가 동시에 이뤄지는 빅데이터 시스템”이라며 “데이터 생성자 초당 수십억 메시지를 계속 만들어내고, 스트리밍되면서 데이터 소비자에게 신뢰성 확보된 상태로 즉각적으로 전달한다”고 설명했다.

그에 따르면, 데이터 사용자에게 전달되기까지 4~5밀리초밖에 걸리지 않는다고 한다. 수억개 단위의 데이터 생성자, 수십만개의 토픽 등을 지구 반대편에 전달하는 경우도 1초 안에 이뤄진다고 강조했다.

그는 “과거의 메시징은 수천개 단위만 처리할 수 있었지만, 빅데이터 이벤트 스트림은 초당 수십억개 단위로 변화했다”며 “수많은 데이터 소스가 한곳으로 보내지는 게 아니라, 수천개 목적지로 보내야 하기 때문에 지리적 한계를 벗어날 수 있는 글로벌 동기화가 필요하다”고 말했다.

그는 “잠수함 안, 선박 안. 자율주행차 안 등의 데이터센터가 하나로 통합되고, 각자가 분석 역량을 보유한다”며 “고객은 사물인터넷을 위한 수백만개 데이터센터를 운영하는 것과 같아진다”고 덧붙였다.

만약 데이터 생성자 중 하나의 네트워크에 문제가 생기면, 생성자는 데이터를 누적했다가 네트워크 복원 후 복제본을 넘겨준다. 때문에 스트리밍 데이터 유실이 최소화된다는 설명이다.

그는 이미 시중에 나온 다양한 스트리밍 데이터 처리 기술의 활용성을 지적했다. 스트리밍용 클러스터, 하둡 클러스터, 운영 DB 클러스터, 엔터프라이즈 스토리지, 분석툴 등이 동원되고, 각 클러스터를 연결하는 애플리케이션도 별도로 존재한다. 스트리밍 데이터를 쓰기 너무 복잡하다는 것이다.

그는 “과거의 시스템은 모든 고객이 자체적으로 통합작업에 나섰어야 했다”며 “컨설턴트나 통합 전문가를 고용해서 통합하는데, 엄청난 시간과 노력을 들여야 한다”고 지적했다.

맵알 스트림은 글로벌 네임스페이스, 재해복구(DR), 셀프힐링, 보안, 멀티테넌시, 고가용성(HA) 등의 기능을 제공한다. 맵알 스트림에 하둡, 스파크, 드릴, 일레스틱서치, 버티카, SAP, MS 오피스, 타블로 같은 다양한 서드파티 기술과 제품을 연결할 수 있다고 한다.

AWS나 구글의 스트리밍 서비스와 어떻게 다를까 물어봤다. AWS와 구글은 우수한 성능과 사용자편의성 등으로 무장해 사용자를 유혹한다.

관련기사

그는 “아마존을 차량으로 가져오고 차량으로 연결하는 건 불가능하다. 밴드위스가 작기 때문”이라며 “아마존이 큰 규모의 네다섯개 데이터센터를 운용한다면, 맵알은 수십, 수천만개 데이터센터를 흩뿌려 쓸 수 있다”고 답했다. 이어 “데이터센터 간 연결이 간헐적으로 끊어졌다가 다시 접속되는데, 이 과정의 대응이 자동적으로, 능동적으로이뤄진다”며 “다양한 상황에 맞게 스트리밍을 사용하면서 다양한 수준의 QOS를 적용할 수 있다”고 덧붙였다.

그는 데이터 생성자와 연결되는 엣지 단계에서 데이터 처리를 해야 한다고 밝혔다. 데이터가 만들어지는 단계부터 처리해야 충분한 확장성을 확보할 수 있다는 것이다. 데이터를 이동시켰다가 활용하는 건 시간과 비용의 손해가 크기 때문이란 설명도 붙였다.