“세계 곳곳에서 만들어지는 대용량의 데이터를 즉각 가공하고 알맞고, 안전하게 변형없이 저장하는 스트리밍 아키텍처가 필요하다.”
맵알테크놀로지스코리아 정덕원 박사는 5일 지디넷코리아가 개최한 제13회 어드밴스드컴퓨팅컨퍼런스(ACC)에서 이같이 말했다.
그는 “스트리밍 데이터 처리는 수집, 저장, 처리 등의 ETL 과정에서 많은 시간을 들이게 되는데, 이 레이턴시를 줄이는 게 핵심”이라며 “맵알 컨버지드 데이터 플랫폼은 스트리밍 데이터를 하나의 클러스터에서 모두 처리할 수 있는 간소화된 아키텍처를 갖고 있다”고 강조했다.
빅데이터, 사물인터넷(IoT), 머신러닝 등 최근 IT업계의 핫이슈는 공통적으로 방대한 데이터를 어떻게 다룰 것인가와 관련된다. 초기 빅데이터 시장이 데이터를 어떤 방식으로든 저장해두고 인사이트를 찾는 쪽이었다면, 흘러가는 데이터에 실시간으로 쿼리를 날려 즉각 활용하는 데 관심이 급증했다. 물의 흐름 속에서 현재 일어나는 현상을 파악하고, 바로 대응해 성과를 높이려는 목적이다.
스트리밍 데이터를 활용하는 일은 만만치 않다. 데이터 양도 많고, 형태도 소스에 따라 제각각이어서 쿼리를 날리기 좋게 정돈된 상태가 아니다. 무엇보다 데이터가 끊임없이 흘러 들어오도록 파이프라인이 튼튼해야 한다. 일단 물 샐 틈 없이 데이터가 흘러야 하는 것이다.
이에 데이터 기술로 먹고 사는 전문회사들이 스트리밍 데이터에 대한 제품과 서비스를 앞다퉈 내놓는 추세다. 기존 ETL업체와 콤플렉스이벤트프로세싱(CEP) 솔루션업체가 스트리밍 처리 기술회사로 변신하고 있다. 아마존웹서비스, 구글클라우드플랫폼, 마이크로소프트 애저 등 퍼블릭 클라우드 서비스업체는 스트리밍 데이터 처리 기술을 서비스로 내놓고 있다.
맵알 컨버지드 데이터 플랫폼은 데이터베이스(맵알DB), 맵알파일시스템, 맵알스트림 등으로 구성된다.
이중 맵알 스트림은 센서 데이터를 수집하고 정제한 뒤 저장소로 보내는 ETL 작업을 수행한다. 분산 메시징 처리 시스템으로 높은 대역폭과 안정성을 제공한다.
맵알 스트림은 글로벌 네임스페이스, 재해복구(DR), 셀프힐링, 보안, 멀티테넌시, 고가용성(HA) 등의 기능을 제공한다. 맵알 스트림에 하둡, 스파크, 드릴, 일레스틱서치, 버티카, SAP, MS 오피스, 타블로 같은 다양한 서드파티 기술과 제품을 연결할 수 있다.
관련기사
- “데이터 시각화, 데이터와 대화하는 방법”2016.07.05
- "디지털 시대 고객 접점도 자산화할 수 있어"2016.07.05
- "정부 클라우드 안정성 검증됐다"2016.07.05
- "클라우드 데이터관리로 제품·서비스 지능화하라"2016.07.05
그는 “스트림으로 들어온 데이터는 레이턴시없이 즉각 룰이나 정책 기반으로 이벤트를 처리하게 해준다”며 “맵알CEP를 그 위에 올려 고객, 공급자 또는 모든 마케팅 캠페인이나 센서 간의 연동으로 특정 시간에 비즈니스 조건에 기반한 액션을 취하게 해준다”고 말했다.
그는 “스트림, 파일스토리지, 데이터베이스, 분석툴 제공하는 단일 클러스터에서 모든 것을 제공한다”며 “데이터 소스, 비정형 데이터 수집, 처리, 모델링 등 복잡한 논리적 단계들이 하나로 처리된다”고 강조했다.