[솔루션 리뷰/테라원 슈퍼쿼리] "빅데이터 시장 최적 솔루션...데이터 패브릭 시장 선도"

데이터스트림즈가 개발...최근 공공기관에 적용

컴퓨팅입력 :2020/05/14 09:08    수정: 2020/11/22 11:23

데이터 처리량이 폭증하면서 데이터 시장과 기술도 급변하고 있다. 미국 시장조사 및 컨설팅 기업 IDC는 글로벌 데이터 처리량이 2018년 33제타바이트(ZB)에서 2025년 175제타바이트로 크게 증가할 것으로 전망한다.

데이터 폭증 시대를 맞아 기업은 필요한 데이터를 보다 빨리 받아보기 원한다. 정확한 숫자에 근거한, 데이터 경영을 해야 하기 때문이다. 데이터를 얼마나 잘 관리 및 처리하는 것이 기업경쟁력을 가른다.

지난 수십년간 데이터 관리 기술은 데이터웨어하우스(DW)에서 데이터 호수(Data Lake), 또 최근에는 데이터 패브릭(Data Fabric) 기술이 주목받고 있다. 와중에, 데이터 전문회사 데이터스트림즈(대표 이영상)가 지난해 10월 출시한 데이터 가상화 솔루션 '테라원 슈퍼쿼리(TeraONE Super Query)'는 기업의 데이터 패브릭 전략을 완성시킬 수 있는 제품으로 주목받고 있다.

국내 첫 데이터 패브릭 제품으로 주목받고 있는 테라원 슈퍼쿼리.

'데이터 패브릭'은 데이터 거버넌스를 기반으로 한다. 기존 빅데이터 레이크 기술에 이기종의 다양한 데이터를 물리적 이동 없이 디스크 캐쉬 및 메모리 캐쉬를 기반으로 데이터를 가상화, 통합 및 분석할 수 있는 기술이다. 보통 기업은 업무 확장에 따라 첨단 애플리케이션 사용을 늘린다. 하지만 스토리지 시스템은 여전히 레거시(구형 시스템)에 의존, 데이터 사일로(분절)가 발생한다. 사일로 데이터는 시간이 지날수록 처리하기 어렵고, 데이터 효율성은 물론 스토리지 보안과 신뢰성, 확장성 문제를 초래한다.

데이터 패브릭 개념 2014년 등장...가트너가 2019년 10대 트렌드로 꼽아

애플리케이션 고도화만 초점을 둘 게 아니라 이로 인해 쌓이는 데이터를 어떻게 저장하고 활용할 지를 고민하는 차원에서 '데이터 패브릭'이 등장했다. 글로벌로는 미국 넷앱이 2014년 10월 처음 데이터 패브릭 개념을 발표했고, 2019년 가트너는 데이터 패브릭을 '2019년 데이터 및 분석 기술 10대 트렌드' 중 하나로 꼽았다. 국내에서는 데이터스트림즈가 이 분야를 선도하고 있다.

안현주 데이터스트림즈 프러덕트서비스(PS) 본부장은 "데이터 플랫폼 기술이 데이터웨어하우스(DW)에서 데이터 레이크로, 또 데이터 레이크에서 데이터 패브릭으로 진화가 이뤄지고 있다"면서 "데이터 패브릭은 데이터 통합 저장소 뿐 아니라 데이터 관리체계(거버넌스)와 가상화 기술이 중요한데, 이 세가지 기술을 모두 갖춘 곳은 세계에서 데이터스트림즈가 유일하다"고 밝혔다.

안 본부장에 따르면 세계 컴퓨팅 기술 종주국인 미국 기업도 데이터페브릭에 관해서는 데이터스트림즈처럼 풀라인업 기술을 가진 곳이 없다. 안 본부장은 "미국 SAS는 통합 툴(플랫폼)과 가상화가 있지만 거버넌스가 미흡하고, 인포메티카는 통합기술은 강하지만 우리처럼 가상화 기능은 미흡하다"고 설명했다.

■이기종 플랫폼 데이터 하나처럼 분석 등 여러 돋보이는 기능 지녀

데이터스트림즈가 국내 처음 지난해 10월 선보인 데이터 가상화 솔루션 '테라원 슈퍼쿼리'는 이 회사 보유 원천 기술인 고속 데이터 추출 엔진 'FACT'와 가상화 레이어와 물리적 레이어를 매핑시켜주는 메타데이터 관리 엔진 '메타스트림(MetaStream)', 또 오픈소스 병렬분산처리 엔진 '아파치 스팍(Apache Spark)'을 기반으로 자체 개발한 솔루션이다.

기능상 여러 주목할 점이 있다. 첫째, 이기종 플랫폼의 다양한 데이터 소스 (DBMS, 하둡, 하이브, 클라우드)를 하나의 데이터 소스처럼 분석할 수 있다.

둘째, 디스크 및 메모리 캐쉬를 활용해 사전 예약한 작업은 기존 데이터 웨어하우스처럼 디스크 캐쉬의 reserved area에 저장이 가능하고, 메모리 캐쉬에 통합한 데이터는 인메모리 분산처리 기반으로 기존 분석 성능보다 평균 10배 가량의 성능 향상 효과를 낸다.

셋째, 표준 JDBC 드라이버를 지원하는 모든 시각화 및 분석 툴과 연계가 가능하다. 이에 따라, 현재 비아이매트릭스(Bimatrix)와는 제품 연계와 공동 마케팅 MOU를 맺은 상태고, 타블로(Tableau)와도 제품 연계 작업을 진행하고 있다.

또, 데이터 사이언티스트들이 가장 많이 사용하는 파이선(Python) 및 알(R)과 연동해 분산 메모리 기술을 활용할 수 있어 호응이 높다.

마지막으로 분석 대상 테이블과 컬럼 단위 신뢰도 수준(DQL, Data Quality Level)을 제공한다. 대상 소스 데이터에 대해 측정된 표준, 품질 수준을 쿼리 및 분석 수행 즉시 제공, 데이터 표준 및 품질 수준을 지속적으로 관리할 수 있게 한다. 이런 부분이 데이터 거버넌스 기술과 데이터 가상화 기술을 모두 보유한 데이터스트림즈만의 독보적인 시장 선도 역량이다.

테라원 슈퍼쿼리 아키텍처

공공기관에 첫 적용...비용 줄이고 데이터 처리 효율성은 높여

최근 '테라원 슈퍼쿼리'는 한 공공기관에 성공적으로 적용이 완료됐다. 안 본부장은 "가상화 기술이 들어간 우리의 테라원 슈퍼쿼리를 사용함으로써 이기종 데이터들을 물리적으로 이동해야 하는 번거로움과 비용 부담을 줄였다"면서 "기존 데이터 웨어하우스 방식보다 공수(작업인력)가 100맨먼스(한달에 100명 투입)에서 80맨먼스(한달에 80명 투입)로 줄었고, 복잡한 쿼리 개발 소요시간도 최대 36%정도 절감됐음을 확인했다"고 설명했다.

이어 안 본부장은 “분석 성능 또한 디스크 캐쉬 적재 후 메모리 캐쉬로 올라가는 단계를 거치더라도 기존 성능 대비 진보적인 향상 효과가 있었다"며 "메모리 캐쉬에 올라간 데이터는 별도 데이터 마트 구성없이 필요 시 수시로 분석 가능하며, 평균 10배까지 성능이 개선된다. 사용자들이 수행하는 실제 쿼리 데이터를 학습시켜 사용자들이 많이 사용하는 쿼리 중심의 스마트 캐쉬 관리 기능도 적용할 계획"이라고 덧붙였다.

데이터페더레이션 방법론도 만들어 선보일 계획

이런 효과를 확인한 데이터스트림즈는 데이터 패브릭을 회사 제품 및 기술 로드맵에 반영, 시장 확대에 나서고 있다. 데이터 패브릭이 데이터 레이크를 잇는 '물건'이 될 거라는 판단에서다. 실제 고객 사이트 케이스를 기반으로 기존 데이터 웨어하우스 방법론을 대체할 수 있는 데이터 페더레이션 방법론도 완성할 계획이다.

데이터 페더레이션에 앞서 데이터 레이크는 빅데이터 시대를 맞아 지난 10년간 데이터웨어하우스(DW)를 대체하며 주목을 받아왔다. 2000년만 해도 DW가 대세였다. 비즈니스인텔리전트(BI) 구현에 필수였다. DW에 적합한 DB는 관계형 데이터베이스(DB)다. 회사자원관리시스템ERP), 고객관계시스템(CRM), 공급망 시스템(SCM) 등에서 생성되는 데이터가 구조적 정형 데이터여서 관계형 DB가 효율적이었다.

하지만 빅데이터 시대가 열리면서 상황이 달라졌다. 데이터 분석 대상이 ERP, CRM, SCM만이 아니라 소셜미디어, 사물인터넷(IoT) 등으로 확대됐기 때문이다. 이에 등장한 개념이 '데이터 레이크'다. 데이터 레이크는 데이터 종류에 상관 없이 저장한다. 기업에서 발생하는 데이터를 모아 한 곳에 저장하는 면에서 DW와 같지만, 대상 데이터 종류가 다르다. DW는 구조적 정형 데이터가, 데이터 레이크는 모든 데이터가 저장 대상이다.

안 본부장은 "빅데이터 이전에는 유닉스나 전용 어플라이언스 같이 고가 하드웨어 장비에 데이터 웨어하우스 전용 상용 DB가 올라가야만 기업에서 발생하는 데이터를 처리할 수 있었고, 이에 따라 센서 데이터와 파일 데이터 등 무수히 많은 데이터들이 고비용 문제로 처리되지 못했는데, 하둡 같은 빅데이터 툴이 나오면서 달라졌다"면서 "하둡은 분산파일시스템으로 검색하는 사람들에게 서비스를 밀어주기 위해 만들어졌다"고 말했다.

데이터스트림즈의 연구 산실인 판교 연구소.

빅데이터 기술 등 탄탄...다양한 차세대 정보계 제안

데이터스트림즈는 빅데이터 기술에도 강한 회사다. 이미 오래전부터 자사 제품에 파일 분산 병렬 기술을 적용했다. 안 본부장은 "우리가 오래전부터 공급하고 있는 '테라스트림(TeraStream)'은 하둡과 RDBM에 동시에 적재할 수 있는 파일 분산 병렬처리 시스템의 원천 기술"이라며 "글로벌 데이터 통합, 관리, 분석 트렌드에 발맞춰 지속적으로 신제품을 출시해 나갈 수 있는 원동력으로 작용하고 있다"고 설명했다.

지난 10년간 '위력'을 보여온 데이터 레이크도 단점을 갖고 있다. 데이터를 그냥 하둡에 분산 저장, 분석한다. 그러다보니 데이터 품질 문제 등이 발생, 거버넌스 필요성이 대두됐다. 데이터 패브릭이 등장한 이유다.

관련기사

안 본부장은 "패브릭은 데이터 관리 기능이 기본적으로 밑에 깔린다. 또 물리적으로 한 공간에 저장하지 않는다는 점에서도 레이크와 다르다"면서 "패브릭은 데이터 플랫폼, 거버넌스, 가상화 등 세 컴포넌트로 구성된다"고 말했다. 데이터스트림즈는 데이터 패브릭을 위한 거버넌스와 데이터를 저장하는 빅데이터 플랫폼 및 데이터 가상화 기술까지 보유, 주목을 받고 있다. 가상화 기술까지 갖춘 패브릭 제품(슈퍼 쿼리)을 보유한 곳은 데이터스트림즈가 유일하다는게 회사 설명이다.

안 본부장은 "이런 아키텍처를 갖고 있기 때문에 고객에 다양한 차세대 정보계 전략을 제공할 수 있다. 하나의 솔루션만 제안하지 않는게 우리 장점이다"고 말했다. 한편 데이터스트림즈는 데이터를 보다 잘 모으고 활용하기 위해 도메인 날리지에 밝은 파트너와 협력, 솔루션 고도화에 적극 나서고 있다.