제조현장의 데이터를 한데 모아 여러 분석 사용자에게 알아서 전달하는 솔루션이 나왔다. 데이터레이크에 모이는 데이터를 활용하고자 할 때 분석 담당부서에서 별도로 관련 시스템을 구축해야 했던 불편을 해결해주는 솔루션이다.
드림시스(대표 이광호)는 카프카 기반 데이터레이크의 데이터를 수요 부서로 자동 배포하는 ‘드림이지커넥터(DEC)’를 개발했다.
드림시스의 ‘DEC’는 기업 데이터의 효율적 수집과 재생산을 위해 카프카 기반으로 데이터를 단순하게 통합하고, 쉽고 자동화된 배포 인프라를 제공하는 '데이터 통합' 솔루션이다.
디지털 전환 시대를 맞아 데이터를 모아두는 기업은 많아졌다. 여러 기업이 전사 규모로 데이터를 수집하고 있다. 이를 위해 정형, 비정형 데이터를 ‘데이터레이크’ 한곳에 모아두고, 각 수요 부서별로 필요와 익숙한 기술에 맞게 활용하게 하는 방식이 빠르게 정착하고 있다.
그러나 큰 돈을 투자해 대규모 데이터 저장소를 구축하고도, 쌓이는 데이터를 제대로 활용하는 기업은 매우 적다. 기존 데이터웨어하우스(DW) 의 변경데이터캡처(CDC)나, ETL, 이벤트 스트림 데이터 등을 데이터레이크로 통합하는 것과 별도로 실제 분석 부서에서 원하는 데이터를 가져가기 위한 새로운 시스템을 만들어야 하기 때문이다. 데이터를 모으는 방법과 데이터를 활용하는 방법을 함께 고민해야 하는 상황은 기업의 데이터 기반 운영을 가로막고 있다.
박종명 드림시스 기술마케팅 이사는 “가공되지 않은 다양한 종류의 데이터를 한곳에 모아둔 저장소 집합인 데이터레이크는 캐싱 계층의 정보를 어떻게 분석 계층으로 전달할거냐가 고민거리”라며 “데이터 수집과 정보화 과정이 나뉘어져 있는 상태에서 데이터를 모으는 즉시 서비스에 활용하지 못하는 문제가 크다”고 설명했다.
그는 “분석 계층에서 데이터를 쉽게 가져가는 딜리버리 계층을 만들자는 아이디어에서 출발해 사용자가 누구든 카프카에 메시지를 올리면 타깃 데이터베이스에 맞게 변환해주는 솔루션을 만들게 됐다”고 말했다.
카프카는 여러 유형의 실시간 데이터 피드를 관리하는 메시지 큐 플랫폼이다. 높은 처리량, 낮은 지연시간을 강점으로 하며, 데이터 피드를 확장 가능한 pub/sub 메시지 큐로 정의할 수 있으며, 스트리밍 데이터를 처리할 수 있다.
카프카는 어떤 앱, 어떤 솔루션이든 접근하기 쉽다. 선입 선출 방식의 큐기 때문에 데이터를 넣고 빼기 쉽다. DEC는 실시간 딜리버리 계층을 형성해 데이터 통합 환경에서 분석 시스템 쪽으로 데이터를 실시간으로 전달해준다.
박종명 이사는 “카프카는 복잡한 과정을 거쳐 카프카 컨슈머를 만들게 되는데 DEC는 1시간만 익히면 바로 컨슈머를 배포하고 쓸 수 있다”며 “고가의 CDC에서 카프카를 지원해도 제공업체의 방식과 범위로 제한하고 가이드도 잘 주지 않는데 비해, 카프카용 DEC는 CDC, ETL, 이벤트 메시지 등 벤더에 상관없이 카프카에서 각 메시지 규약을 이해해 아주 간단한 저장과정만 거쳐 원하는 DB에 전달한다”고 말했다.
그는 “SaaS 형태의 작은 바이너리이며, 온프레미스나 클라우드 인프라, SaaS 형태 어디에도 통합 서비스를 제공할 수 있다”고 덧붙였다.
DEC는 카프카에 올라오는 메시지를 컨슈머에서 분석해 원하는 DB에 전달한다. 현재 관계형 DB를 지원하는데 향후 빅데이터나 다양한 애플리케이션으로 확장할 예정이다. 1차로 CDC만 지원하지만, 앞으로 ETL, 이벤트 스트림 등도 지원하게 된다.
DEC 설치 요건은 간단하다. CPU 2코어, 메모리 2GB, JDK 1.8 이상이면 된다. 간단한 설정을 웹 UI나 CLI 로 관리할 수 있다. 웹 UI는 오픈 API를 제공해 커스터마이징할 수 있다. 테이블 매핑과 자동화된 컬럼 매핑 및 변환이 가능하다. 중복에러 등 각종 데이터 제어 오류를 간단히 제어해 특정 파일로 만들거나, 특정 에러를 무시하고 데이터 프로세스를 유지할 수 있도록 하는 기능도 제공한다.
관련기사
- 커지는 데이터 산업…'레이크하우스' 방식이 뜬다2021.01.05
- 엔코아, 데이터레이크 문제 해법으로 데이터가상화 강조2019.11.28
- 4차위, 산업별 데이터 활용 정책과제 찾는다2021.04.08
- "개발자·데이터 전문가 부족하다면, 돌파구는 DB다"2021.04.07
드림시스는 반도체 설비의 데이터 관리를 위한 솔루션으로 유명한 회사다. 이에 반도체 기업의 요구 성능에 맞춰 DEC를 개발했다. DEC는 1일 생성 데이터 10TB 규모를 처리하는 경우 120칼럼 업데이트 60~70회에서 초당 5천건 이상을 처리할 수 있다.
이광호 드림시스 대표는 “DEC는 반도체 등 제조기업 환경에 맞춰 개발됐지만, 금융이나 타 산업분야로도 확장할 수 있다”며 “드림시스는 데이터 쪽의 풍부한 경험을 갖고 있으며, 데이터 인터페이스와 딜리버리, 분석 등에서 가장 다양한 경험을 가진 회사”라고 강조했다.