"인메모리DB '키네티카'로 바꿔 400~500배 성능 빨라져"

아밋 비지 사장 방한 인터뷰...미 육군이 개발

컴퓨팅입력 :2018/07/30 14:45    수정: 2018/07/31 10:35

미국 육군 정보보안사령부(INSCOM)는 2009년 센서 데이터 급증에 따라 새로운 분석 시스템을 찾았다. 막대한 양의 데이터를 훨씬 더 빠르게 분석할 수 있는 데이터베이스 기술을 찾다 결국 직접 개발에 나섰다. 그렇게 5년의 시간을 들여 GPU 가속 기술을 인메모리 데이터베이스에 접목한 ‘키네티카’가 만들어졌고, 특허출원을 거쳐 상용화까지 됐다.

'키네티카' DB는 GPU 가속 기반 인메모리 DB다. 막대한 데이터를 수집하는 가운데 SQL언어로 질의를 던져 즉각 답을 찾고, 시각화까지 할 수 있다. GPU를 활용해 CPU 기반 DB의 100배 속도를 낼 수 있다.

최근 방한한 키네티카 공동창업자 아밋 비지 사장 겸 CSO는 “현존하는 기술로 센서나 IoT 데이터를 수집하는데 어려움은 없지만, 이를 곧바로 분석하기는 힘들다”며 “빅데이터를 뛰어넘는 이같은 익스트림 데이터를 GPU로 빠르게 분석하게 만드는게 우리의 비전”이라고 설명했다.

아밋 비지 키네티카 공동설립자 겸 사장.

아밋 비지 사장은 키네티카가 '엔터프라이즈를 위한 애플'이란 올인원 솔루션을 지향한다면서 "기업에서 쓰기 쉽도록 DB면서 SQL엔진도 포함하고, DB 자체에서 머신러닝 같은 인공지능 기술까지 활용하게 한다”며 “GPU가 비디오 렌더링에 많이 쓰이는 만큼 이를 시각화에 적용해 기존 기술보다 더 빠르게 시각화할 수 있다”고 강조했다.

키네티카는 미국 육군과 국토안보부(NSA)가 연구개발비를 제공해 밑바닥부터 완전히 새롭게 만든 DB다. 오픈소스 소프트웨어의 변형이 아니란 얘기다. 육군이 지리정보를 주요 사용처로 고려했고, 실시간 분석을 원했다는 점에서 고성능과 시각화를 달성할 수 있는 GPU를 택한 건 당연한 선택이었다고 한다.

그는 “일반적으로 엔비디아 V100 GPU 하나에 6천개 코어까지 갖고, 서버 하나 당 8개 정도 장착할 수 있다”며 “이런 서버 50~60대면 수백만개 코어로 데이터를 연산하게 되는 것”이라고 설명했다.

그는 “GPU를 활용하니 실시간 분석도 하게 되고, SQL 쿼리에 1초 이내의 응답속도를 낼 수 있고, 수백억에서 수천억건의 시각화 처리도 인터랙티브하게 할 수 있다”며 “공간, 시간, 풀텍스트 서치 등의 분석과 시각화, 머신러닝과 AI까지 더 쉽게 연계 가능해진다”고 덧붙였다.

키네티카 중심의 기업 데이터 분석 환경 다이어그램

키네티카는 인메모리 GPU 아키텍처와 GPU 추상화 기법을 활용한다. CPU와 GPU를 조합해 계산 집약적 작업은 CPU로 처리하고, 병렬 처리 작업은 GPU로 처리한다. 시스템 메모리뿐 아니라 GPU 내장 VRAM까지 사용한다. 컬럼 중심 DB 설계에 따라 개별 컬럼은 여러 개의 컬럼 세그먼트로 나뉘고, 이를 ‘딕셔너리’를 사용해 개별 압축되다. 딕셔너리는 테이블의 메모리 사용을 줄이고, 캐릭터 기반 컬럼 값이 CPU에서 GPU로 빠르게 이동하도록 돕는다. 컬럼에서 운영되는 쿼리 역시 멀티코어 및 GPU 아키텍처 를 향상시키기 위해 벡터화됐다. 백터화된 다중 컬럼을 동시에 처리하므로 쿼리 처리량이 향상됐다.

키네티카의 또다른 장점은 DB 자체에서 시각화, 분석, 머신러닝을 수행한다는 것이다. 이는 데이터를 데이터웨어하우스(DW)나 분석 시스템으로 이동시키지 않는다는 의미다. 지리정보 시각화의 경우 키네티카는 DB와 시각화 엔진 사이에 데이터를 옮기지 않고, 복잡한 지형 공간 필터 적용과 분석을 DB 계층에서 바로 실행한다. 키네티카에 포함된 지형 공간 웹 서버를 사용해 분석 결과를 바로 렌더링할 수 있다.

아밋 비지 사장은 “미 우정국은 세계서 가장 큰 물류회사인데 실시간으로 우편이 어떻게 이동하는지 실시간으로 배달차량을 모니터하고 싶어했고, 미국 최대 소매유통회사는 재고부터 공급망관리까지 실시간으로 물류의 흐름을 최적화하고 싶어했다”며 “그들이 사용하던 오라클이나 기존 DB는 막대한 데이터와 실시간 데이터를 동시에 제어하면 DB 장애가 나지만, 키네티카는 문제없이 결과를 받을 수 있었다”고 말했다.

키네티카는 처음부터 GPU의 강력한 성능을 토대로 대규모 지형 공간 데이터 세트 스트림을 처리, 분석하기 위해 설계됐다. 수천 개의 GPU 노드, 여러 개의 카드, 그리고 시스템에 활용해 지형 공간 정보를 계산하는 데 쓰였다. GPU는 컬럼 백터화, 시각화 등의 작업과, 그룹바이, 애그리게이션, 필터 적용 등의 작업에 동원된다.

그는 “엔터테이먼트기업인 시저는 기존 테라데이타와 태블로 시각화를 사용하다 키네티카로 바꿨다. 기존보다 24배 빠른 성능을 누리게 됐고, 서버도 1랙 쓰던 걸 구글클라우드플랫폼에 노드 2개로 바꿔 하드웨어 비용도 줄였다”며 “미국우정국(USPS)은 시장에서 가장 많이 쓰이는 인메모리 DB를 쓰다 키네티카로 바꿔 100배 속도 향상이란 성과를 얻었다”고 강조했다.

그는 “미국 육군은 오라클 DB 1랙을 키네티카 인스턴스 한개로 바꿔 성능 1천배 향상의 결과를 얻었다”며 “PGN이란 캘리포니아 에너지회사는 인메모리DB를 키네티카로 바꿔 400~500배 성능이 빨라졌다”고 덧붙였다.

그는 “일반적인 DB는 데이터 소스 하나당 DB 하나만 가져가는데, 여러개 DB를 가지면 데이터 인제스트하면서 분석하는게 불가능하고, 인덱스를 만들면서 쿼리를 던지니 DB가 느려진다”며 “키네티카는 인덱스 빌딩을 하지 않기 때문에 데이터를 받으면서 바로 쿼리를 날릴 수 있다”고 설명했다. 키네티카는 인덱스를 분산 저장하는 데이터를 관리하는 데 사용한다.

키네티카는 작업의 유형에 따라 CPU와 GPU 활용을 구분한다.

키네티카는 온프레미스 시스템이나 클라우드 환경 모두에 구축 가능하다. 최신 GPU 인사이트 엔진의 사용량만큼 비용을 지불하는 방식으로 이용할 수도 있다. 아마존웹서비스(AWS), 구글클라우드플랫폼의 2세대 GPU 인스턴스 환경에서 실행가능하다. 엔비디아 GPU 클라우드의 컨테 이너 환경에서도 사용가능하다. 엔비디아 DGX나 GPU 및 CUDA 드라이버를 포함하는 엔터프라이즈 서버에서 운영할 수 있다.

키네티카는 스케일업과 스케일아웃 확장을 선형적으로 할 수 있다. 클러스터를 구성하는 서버의 GPU나 스토리지 자원을 추가하면 스케일업 확장이다. 서버 대수를 늘리거나, 각 서버에 장착된 GPU나 저장 매체를 늘리면 스케일아웃 확장이 된다.

ANSI SQL-92 호환 ODBC 커넥터, JSON이나 avro를 지원하는 REST API를 통해 애플리케이션은 서버로 데이터 처리를 자유롭게 요청할 수 있다. 기존 ETL이나 데이터 처리 관련 애플리케이션을 계속 사용할 수 있다는 뜻이다. 키네티카는 데이터 쿼리 및 관리를 위해 API 세트를 제공한다. 키네티카 애플리케이션 SDK는 C++, 자바, 자바스크립트, 노드JS, 파이썬, C# 등의 다양한 언어에서 사용가능하다.

그는 “UDF(User-defined Functions)라는 기능으로 어떤 형태의 머신러닝이든 키네티카 플랫폼으로 가져와서 알고리즘 그대로 활용할 수 있다”며 “텐서플로는 키네티카 플랫폼에 함께 포함돼 있고, 토치, 파이토치, 카페 등도 사용가능하다”고 설명했다.

뉴욕시 택시 흐름을 보여주는 키네티카 시각화 대시보드

그는 “데이터 이동을 하지 않기 때문에 퍼블릭 클라우드의 데이터 서비스와 비교해도 네트워크비용을 들이지 않아도 된다”며 “기본적으로 GIS에서 필요한 70여개 펑션을 GPU에 최적화해놨는데, 이처럼 머신러닝 알고리즘도 네이티브 API처럼 키네티카서 쓰도록 할 로드맵을 갖고 있다”고 덧붙였다.

키네티카는 스토리지 계층화 기술을 활용해 저장 비용을 절감한다. GPU VRAM, DRAM, 하드디스크 등으로 이용 매체를 나누고, 데이터 활용빈도나 패턴에 따라 사용되는 매체를 자동으로 나눈다. 스토리지 계층화 기능은 올해말 나올 버전에 포함될 예정이다.

관련기사

보안 기능으로 역할 기반 접근제어 관리를 제공한다. 저장되는 데이터는 AES256 표준으로 암호화한다.

아밋 비지 사장은 “통신, 에너지, 유통. 밀리터리 등 강한 산업 분야에서 매출을 2~3배 늘리는 게 목표”라며 “머신러닝과 인공지능이 엔터프라이즈해서 많은 관심을 받고 있고, 스마트시티 등 IoT도 관심을 많이 갖고 있어 이 분야에도 많은 집중을 하고 있다”고 밝혔다.