카산드라 DB 위에 스파크 올린다

일반입력 :2014/05/09 10:18    수정: 2014/05/09 15:34

카산드라 데이터베이스(DB)로 실시간 분석을 할 수 있게 된다.

8일(현지시간) 외신에 따르면, 데이터스택스는 아파치 스파크 기술업체인 데이터브릭스와 파트너십을 체결하고, 카산드라와 스파크 통합작업에 착수한다고 밝혔다.

아파치 스파크는 2009년 UC버클리 AMP랩에서 개발한 인메모리 기반의 하둡 데이터처리 프레임워크다. 실시간 처리와 손쉬운 프로그래밍 등이 강점이다. 배치 기반 하둡분산파일시스템(HDFS) 데이터 처리엔진인 스파크, 스파크 상에서 하이브QL을 사용할 수 있는 샤크, 실시간 처리엔진 스파크 스트리밍, 머신러닝라이브러리(MLLib), 분산그래프시스템 그래프X 등 5개 아파치 오픈소스 프로젝트로 구성된다.

스파크는 전체 애플리케이션의 성능을 가속하는 인메모리 파이프라이닝(pipelining)과 범용 실행 프레임워크를 제공한다.

개발자는 스파크를 통해 기존 코드의 5분의1 정도 라인으로 구현할 수 있으며 RDD(Resilient Distributed Dataset) 같은 분산 객체를 사용해 애플리케이션을 설계할 수 있다. 자바, 스칼라, 파이선 등의 프로그래밍 언어를 지원하며 스트리밍 기반 실시간 작업 등 여러 환경에서 같은 코드를 사용할 수 있다.

카산드라는 키벨류 구조의 NoSQL DB로 페이스북 개발자들이 저가 하드웨어에 대용량 데이터를 저장할 수 있는 소프트웨어 플랫폼 개발을 모색하다 만들어냈다. 구글의 빅테이블 데이터모델과 아마존의 다이나모DB에 기반을 둔다. 2008년 오픈소스로 공개된 이래 아파치소프트웨어재단 프로젝트로 등록됐고 NASA, 트위터, 델, 액센츄어 등 다양한 곳에서 활용중이다.

아파치 스파크는 HDFS 상단에 올라가도록 설계돼 있다. 데이터스택스와 데이터브릭스는 카산드라 DBMS 위에 스파크를 올리는 작업을 하게 된다. 전자상거래, 사기방지시스템 등의 실시간 분석에서 카산드라의 효용성을 높이겠다는 의도다.

이를 위해 두 회사는 스파크의 스토리지 인터페이스인 RDD에서 카산드라 저장 데이터를 이해할 수 있게 하는 작업을 진행한다. 카산드라 쿼리언어로 스파크 엔진에서 분석하게 만드는 것과 관련된다.

데이터스택스는 카산드라로 HDFS를 대체하고, DBMS의 상단에서 곧바로 분석할 수 있게 하는 것을 원하고 있다.

관련기사

데이터스택스는 이 기술을 향후 오픈소스로 공개하고, 카산드라 프로젝트의 유료 옵션 서비스로 제공할 계획이다.

카산드라와 스파크의 결합은 최근 이뤄진 몽고DB와 클라우데라의 파트너십을 연상케 한다. 지난달 30일 클라우데라와 몽고DB는 클라우데라하둡배포판(CDH)에서 사용가능한 하둡용 몽고DB 커넥터를 제공하기로 했다.