카산드라 DB 위에 스파크 올린다

카산드라 데이터베이스(DB)로 실시간 분석을 할 수 있게 된다.

8일(현지시간) 외신에 따르면, 데이터스택스는 아파치 스파크 기술업체인 데이터브릭스와 파트너십을 체결하고, 카산드라와 스파크 통합작업에 착수한다고 밝혔다.

아파치 스파크는 2009년 UC버클리 AMP랩에서 개발한 인메모리 기반의 하둡 데이터처리 프레임워크다. 실시간 처리와 손쉬운 프로그래밍 등이 강점이다. 배치 기반 하둡분산파일시스템(HDFS) 데이터 처리엔진인 스파크, 스파크 상에서 하이브QL을 사용할 수 있는 샤크, 실시간 처리엔진 스파크 스트리밍, 머신러닝라이브러리(MLLib), 분산그래프시스템 그래프X 등 5개 아파치 오픈소스 프로젝트로 구성된다.

스파크는 전체 애플리케이션의 성능을 가속하는 인메모리 파이프라이닝(pipelining)과 범용 실행 프레임워크를 제공한다.

개발자는 스파크를 통해 기존 코드의 5분의1 정도 라인으로 구현할 수 있으며 RDD(Resilient Distributed Dataset) 같은 분산 객체를 사용해 애플리케이션을 설계할 수 있다. 자바, 스칼라, 파이선 등의 프로그래밍 언어를 지원하며 스트리밍 기반 실시간 작업 등 여러 환경에서 같은 코드를 사용할 수 있다.

카산드라는 키벨류 구조의 NoSQL DB로 페이스북 개발자들이 저가 하드웨어에 대용량 데이터를 저장할 수 있는 소프트웨어 플랫폼 개발을 모색하다 만들어냈다. 구글의 빅테이블 데이터모델과 아마존의 다이나모DB에 기반을 둔다. 2008년 오픈소스로 공개된 이래 아파치소프트웨어재단 프로젝트로 등록됐고 NASA, 트위터, 델, 액센츄어 등 다양한 곳에서 활용중이다.

아파치 스파크는 HDFS 상단에 올라가도록 설계돼 있다. 데이터스택스와 데이터브릭스는 카산드라 DBMS 위에 스파크를 올리는 작업을 하게 된다. 전자상거래, 사기방지시스템 등의 실시간 분석에서 카산드라의 효용성을 높이겠다는 의도다.

이를 위해 두 회사는 스파크의 스토리지 인터페이스인 RDD에서 카산드라 저장 데이터를 이해할 수 있게 하는 작업을 진행한다. 카산드라 쿼리언어로 스파크 엔진에서 분석하게 만드는 것과 관련된다.

데이터스택스는 카산드라로 HDFS를 대체하고, DBMS의 상단에서 곧바로 분석할 수 있게 하는 것을 원하고 있다.

카산드라 DB 위에 스파크 올린다

관련기사

지금 뜨는 기사

이시각 헤드라인

[ZD브리핑] 최태원 회장이 밝히는 美 나스닥 ADR 상장 이후 청사진은

오픈AI "GPT-5.6 솔 울트라, 50년 수학 난제 1시간 만에 증명"

디나미스 원, 서브컬처 해답은 '오가닉 아트'…"창작의 중심은 사람"

美, 프론티어 AI에 안보 고삐…"韓도 위험평가 체계 갖춰야"

ZDNet Power Center