마이크로소프트가 아파치 스파크와 유사한 분산처리 기반 데이터 분석 플랫폼을 개발해 오픈소스 SW로 공개했다.
15일(현지시간) 미국 지디넷에 따르면, MS 리서치는 빅데이터 분석 환경과 클라우드 서비스 구축에 활용할 수 있는 분산처리 플랫폼 ‘프러즈너(Prajna)’를 개발해 발표했다.
프러즈너는 MS 리서치의 클라우드컴퓨팅&스토리지(CCS)그룹의 주요 프로젝트로 개발되고 있다. 오픈소스 분산처리 플랫폼으로 닷넷 상단에 SDK를 올려 빠르게 프로토타입 클라우드 서비스를 만들 수 있다고 설명된다. 또한, 대화형 분석에 활용가능한데, 인메모리 분산 빅데이터 분석 역량을 갖고 있다고 묘사된다. 아파치 스파크와 유사하다는 설명이다.
아파치 스파크는 오픈소스 빅데이터 프레임워크 중 하나로, 데이터를 메모리 환경에서 처리해 빠른 속도로 분석하게 해준다. 배치 분석뿐 아니라 스트리밍, 대화형 쿼리분석, 머신러닝 등 다양한 워크로드에서 강점을 보이며 인기를 얻고 있다.
프러즈너는 함수형 프로그래밍 요소를 갖고 있다. 닷넷 함수형 개발언어인 F#를 활용하게 된다.
MS 리서치는 최근 구인공고에서 “프러즈너는 스파크와 유사한 실시간 인메모리 데이터 분석 역량을 제공하지만, 개발자가 클라우드 서비스를 쉽게 구축해 배포하고 모바일 앱에서 소비되도록 하는 추가 역량을 제공한다”고 밝혔다.
이어 “분산 인메모리 키밸류 스토어 같이 상태를 포함한 분산 애플리케이션 구축에 사용된다”고 덧붙였다.
프러즈너는 원래 ‘원넷(OneNet)’이란 이름의 프로젝트였다. 프러즈너는 현재 깃허브에 올라와 있다. 깃허브에 등록된 문서에 따르면, 스파크와 유사한 형태지만 한발 더 앞선 기술이라고 설명된다.
진 리 MS 리서치 연구원은 “프러즈너는 스파크보다 앞선 분산 함수형 프로그래밍 모델을 집어넣었다”며 “스파크보다 더 유연하고, 확장가능하며, 고성능 분산 프로그램이 어떻게 미래를 구축하는 지 변혁을 보여줄 것”이라고 밝혔다.
프러즈너가 MS의 첫번째 분산 컴퓨팅 프레임워크는 아니다. MS 리서치의 프로젝트 중 ‘드라이어드링크(DryadLINQ)’, ‘올리언스(Orleans)’, ‘네이에드(Naiad)’ 등이 분산 컴퓨팅 프레임워크와 관련된다. 이중 올리언스는 벡터모델 기반 분산처리 플랫폼으로 올해초 오픈소스로 공개됐다.
또한 MS 내부용 빅데이터 서비스인 ‘코스모스(Cosmos)’도 분산처리 플랫폼에 기반한다. 코스모스는 빅데이터 연산, 분석, 저장 서비스로 구성돼 있으며 애저, 빙, 애드센터, MSN, 스카이프, 윈도라이브 등에서 나오는 데이터를 관리하고 분석할 수 있게 한다. 현재 MS 내부에서 5천명의 개발자와 수천명의 사용자가 코스모스를 사용중인 것으로 알려졌다.
코스모스는 핵심요소로 코드명 ‘코나(Kona)’로 알려진 분석엔진과, 코드명 ‘카보(Cabo)’로 알려진 스토리지 엔진 등을 포함한다. 또한, 새로운 SQL 친화적 언어 ‘SQL-IP’란 언어를 제공한다. 데이터 분산처리가 드라이어드링크를 활용해 이뤄진다. 드라이어드링크는 하둡과 유사한 기술이다.
관련기사
- 클라우드 기반 스트리밍 데이터 처리 주목...왜?2015.09.16
- 빅데이터, 스파크 열풍...MS도 본격 투자2015.09.16
- IBM, '아파치 스파크' 생태계에 통큰 투자2015.09.16
- MS 애저 PaaS가 남달라 보이는 이유2015.09.16
SQL-IP는 SQL, C#, 닷넷 등을 혼합한 것이다. 비주얼스튜디오 플러그인으로 SQL-IP를 지원하게 된다. SQL-IP는 MS에서 개발한 쿼리언어인 스코프(SCOPE) 언어의 혁신판이다. 스코프는 코스모스의 병렬 쿼리를 위한 언어로, 단일머신에서 분산/병렬 쿼리를 처리하도록 개발됐다.
지난주 열린 코타나분석워크숍에서 MS 테크니컬펠로 겸 빅데이터 엔지니어링 리더인 라구 라마크리슈난은 “MS는 코스모스를 회사 외부에 공개할 계획을 세우고 있다”고 밝혔다.