아마존웹서비스(AWS)가 최근 내놓은 실시간 데이터 처리 서비스 ‘키네시스(Kinesis)’에 대한 자세한 소개가 한국에서 처음으로 이뤄졌다.
19일 서울 잠실 롯데호텔 크리스탈볼룸에서 열린 ‘제10회 어드밴스드컴퓨팅컨퍼런스(ACC)’ 기조연설자로 나선 마르쿠 레피스토 아마존웹서비스 에반젤리스트는 ‘클라우드 상의 빅데이터 분석’이란 발표를 통해 최근 소개된 키네시스의 아키텍처와 작동 방식을 설명했다.
키네시스는 실시간으로 흐르는 데이터를 클라우드 상에 저장, 처리해 분산컴퓨팅 환경에서 분석하도록 해주는 스트리밍 데이터 프로세싱 서비스다. 금융거래 트랜잭션, 소셜미디어 피드, 위치추적 등 실시간으로 수집되는 수백, 수천 테라바이트 규모 데이터를 AWS에 저장하고 분석할 수 있다.
마르쿠 레피스토 에반젤리스트는 “키네시스는 데이터가 생성되는 순간을 분석하는 것”이라며 “곳곳에서 생성되는 모든 데이터를 키네시스가 수집해 아마존 상에 호스팅시킨 뒤 S3, 레드시프트, 다이나모DB 등에 저장하게 된다”라고 설명했다.
그는 트위터 트렌드란 가상의 서비스를 상정해 키네시스 아키텍처와 구동 방식을 해설했다. 트위터 상의 트윗을 수집해 트렌드를 분석해내는 목적의 서비스다.
키네시스는 트위터의 파이어호스로부터 트윗을 수집한다. 그리고 그 데이터를 쪼개 키네시스 애플리케이션으로 분석한 뒤 글로벌 트렌드 톱10으로 합친다.
그는 “키네시스는 동일한 해시태그를 바탕으로 모으고, 순서 번호를 매겨 어느 시간에 데이터가 들어왔는지 볼 수 있게 해준다”라며 “그 다음 스트리밍을 잘게 쪼개 각 애플리케이션으로 보내주는 역할을 한다”고 설명했다.
AWS 오토스케일링을 통해 데이터 수집장치 장애에 대한 로드밸런싱을 자동으로 하게 된다. 샤드매니지먼트 테이블에서 어떤 노드가 어떤 작업을 하고 있는지 모니터하다가 정기적인 보고가 올라오지 않으면, 다른 노드로 대체한다.
그는 “이 사이 스트리밍 데이터는 계속 저장되고, 시퀀스 정보가 남아 있기 때문에 트위터 정보 누락없이 쌓이고 분석할 수 있다”라고 강조했다.
그는 “아키텍처는 트윗이 파이어호스를 통해 들어오면 키네시스 거쳐 키네시스 앱에 뿌려준다”라며 “이를 EC2로 분석하며, 분석된 데이터는 분석 용도와 방식에 따라 S3, 레드시프트, 글레이쇼 등을 서비스에 저장된다”라고 덧붙였다.
아마존은 이와 함께 스트리밍 분석을 수행하고, 관리 등의 다양한 분야에 응용할 수 있게 해주는 소프트웨어개발도구(SDK)를 제공한다. 인프라 장애 알림, 프로비저닝, 리포팅 등을 자동화하는 앱을 개발할 수 있다.
관련기사
- '퍼블릭 클라우드 경제학' 주목하라2013.11.19
- 아마존 클라우드, 슈퍼컴 분야서도 맹위2013.11.19
- [제10회 ACC]'빅데이터의 충격'...ACC 개막2013.11.19
- 아마존의 질주, IT업계를 떨게 하다2013.11.19
그는 “키네시스는 사용자가 관리하기 쉽고, 리얼타임 스트리밍 데이터의 경우 실시간 퍼포먼스를 보장한다”라며 “처리성능도 높고. 다양한 빅데이터 도구에 쉽게 통합가능해 실시간 빅데이터 앱을 쉽게 구동할 수 있게 해준다”라고 말했다.
그는 “클라우드의 혜택은 탄력성, 셀프서비스, 종량제, 마지막으로 오로지 비즈니스에만 집중하게 해준다란 점”이라며 “키네시스는 아마존의 여러 빅데이터 포트롤리오와 상호보완적인 서비스로 레거시의 제약사항을 없애고 더 많은 실험을 할 수 있게 해 혁신을 늘려줄 것”이라고 강조했다.