온라인 동영상서비스업체 넷플릭스가 퍼블릭 클라우드와 오픈소스 아파치 하둡을 사용하는 내부 데이터 분석 아키텍처를 공개했다.
최근 외신에 따르면, 넷플릭스는 아마존웹서비스(AWS) 인프라 상에 운영중인 하둡 워크로드 아키텍처와 함께 내부 개발자에게 제공해온 서비스로서의 하둡 플랫폼(HPaaS)'를 공개했다.
넷플릭스의 하둡 아키텍처는 동영상 스트리밍 서비스의 확장성과 복수 클러스터의 관리 및 액세스에 대한 여러 장벽을 제거한 것이다. 미국 최대의 온라인 스트리밍 서비스를 제공하는 넷플릭스는 데이터웨어하우스(DW)와 하둡 분석 플랫폼을 AWS 상에서 운영하고, '지니(Genie)'란 이름의 'HPaaS'을 사용하고 있다.
넷플릭스는 대규모 하둡 사용자로 유명하다. 지난해 6월 하둡서밋에서 넷플릭스는 데이터를 수집해 분석하는 작업에 대해 설명하면서 이 작업의 스토리지와 프로세싱 엔진으로 하둡을 사용중이라고 밝혔다.
가장 최근에 공개된 내용은 하둡이 넷플릭스에게 플랫폼 이상으로 작용하는 모습을 보여준다.
넷플릭스는 약 500개의 AWS 일래스틱 맵리듀스 인스턴스를 운영하고 있다. 동일한 규모의 클러스터가 데이터 추출·변환·적재(ETL) 워크로드를 담당한다. 또한 이 회사는 필요에 따라 개발자를 위한 다양한 클러스터를 운영하고 있다.
넷플릭스의 데이터 분석 노력은 전통적인 아파치 하둡을 클라우드 상에서 변형해 사용한다는 점에서 매우 흥미롭다.
넷프릭스의 슈리암 크리슈난은 하둡분산파일시스템(HDFS) 대신 스토리지단으로 S3를 사용하는 방법을 설명했다. 넷플릭스는 동일한 데이터 세트를 공유하는 동안 개별적으로 모든 클러스터를 구동할 수 있다. 그러나 같은 지점에서 HDFS는 본질적으로 S3를 통하는 것보다 더 느린 데이터 액세스 속도를 보인다.
관련기사
- 아마존-넷플릭스, 클라우드 장애의 교훈2013.01.14
- 넷플릭스, 인프라 장애 '하필 크리스마스에…'2013.01.14
- 넷플릭스, 로드밸런싱 기술 '유레카' 공개2013.01.14
- 넷플릭스, 美최대 케이블TV 시청률 추월2013.01.14
넷플릭스는 또한 AWS 일래스틱 맵리듀스를 PaaS 같은 형태로 재창조하기도 했다. 지니는 엔지니어들에게 REST API를 통해 작업을 제출하고 아랫단 인프라에 대한 특정지식이 필요하지 않다. 이는 하둡 사용자가 어느 클러스터가 주어진 시간에 사용가능할 지 신경쓰지 않아도 언제든 원하는 작업을 시작할 수 있다는 의미다.
넷플릭스는 작년부터 AWS에 대한 자사의 독창적인 사용방안과 각종 주요 기술을 오픈소스로 공개하고 있다. 덕분에 넷플릭스는 AWS의 퍼블릭 클라우드를 가장 잘 활용하는 IT회사로 자리매김하는 모양새다.