라즈베리파이에 올린 하둡, 성능은?

컴퓨팅입력 :2017/10/11 15:13

오픈소스 빅데이터처리 플랫폼 하둡을 초저가컴퓨터 라즈베리파이 기반 시스템에서 운영하는 실험 결과가 공개됐다.

6일 미국 지디넷에 따르면, 컴퓨터잡지 프로시디아컴퓨터사이언스에 '이미지 분석을 위한 저비용 하둡 클러스터 성능'이란 기고문이 게재됐다.[기고문 바로가기]

바짓 큐레시아, 샤시르 자베다, 애니스 쿠바, 무함마드포에드 스리티크, 마람 알아즈란 등의 연구진이 작성한 이 글은 20노드 규모의 라즈베리파이2 클러스터에 하둡 플랫폼을 설치하고, 감시용 드론 촬영 이미지를 분석했을 때 성능치를 담고 있다.

저자들은 라즈베리파이 5개씩 4개의 서브넷으로 이뤄진 클러스터를 만들었다. 서브넷 당 5개의 각 라즈베리파이는 16포트의 기가비트급 스위치에 연결되고, 이 스위치 4개가 코어 스위치와 연결된다. 스위치 사양에 따르면 클러스터 규모는 라즈베리파이 300개까지 확장할 수 있다.

각 디바이스는 라즈베리파이 모델2B 사양인 브로드컴 BCM2836 SoC, 900MHz 쿼드코어 ARM 코어텍스A7 CPU, 브로드컴

비디오코어IV@250MHz, 1GB SDRAM 등을 기본으로 한다. 저장매체는 클래스10 16GB SD카드를 사용했다.

소프트웨어의 경우 운영체제(OS)로 ARM 프로세서에 특화된 데비안계열 OS인 라즈비안OS를 쓴다. SD카드에 OS 이미지를 저장하고, 이 이미지는 하둡2.6.2 버전을 포함한다. 마스터노드는 하둡클러스터의 네임노드만 설치했다. 마스터노드는 우분투 14.4와 하둡 등을 설치한 PC다. SD카드는 초당 읽기쓰기 80MB 성능을 낸다.

하둡은 구글 맵리듀스와 구글파일시스템(GFS)을 구현한 오픈소스 SW로, 대규모 데이터를 병렬 처리한다.

라즈베리파이 모델2B는 CPU를 최대 700MHz 클럭속도로 기본 설정하며, 오버클럭 시 1GHz까지 속도를 높일 수 있다.

저자들은 클러스터를 세 종류로 구성해 벤치마크 테스트를 실행했다. 라즈베리파이 모델2B 기본 설정인 700MHz 클럭속도로 한 구성과, 라즈베리파이 모델2B CPU를 오버클럭한 1GHz 클럭속도로 한 구성이다. 마지막으로 비교를 위해 VM웨어 워크스테이션의 가상머신 4개에 마스터노드와 데이터노드 모두를 운영하는 구성을 만들었다. VM웨어를 설치한 시스템은 인텔 i7 3GHz CPU와 4GB RAM 기반의 4노드 PC 수준이다.

벤치마크 테스트는 파이 연산 작업, 단어 수 세기, 대용량 이미지 파일 픽셀 수 세기 등을 진행했다.

파이 연산 벤치마크 결과(왼쪽), 픽셀 수 연산 벤치마크 결과(오른쪽)

테스트 결과 파이 연산의 경우 CPU를 오버클럭했을 경우가 기본 클럭속도일 때보다 약간 더 빠른 처리 속도를 나타냈다. x86 기반 가상머신 구성이 가장 빠른 처리 속도를 기록했다.

이미지파일 픽셀 수 세기 작업에서 오버클럭 구성이 기본클럭 구성보다 22% 높은 성능을 보였다.

단어 수 세기 작업에서 오버클럭은 기본클럭보다 50% 높은 성능을 기록했다.

단어 수 세기 벤치마크 결과

일반적으로 x86 클러스터가 ARM 클러스터보다 10~20배 빠른 성능을 보인다. 하지만, 하둡 클러스터를 엣지 컴퓨팅에서 사용하기엔 x86 대신 ARM 계열이 비용효율적일 수 있다.

대규모 데이터센터나 클라우드에 모든 데이터를 모아 한번에 분석하는 게 초기 빅데이터 분석 방안이었다. 이는 현장에서 일어나는 일을 실시간 혹은 원격으로 대응할 때 여러 문제점을 노출한다. 순간적 위기에 따라 즉각적인 결정을 해야 할 때 타이밍을 놓칠 수 있다. 데이터를 중앙으로 모을 때 일부가 유실 혹은 유출될 수 있고, 네트워크 환경에 따라 시간도 오래 걸릴 수 있기 때문이다. 데이터 전송 비용도 높아질 수 있다.

이런 문제를 해결하기 위해 데이터를 만들어내는 현장에서 소정의 분석업무를 처리하자는 아이디어가 엣지 컴퓨팅이다.

드론 촬영 이미지를 데이터센터에서 분석하기 전, 엣지 단계에서 사전처리하는 경우가 그 예다. 더구나 최신 제품인 라즈베리파이 모델3의 경우 실험에 사용된 라즈베리파이 모델2보다 2배 이상의 클럭속도를 제공한다.

관련기사

저자들은 또한 하둡이미지프로세싱인터페이스(HIPI)를 라즈베리파이 클러스터에 최적화해 성능을 더 높일 수 있었다고 설명했다.

드론을 통한 감시나 재해복구 시나리오에서 원격 이미지 분석 처리를 수행하는데 라즈베리파이와 하둡의 조합이 저비용, 소형이란 점에서 유용하다는 결론이다.