“기존 엔터프라이즈 유저의 분석 도구와 하둡 쪽의 도구를 사용했을 때 종전과 같은 수준의 보고서를 만든다면 그냥 쓰던 걸 쓰면 된다. 하지만 하둡의 로데이터를 통해 더 알차고 좋은 분석을 할 수 있다면 SQL온하둡을 쓰는 게 좋다.”
홍준혁 맵알테크놀로지코리아 부장은 3일 서울 잠실 롯데호텔에서 열린 '제11회 어드밴스드컴퓨팅컨퍼런스(ACC)' 오후 세션 발표에서 SQL온하둡과 아파치 드릴 프로젝트를 소개했다.
‘SQL온하둡’이란 데이터분석가에게 이미 익숙한 SQL 쿼리언어로 하둡에 저장된 데이터를 활용하게 하자는 움직임을 말한다.
SQL온하둡은 구글의 드레멜 소개 후 오픈소스 진영을 중심으로 최근 2년 사이 급속도로 개발되고 있다. 아파치 드릴은 맵알의 주도로 시작된 첫 SQL온하둡 프로젝트다.
홍 부장은 “기존의 SQL이 매우 안정적이고, 역사가 오래돼 많은 기능을 내포하고 있어 저변이 넓다”며 “그러나 하둡에 저장된 데이터를 기존 분석가 쪽에서 활용하지 못하는 상황에서 다양한 데이터 소스에서 더 많은 정보를 찾고 비즈니스 확장하고 증가시키는데 필요한 요소로 SQL온 하둡이 필수적으로 요구된다”고 말했다.
분석가들이 SQL언어로 분석하는 데이터는 여러 정제 과정을 거쳐 최적화된 정형화된 데이터다. 그 사이에 버려지는 수많은 데이터까지 모두 포괄해 갖고 있는 게 하둡이라면, 이 데이터를 분석해 더 가치있는 정보를 찾아낼 지 모른다.
SQL온하둡 이전에 분석가들이 하둡을 활용하려면 하둡을 배우거나, 하둡의 데이터를 뽑아내고 스키마 구조로 정제해 DW로 옮긴 후 활용한다. 목적은 결국 빠르고 정확한 결과를 얻어내자는 것인데 더 쉽고 가능성 많은 방법을 찾아야 한다.
홍 부장은 “현재 비즈니스는 급격히 변화하고 있는데, 분석가가 DW에 던지는 질문이 비즈니스 환경의 변화로 인해 기존 스키마에서 정보를 추출하지 못하는 경우가 발생한다”며 “비즈니스는 다이나믹한데 업무환경은 다이나믹하게 포착하지 못하는 문제가 벌어지고 있는 것이다”라고 말했다.
그는 “많은 종류의 SQL온하둡이 있는데 결국 사용자가 자신의 목적과 환경에 맞는 것을 택하면 된다”라며 “다만 드릴은 마스터-마스터 구조로 확장성과 성능에서 강점을 갖는다”고 설명했다.
드레멜은 네트워크비용을 줄이기 위해 로컬처리 위주로 잡을 수행하는 구조다. 다른 노드에 존재하는 데이터에 쿼리를 날렸을 때 발생하는 병목을 방지하려는 여러 방안을 담았다.
관련기사
- "빅데이터 프로젝트 핵심은 '순환주기'"2014.07.03
- "빅데이터 분석, 값싼 인프라 시대 끝났다"2014.07.03
- “빅데이터 트렌드, 사람에서 머신으로 이동”2014.07.03
- "빅데이터, 베끼지 말고 실패하면서 배워라"2014.07.03
그는 “마스터슬레이브구조가 아니어서 클라이언트는 어떤 노드에나 접속할 수 있게 되고 MPP구조의 작업을 수행할 수 있다”며 “네스티드 구조의 데이터모델과 모든 하이브 포맷, NoSQL, 관계형데이터베이스(RDB) 인터페이스를 다 지원하고, 로데이터 기반 데이터를 특정 변경없이 쿼리 날릴 수 있어서, 데이터 변환작업에 소요했던 시간, 작업을 줄일 수 있다”고 강조했다.
드릴은 최근 1.0 베타버전이 나와있는 상태다. 홍부장은 내년2분기 1.2버전에서 애드혹을 통한 리얼타임 분석 측면도 강화될 것이라고 전했다.