많은 기업들이 오픈소스 하둡을 만만히 보고 섣불리 접근했다가 낭패를 겪는다. 전격 하둡 인프라 구축이라고 당당히 외치지만, 그때 뿐인 경우가 많다. 국내선 하둡을 쓴다는 회사의 얘기조차 쉽게 듣기 어렵다.
심한 경우 은근슬쩍 상용 데이터웨어하우스(DW) 도입하고 나서 ‘값비싼’ 빅데이터를 다룬다고 홍보하는 회사들도 있다. 하둡 인프라를 구축해 데이터를 쌓아두기만 하고 방치하는 회사도 적지 않다는 후문이다.하둡을 쓴다는게, 그리 만만한 일이 아님을 보여주는 풍경들이다.
이에 대해 하둡 전문가들은 오픈소스와 하둡에 대한 잘못된 생각 때문이라고 지적한다. 생각이 잘못됐으니, 제대로된 결과를 뽑아내기가 쉽지 않다는 얘기다. 그런 가운데 최근 비즈니스 SNS로 유명한 링크드인이 하둡을 도입 사례가 국내서 공개돼 좋은 반응을 얻었다. 국내 기업들에 많은 시사점을 던진다는 평가다.
지난 19일 열렸던 제10회 어드밴스드컴퓨팅컨퍼런스(ACC)에 기조연설자로 나섰던 리처드 박 링크드인 스태프 엔지니어는 자신과 링크드인 하둡 엔지니어링팀이 4년간 밟아온 도전과정을 세세하게 풀어냈다.
2009년 링크드인은 오라클 기반으로 운영해오던 서비스에 한계를 느끼며 하둡 클러스터를 구축했다. 이후 4년 간 개발과 운영을 거치며 5천노드 규모의 하둡 인프라를 꾸렸다. 처음부터 탄탄대로를 걸은 건 아니었다. 여러번의 시행착오를 겪었다. 도전은 지금도 계속되고 있다.
링크드인이 하둡을 도입한 과정은 도입, 시행착오, 해법마련, 안정화, 새로운 도전이란 순환구조를 갖는다. 맨처음 도입했던 시스템에서 발견된 문제점을 하나하나 해결해가면서, 시스템을 계속 향상시켜갔다. 그 과정에서 쌓은 경험과 해법들은 아즈카반, 볼드모트, 카프카 같은 오픈소스 기술로 세상에 공개됐다.
이는 통상적인 기업의 IT시스템 구축 방법과 정반대다. 보통 기업의 IT시스템은 개발, 테스트, 정식 가동 순으로 이어지는 프로젝트 단위로 구축된다. 그리고 새로운 요구사항이 발생하면 기존 것을 폐기하고, 새 시스템을 구축한다. 발생한 요구사항을 해결하는 ‘솔루션’은 구축과 폐기의 반복 속에서 산다.
링크드인은 오라클이란 솔루션에서 발견된 문제점을 또 다른 솔루션으로 해결하기 보다 오픈소스적으로 접근했다. 리처드 박 엔지니어는 링크드인에서 초기부터 하둡 클러스터 구축에 참여한 사람이다. 2명이 시작했던 그의 작업은 4년이 지난 현재 25배 규모로 커졌다. 그러나 조직원수는 개발, 운영을 포함해 오직 10명뿐이다.
완성단계고 꽤 멋진 모습으로 현재 하둡 클러스터가 마련됐지만, 리처드 박은 “아직도 할 게 많다”고 말했다.
지난달 공개된 하둡 2.0 클러스터의 시범운영을 진행중이고, 쿼리 프로세싱을 SQL로 빠르게 수행하기 위해 임팔라, 타조 같은 신기술 도입도 검토중이라고 했다. 보다 안정적으로, 그리고 쉽고 빠르게 회사내 빅데이터 에코시스템을 만들어가는 작업은 아직도 이어지고 있다는 설명이다.
링크드인은 실패의 경험을 별로 부끄러워하지 않았다. 새 버전의 하둡으로 새 클러스터를 만들었던 2011년을 암흑기라고 단정지으며 하나하나 해결해간 경험을 공유한 리처드 박의 발표에 많은 이들이 박수를 보냈다.
빅데이터는 현존 데이터웨어하우스(DW) 솔루션으로 다룰 수 없었던 방대하고 정형화되지 않은 데이터를 활용하자는 패러다임이다. 빅데이터 활용엔 오픈소스인 하둡이 주요 기술로 활용된다.
분산처리기술인 하둡은 저사양의 서버와 값싼 하드디스크를 이용하면서도, 전에는 엄두조차 못냈던 대규모 비정형 데이터 분석을 실현했다는 점에서 빅데이터의 표준 플랫폼으로 자리잡았다.
관련기사
- 링크드인은 어떻게 데이터 제국을 건설했나2013.11.24
- "너 이직할래?" 링크드인 추천시스템 엿보기2013.11.24
- 하둡2.0 마침내 완성 '운영체제 등장'2013.11.24
- [기자수첩]빅데이터, 마법보다 현실을 볼 때다2013.11.24
문제는 오픈소스인 하둡을 수월하게 다루기까지 꽤 고된 시간을 보내야 한다는 점이다. 기술 내재화와 시스템 안정화는 끝없는 작업이다. 이런 고생들이 데이터사이언티스트의 또 다른 노력과 맞물려 빅데이터를 통한 성공을 이끌어낸다.
링크드인의 발표에 대해 김형준 그루터 수석연구원은 엔터프라이즈 기업들이 겪고 궁금해하는 모든 내용들을 들을 수 있는 발표였다라며 하둡 도입을 고민하고, 활용에 어려움을 느끼는 회사라면 참고할 만하다고 평가했다.