‘요즘 빅데이터가 대세라는데, 어떻게 해야 하나?’
국내 기업이나 공공기관이 최근 들어 한번쯤 가져봤을 법한 질문이다. 그러나 답을 찾기란 쉽지 않다. 빅데이터를 했다고 하는 곳이 밝히기를 꺼리는 탓에 선도 사례를 접하기 어렵다. 이런 상황에서 업계의 질문에 답을 해주기 위해 한 기업이 입을 열었다. 2년 간 오픈소스 기반의 빅데이터 플랫폼을 구축해 활용중인 GS홈쇼핑이다.
“TV홈쇼핑과 달리 인터넷 쇼핑에선 데이터를 다루는 문제가 매우 중요합니다. 커머스 회사뿐 아니라 인터넷 회사라면 고객이 무얼 원하고, 어떻게 행동하는지에 관심을 갖습니다. 고객이 원하는 상품을 편하게 찾을 수 있게 해줘야겠다는 생각에서 빅데이터를 필요로 했지요.”
김준식 GS홈쇼핑 인터넷사업부 상무의 설명이다. 그는 ‘고객에게 원하는 걸 쉽게 찾게 해주려는 목적’으로 빅데이터를 사용하게 된 계기를 밝혔다. 김 상무는 작년까지 GS홈쇼핑의 최고정보책임자(CIO)였다.
목적 설정 다음은 빅데이터 시스템으로 고민이 이어지기 마련이다.
“목적을 설정하고 빅데이터가 뭔지 알아보기 시작했습니다. 그러다 빅데이터는 하둡이란 걸 듣게 됐지요. 갑자기 많아진 데이터말고도, 이미 우리 회사가 갖고 있던 데이터는 많았습니다. 분석할 것들은 많았지만 제대로 못했던 거죠. 그러다 대용량 데이터 처리에 관심을 갖게 됐고 그를 통해 고객행동을 분석할 수 있는 기반을 하둡이라고 봤습니다.”
GS홈쇼핑은 이미 데이터웨어하우스(DW)를 포함한 외부 솔루션을 이용중이었다. 추천시스템도 외부 솔루션으로 구축돼 운영되고 있었다. 그럼에도 오픈소스인 하둡을 도입한 것이다.
김 상무는 인터넷 커머스 사업을 잘하는 방법을 두가지로 요약했다. 좋은 상품을 파는 것. 그리고 갖고 있는 상품을 인터넷이란 채널을 잘 활용해 파는 것이다. 상품 경쟁력 외에 고객과 연결되는 인터넷, 그리고 기술이란 측면이다.
“인터넷 회사 대부분은 마진이 적은 비즈니스를 하기 때문에 유명한 데이터웨어하우스(DW)를 활용해 사업하지 않습니다. 인터넷 회사의 본질적인 경쟁력은 IT에 있고, IT를 잘하려면 내부의 역량이 필요합니다. 그래서 SI를 배제하고, 빅데이터에 하둡이란 오픈소스 시스템 도입을 결정했습니다. 또한 DW를 도입하는 회사들을 보면, 먼저 DW라는 틀을 만들고, 그 틀에서 활용방안을 찾아가는 순서를 보여줍니다. 그러나 시스템은 사업의 변화에 따라 함께 변화해줘야 하는 겁니다. DW는 코어를 우리가 직접 만지지 못하니 오픈시스템을 생각하게 됐습니다. 그게 훨씬 더 용이할 것이라 봤던 거죠.”
내부 역량 확보. 빅데이터 플랫폼의 도입 목표를 먼저 설정하고, 사업에서 갖는 IT의 중요성을 인식하고 나서 내린 GS홈쇼핑의 결론이다. 그리고 그 IT를 잘 활용하려면, 핵심역량을 내부에 가져야 한다는 게 이어진 판단이다.
“과거엔 상품 추천이란 특정 목적에 맞춘 시스템을 운영했죠. 이제는 하둡이란 플랫폼 위에 그때그때 필요한 목적과 서비스를 올리는 방식입니다. 이게 이벤트 기반 프로모션 같은 경우 훨씬 더 효과적일 것으로 기대합니다. 하둡을 통해 합리적인 비용을 써서 과거의 리얼타임CRM이나 리얼타임엔터프라이즈가 가능해졌다고 봅니다.”
GS홈쇼핑은 일찌감치 가고자할 길을 정했다. 그러나 뜻하지 않은 문제에 부딪쳤다. 사람이다.
“SW기반이 약한 우리나라에서 사람 구하기가 힘들더군요. 내부 R&D로 고민하다보니, 하둡을 할 줄 아는 사람도, 회사도 많지 않았죠. 어럽계 구한 하둡 인력도 인건비가 비싸죠. 그래서 인도회사와 작업하려고 추진했습니다. 그러다가 그루터란 회사를 알게 됐지요. 빅데이터업계의 강소기업이란 느낌을 받았고, 발견했을 때 매우 기뻤습니다. 인도회사와 하는 것보다 한국회사인 그루터가 훨씬 경쟁력있고, 접근이 유리하다고 생각했습니다.”
GS홈쇼핑은 그루터의 도움을 받아 아파치 하둡 기반 빅데이터 플랫폼을 자사에 구축하기 시작했다. 그렇게 GS홈쇼핑의 빅데이터 플랫폼이 갖춰졌다. 작년초 외부 솔루션을 사용하던 추천시스템 일부가 자체 하둡 시스템으로 변경됐고, 7월엔 추천시스템 전체가 하둡으로 이관됐다.
“그루터와 일하면서 가장 매력적이었던 게 그들이 기술이관을 강조했다는 점입니다. 그루터의 생각 자체가 빅데이터란 좋은 거를 확산하고 싶어하는 의지가 강하다는 인상을 받습니다. GS홈쇼핑은 그 기술을 받을 준비가 돼 있어 이해관계가 잘 맞았고, 덕분에 내부의 사람을 키워가는 중입니다. 그루터가 기술을 우리보다 잘 알고 있고, 그루터는 우리의 선생님입니다.”
하둡은 여전히 진화중인 기술로, 미래의 변화를 예측하기 어렵다. 무엇보다, 하둡 시스템은 전체 아키텍처를 이해해야 원활한 시스템 운영을 유지할 수 있다. 경험을 쌓아야 하고, 기업 내부에 역량있는 인력이 갖춰져 있어야, 현업의 빅데이터 활용을 보장할 수 있다. 그런 점에서 GS홈쇼핑은 그루터를 통해 시스템과 함께 내부 역량 확보란 숙제를 해결했다.
현재 GS홈쇼핑의 'GS샵닷컴‘은 방문자의 여러 데이터를 바탕으로 추천 알고리즘을 조금씩 개선해나가고 있다.
“고객행동이란 건 클릭, 페이지 넘어갈 때 남는 자취들에서 찾아내고 있습니다. 엄밀하게는 시스템이 상품을 이해하는 건 아니죠. 그러나 고객이 방문하는 페이지와 페이지 간 연관성을 계산하고, 다양한 활동을 고객중심으로 연결해보면 행동 데이터가 나옵니다. 페이지간 연관성, 유사성을 측정하고, 알고리즘으로 측정하는 겁니다. 단, 고객이 누군가는 모릅니다. 단지 한 사용자가 구매까지 가는 그 움직임을 보는 겁니다. 이 데이터를 하둡 기반으로 계산해서 1일 단위로 업데이트하고 있습니다.“
물론 현재의 GS샵의 추천시스템이 완벽한 건 아니다. 그는 이제 시작이라고 말한다.
“고객마다 원하는 게 다르고, 쇼핑몰 방문 이유도 그때그때 제각각입니다. 어제와 오늘의 고객이 다르고, 같은 고객이라도 한시간 전과 지금의 고객이 다릅니다. 다 이해하기 어렵지만 어떻게 만들어갈 것인가에 대한 고민이 있지요. 고객의 행동을 이해하고, 사람이 관심을 갖느냐 안갖느냐 판단하는 기준을 만들어가는 건 이제 시작이라고 생각합니다. 클릭뿐 아니라, 페이지에 머무는 시간 같은 걸 체크하는 식으로 스크립트를 더 다양한 형태로 관리하고 있습니다.”
김 상무는 빅데이터를 활용하고자 하는 다른 기업에 조언을 부탁하자 ‘활용방안을 먼저 세우는 게 매우 중요하다’고 요약했다.
“상품추천 그 이면에는 잘해야 하는 일이 굉장히 많습니다. 내가 뭘하고 싶은지가 없으면, 빅데이터는 공허합니다. 잘못하면 스몰데이터를 통해 직관적으로 쉽게 할 수 있는데도. 복잡하게 가는 우를 범할 수도 있습니다. 데이터 분석이란 기술적 측면에 앞서 빅데이터를 갖고 무엇을 하고 싶은가가 중요합니다. 우리도 잘한다고 자부는 못합니다. 그래도 고민은 계속합니다. 바로 이점을 생각해야 한다고 봅니다.”
GS홈쇼핑의 빅데이터 활용은 앞으로 어떻게 변화할지 짐작하기 어렵다. 추천시스템에 우선 활용되고 있지만, 자유로운 플랫폼을 가진 만큼 활용도도 무궁무진하기 때문이다.
“일단 기존의 상품추천조직이 빅데이터를 사용하고 있지요. 그리고 다음으로 기존에 갖고 있던 정형데이터를 어떻게 할 것이냐 고민이구요. 다음은 외부의 데이터를 어떻게 접목할 것인가에 대한 문제입니다. 이미 만들어진 데이터는 팀을 꾸려 진행중이고, 외부 데이터를 관리하기 위해 연구개발차원에서 1~2명이 일하고 있습니다. 외부의 파트너들, 벤처기업들과도 같이 공부하고 일도 하고 있구요.”
관련기사
- IT업계, 하둡 개발자 확보 '아귀다툼'2013.03.19
- 인텔코리아, 빅데이터 사업 보류한 이유2013.03.19
- [기자수첩]빅데이터, 마법보다 현실을 볼 때다2013.03.19
- '공짜는 그만' 새해 빅데이터 시장에 바란다2013.03.19
김 상무는 빅데이터, 그리고 오픈소스 활용에 대해 다음과 같이 말했다. 빅데이터 열풍이 휩쓰는 한국에서, 빅데이터로 경쟁력을 찾아보겠다는 사람들이 새겨들어야 할 말이다.
“언제까지 외부 솔루션에 의존할 수 없다고 생각했습니다. 우리가 스스로 하는 것보다 더 좋을 수는 없습니다. 외부의 것은 일반화된 솔루션이죠. 누구보다 자신을 잘 아니, 스스로 공부해야 합니다. 그 덕에 과거보다 오히려 더 나은 게 만들어졌다고 생각합니다.”