[NDC16]게임 진성 이용자, 데이터로 만드니...

게임입력 :2016/04/26 17:30

게임을 실제 즐겨하는 이용자(진성 이용자)는 누구일까. 이를 데이터로 만들어 게임 서비스에 적용할 수 있는 노하우가 공개됐다.

엔씨소프트의 엄혜민(데이터 분석 부문)씨는 26일 넥슨 판교 사옥의 1994홀에 마련된 NDC16 강연장에서 ‘우리 게임의 진성 이용자는 누구인가?- 데이터마이닝을 활용한 진성 이용자 지표 만들기’를 주제로 마이크를 잡았다.

데이터마이닝은 대용량의 데이터 속에서 유용한 정보를 발견하는 과정 속에 원하던 정보뿐만 아니라 생각지 못했던 정보를 찾을 수 있는 기술을 의미한다. 사전적 의미로는 데이터의 유용한 상관관계를 발견해 실행 가능한 정보를 추출해내는 기술이다.

엔씨소프트의 엄혜민 씨는 이날 R이라는 오픈소스 통계소프트웨어를 사용한 데이터마이닝 작업 사례를 소개하면서, 지표 제작 사례를 공개했다.

엔씨소프트의 엄혜민(데이터 분석 부문)씨가 NDC16에서 데이터마이닝을 통한 진성 이용자 분석 기법을 공개했다.

발표 내용에 따르면 게임 데이터마이닝 작업은 플레이 유형 파악, 유형별 태킹 및 진성 이용자 그룹 선정, 지표 생성 자동화 순이었다.

플레이 유형은 클러스터(군집) 작업이다. 데이터를 비교해 비슷한 성향의 이용자를 묶는 방법이다. 전체 중에 어떤 유형의 집단이 형성되는지 확인하거나, 잠재된 집단을 발견하고 할 때 사용한다.

플레이 유형 파악은 이용자를 설명해주는 데이터로 구분한다. 플레이타임, 사냥 횟수, 경제 활동 횟수 등이다. 또 도메인 지식을 통해 항목을 선정하기도 한다. 게임 로그 데이터를 이용한 일주일 단위의 집계다.

데이터마이닝의 진성 이용자 구분을 위한 지표 생성 자동화 시스템 구조.

유형을 파악하면 개수를 선정해야한다. 유형 개수는 몇 개의 군집으로 분류할 것인가를 고민해야한다. 사용 목적에 따라 개수 조절이 가능하다. 개수가 많으면 세분화가 가능하지만, 특징 확인이 번거롭다는 것이 단점이다. 이와 반대로 개수가 적으면 특징 확인 및 결과 유지가 편하다고 한다.

R 소프트웨어를 사용해 유형 태킹 및 진성 이용자 그룹을 선정하면 각 그룹별로 그래프로 확인이 가능하다. 이날 사례에서 발표한 것은 5개 그룹이었다. 이를 통해 이용자의 성격을 파악할 수 있었다.

지표 생성 자동화에 대한 말도 꺼냈다. 수동 작업은 현실적으로 어렵기 때문이다. 랜덤 퍼레스트(Ramdom Forest) 기법이다. 랜덤 퍼레스트는 여러개의 디비전 트리를 융합해 사용한 분류 알고리즘이다. 높은 정확도와 낮은 과적합이 특징이다.

이외에도 이벤트와 업데이트 등을 빼고 계산하는 지표 기준선 측정 작업의 중요성과 이용자의 변화를 파악하는 것도 가능하다는 것도 보여줬다.

엔씨소프트의 엄혜민 씨는 “온라인 게임의 활동성 등에 가장 기본적으로 보는 것이 액티브 이용자(AU) 수다. AU 수치가 올랐다고 해서 좋은 것만은 아니다. 이벤트 등을 통한 단기 효과일 수 있기 때문”이라며 “중요한 것은 진성 이용자를 분석해 AU 지표를 확인하는 것”이라라고 말했다.

관련기사

이어 “진성 이용자는 실제 게임을 즐기거나, 게임을 열심히 하는 이용자라고 생각을 많이 한다. 그러나 진성 이용자의 기준은 불분명하다. 어떤 행동을 하는지도 파악이 안 된다”면서 “ 데이터마이닝 작업을 통해 그룹별로 이용자를 구분하는 것이 중요하다”고 덧붙였다.

그러면서 “(R소프트웨어로 데이터를 추출하면) 각 그룹별로 콘텐츠의 사용, 잔존율, 결제, 무료 게임 이용 등의 지표로 나눠 볼 수 있다”며 “유형별로 이용자 동향을 파악하면, 현재 게임 시장의 흐름을 감지할 수 있다. 외부 영향도도 파악할 수 있다”고 부연했다.