카카오 뉴스추천 알고리즘은 어떻게 작동하나

최신 뉴스에 높은 점수-한번 클릭한 뉴스는 비중 낮춰

인터넷입력 :2017/05/08 16:46

손경호 기자

"어떻게 하면 더 많이 클릭하게 만들까?"

콘텐츠 기업들이라면 누구나 고민하는 문제다. 세계적인 스트리밍 서비스업체 넷플릭스는 이 고민을 풀기 위해 매년 거액을 투자해 추천 알고리즘을 개선한다.

24시간 뉴스 서비스를 하는 포털들에게 추천은 핵심 기술로 꼽힌다. 이용자 마다 서로 다른 선호도를 반영해 클릭할 확률이 높은 뉴스를 보여줄수록 더 많은 트래픽을 올릴 수 있기 때문이다.

적절하게 추천된 콘텐츠는 이용자들에게도 유용하다. 더 관심이 가는 정보를 더 빨리 확인할 수 있기 때문이다.

카카오는 다음과 합병 이듬해인 2015년 6월 뉴스 개인화 추천을 내세운 '루빅스(RUBICS)' 알고리즘을 다음앱에 대대적으로 적용했다. 여러가지 머신러닝 기법을 동원해 이용자들에게 개인화된 맞춤형 뉴스를 제공한다는 것이 알고리즘이 내세운 목표다.

서로 다른 이용자 스마트폰으로 다음앱을 실행한 화면. 거의 비슷한 뉴스가 추천됐으나 조금씩 다른 모습을 확인해 볼 수 있다.

실제로 다음앱으로 뉴스 화면을 보면 이용자들마다 서로 조금씩 다른 뉴스들이 배치된다는 사실을 확인할 수 있다.

그렇다면 카카오는 어떤 방식으로 뉴스를 추천하는 걸까? 또 추천 알고리즘을 적용한 뒤 어떤 성과를 거뒀을까?

이런 의문에 답해주는 논문이 발표돼 관심을 끈다. 루빅스 알고리즘을 직접 만든 연구진들은 지난 3월 사이버커뮤니케이션학보에 '기계학습 기반의 뉴스 추천 서비스 구조와 그 효과에 대한 고찰 : 카카오의 루빅스를 중심으로'라는 논문을 통해 알고리즘의 비밀을 공개했다.

최근에는 카카오정책지원팀이 브런치에 '카카오 뉴스 추천 AI 알고리듬 루빅스의 비밀'이라는 게시물을 게재하며 루빅스가 어떻게 뉴스를 추천해주는지를 보다 쉽게 설명했다.

실시간 이용자 반응형 뉴스 추천 서비스를 내세운 루빅스는 초기에 '멀티암드밴딧(Multi Armed Bandit, MAB)' 알고리즘을 썼다. 이전 방식처럼 로그인한 사용자가 클릭한 뉴스들을 바탕으로 비슷한 뉴스를 추천해주는 내용 기반 필터링이나 비슷한 성별, 연령대 별로 선호하는 뉴스를 노출시키는 협업 기반 필터링의 한계를 보완하기 위해 고안한 것이 이 알고리즘이다.

이 알고리즘에서 고려한 것은 크게 세 가지 요인이었다고 카카오는 공개했다.

- 시간이 흐를수록 뉴스를 볼 가능성이 줄어든다.

- 어떤 위치에 게시되느냐에 따라 클릭확률이 크게 달라진다.

- 한번 본 뉴스는 다시는 보지 않을 가능성이 많다.

이런 요인에 따라 최신 뉴스일수록 클릭할 확률을 높이기 위해 가중치를 줬다. 또 한번 클릭된 뉴스에 대해서는 가중치를 떨어뜨리는 등 방식을 써서 클릭할 확률이 높은 뉴스를 예측하는 한편, 이용자들 마다 다른 선호도를 반영해 뉴스를 모바일앱에 배치하는 작업을 진행토록 했다.

물론 루빅스에는 위에서 소개한 세 가지 외에도 여러 가지 복잡한 변인들을 고려했다고 카카오 측은 밝혔다.

이런 노력은 그대로 뉴스 이용자 수 증가로 이어졌다. 2015년 11월 다음앱 뉴스 주간 이용자수가 1천910만명이었던 것에서 1년 뒤인 2016년 11월에는 2천710만명으로 42% 가량 늘어나는 효과를 거뒀다.

논문에서 루빅스 개발 TF팀이 강조한 멀티암드밴딧 알고리즘은 슬롯머신을 '외팔이 강도(One-Armed Bandit)'라는 속어로 부르던 것에서 착안한 것이다. 멀티암드밴딧 알고리즘은 레버가 여러개 달린 슬롯머신 혹은 한 줄로 늘어선 여러 개 외팔이 슬롯머신을 뜻한다.

여러 대 혹은 레버가 여러 개 달린 한 대의 슬롯머신으로 수차례 테스트를 거쳐 제한된 시간 내에 가장 많은 보상을 따내는 과정이 초기 루빅스 알고리즘에 녹아들어갔다. 어떤 슬롯머신이 돈을 딸 확률이 높은지를 알기 위한 탐색 횟수를 줄이면서도 수익을 극대화하는 전략을 뉴스에 적용해 본 것이다. 다시 말하면 여러 대 혹은 레버가 여러 개 달린 한 대의 슬롯머신을 최소한으로 돌려본 뒤 가장 많이 돈을 딸 수 있는 슬롯머신 혹은 레버를 찾아내는 식이다.

슬롯머신을 개별 뉴스로 보면 슬롯머신의 승률은 뉴스가 클릭될 확률(CTR)을 말한다. 가장 클릭률이 높은 방식으로 뉴스를 보여주는 알고리즘이 다음앱 뉴스 화면에 적용됐다.

TF팀은 다른 정보성 콘텐츠와 달리 최신 기사가 선호되고, 한번 클릭한 기사는 다시 클릭할 확률이 떨어진다는 등 특성을 추가로 반영해 뉴스 맞춤형 멀티밴드암 알고리즘을 고안했다.

카카오정책지원팀 관계자에 따르면 현재 카카오의 뉴스추천 알고리즘에는 자체적으로 수정해 적용한 멀티밴드암 알고리즘 외에도 여러 알고리즘이 조합돼 적용되고 있는 추세다.

관련기사

카카오가 영업기밀이나 다름없는 루빅스 초기 알고리즘을 이례적으로 논문 형태로 공개한 이유는 뭘까?

논문과 카카오정책지원팀의 게시글을 종합하면 미디어 산업과 학계 추천 알고리즘 연구 분야에서 공개연구를 통해 활발한 논의의 장을 만들고 그 성과를 다시 자사 서비스에 녹여내겠다는 목표다.