‘별점’의 함정, 무엇이 문제인가

김성태 교수의 [데이톨로지]③ ‘별점의 딜레마 1’

전문가 칼럼입력 :2021/05/24 10:43    수정: 2021/05/25 08:26

김성태 고려대 미디어학부 교수
김성태 고려대 미디어학부 교수

바야흐로 데이터시대다. 지금 우리는 빅데이터, 인공지능(AI), 블록체인 등 디지털 데이터를 기반으로 한 4차산업혁명을 목도하고 있다. 인류가 문자와 기호를 사용하기 시작한 지난 5천년 동안 문명의 흐름이 지구촌 곳곳에서 큰 강을 이루고 이제는 모이는 바다에 이르렀다. 데이터가 원유가 되어 모든 것이 돌아가는 시대가 된 것이다. 이 연재 시리즈는 '데이톨로지(Datalogy)' 사상의 연원(淵源)이다. 데이터에 대한 철학적, 인문학적, 과학적인 성찰의 결과라 봐도 좋을 것이다. (빅)데이터와 관련된 키워드를 중심으로 제4차산업혁명의 시대를 살고 있는 우리의 다양한 호기심을 자극하는 지적 탐구의 장을 마련하고자 한다. 이번 연재는 최근 우리사회에서 가장 빈번하게 이용되고 있는 별점 평가시스템에 대해  데이톨로지 차원에서 ‘무엇이 문제인지’를 먼저 살펴본 후, 데이터 리터러시의 중요성과 함께 별점의 한계를 극복하기 위한 논의의 확장과 최근의 개선사례를 소개한다. <편집자>

현재 우리나라는 맛집, 택시, 배달, 호텔 등의 서비스업과 웹툰, 영화, 공연과 같은 콘텐츠업 그리고 공기관, 기업, 학교와 같은 조직에 이르기까지 ‘별점’과 같은 평가시스템이 널리 이용되고 있다. '별점 공화국’이란 표현이 나올 정도인데, 우리나라만의 얘기는 아니고 글로벌 현상이기도 하다. 특히 언택트, 온택트의 코로나 팬데믹 상황에서는 소비자들이 구매에 앞서 포털이나 소셜미디어상에서 별점과 같은 정보를 참고로 하는 경우가 더 많아졌다.

별점 평가(제공=픽사베이)

그럼 별점은 어떻게 시작됐을까. 간략하게 그 역사에 대해 살펴보자. 프랑스의 언론인 피에르 제나마(Pierre Germa)의 2004년 저서 ‘만물의 유래사’에 따르면 1820년경 영국의 마리아나 스타크가 펴낸 ‘유럽대륙 여행가이드’에서 유럽 관광장소에 대한 평가를 위해 별점을 사용한 게 최초라고 알려져 있다.

이후 가장 많이 알려져 있는 별점 시스템은 자동차 타이어 회사인 미쉘린이 발간하는 ‘미슐랭가이드’다. 타이어 회사가 더 많은 사람들이 차를 구입하고 여행 다니기를 바라는 비즈니스적인 목적으로 자동차 운전자들에게 프랑스의 여러 지역 맛집 정보를 알려 주기 위해 1900년에 처음으로 발간되기 시작했다.

100년이 넘은 현재는 전 세계 음식점을 평가하는 대표적인 별점이 됐는데, 최근 미슐랭 별점 평가의 신뢰도에 대한 비판도 있지만 아직까지도 미식가들에게 바이블과 같은 명성을 갖고 있는 것은 분명하다.

오늘날에는 별점이 사람들에게 구매나 이용 여부의 판단에 도움을 줄 수 있는 길라잡이로서 역할을 하고 있는데 주로 5점 만점으로 측정되고 있다. 포털이나 관련 사이트에서 별점과 고객 리뷰 체크가 가능하기에, 판매자나 구매자 모두에게 제품이나 서비스에 대한 평가 피드백으로서의 기능을 하고 있다.

그러나 이런 별점 제도에 문제가 전혀 없는 것은 아니다. 스마트폰의 일상화와 소셜 빅데이터 분석 기술의 발달로 거의 실시간으로 별점 통계를 보여주면서 소비자들에게 올바른 선택을 위한 유용한 정보원이 되기도 하지만, 동시에 이 심플한 평가 점수가 하나의 권력으로 작동하면서 이해 집단의 피해와 불만 사례 또한 자주 발생하고 있다. 영업주들이나 배달앱에서 알바생들을 고용해 별점을 올리거나 혹은 일명 극단적으로 감정적인 소수 이용자의 무분별한 ‘별점 테러’로 인한 실질적인 피해가 빈번해지고 있는 것이다.

최근 언론을 통해 보도된 별점시스템의 부작용에 대한 몇몇 뉴스의 제목들만 봐도 그 폐혜를 쉽게 짐작할 수 있다.

“별점으로 길들이기?…배달앱만 배불리는 별점 시스템” (MBC 뉴스. 2021년 3월 18일)

“별점 1개 테러에 자영업 폐업도 늘어난다” “평점높으면 대박, 낮으면 쪽박...‘별’하나에 울고 웃는다” (중앙Sunday, 2021년 1월 2일)

"실종 의대생 친구A 父병원 별점테러" (머니투데이. 2021년 5월 11일)

정말 ‘양날의 칼’ 같은 딜레마다. 한편, 이런 문제가 여러 나라에서도 공통적으로 나타나자 이 평가 시스템을 거의 처음으로 사용하기 시작한 글로벌 기업 넷플릭스가 작년 말에 별점을 더 이상 사용하지 않겠다고 발표했다. 대신 콘텐츠를 이용한 시청자들이 후기에 ‘좋아요’를 클릭하는 시스템으로 바꿨다.

소셜미디어(제공=이미지투데이)

국내에서는 지난 3월 17일에 네이버가 별점 시스템을 포기한다고 발표했다. 네이버는 2019년 11월부터 별점을 사용하기 시작했는데, 그동안 별점 테러와 별점 조작으로 인한 소상공인과 소비자들의 피해와 불만이 급증하기에 이와 같은 결정을 내렸다고 했다.

이용자들은 네이버의 이런 결정에 실제로 서로간의 의견을 공유함으로써 자신들의 올바른 선택에 도움을 줄 수도 있는 유익하면서 편리한 시스템이 사라질 수도 있다는 우려 또한 보이고 있다.

그래서인지 네이버의 별점 제도 폐지 뉴스에도 아직까지도 평점과 리뷰 시스템을 계속 유지하고 있는 경우가 대부분이며 사람들도 별점을 여전히 이용하고 있다. 업체들 입장에서는 별점, 후기 댓글 정보가 소비자들의 판단을 돕는 순기능적 요소가 더 크기에 폐지하는 대신 자체적으로 별점 정보의 조작을 없애고 별점 테러와 같은 극단적인 평가나 악성 댓글을 차단하는 기술적인 조치 등으로 건전한 별점 문화를 만들겠다는 입장인 듯하다.

어쩌면 영업측 입장에서는 별점과 리뷰가 매출과 직접적으로 연결되고, 별점 순위로 검색 결과 배열이 결정되기에 부작용이 있어도 이 시스템을 쉽게 포기하기가 어려울 수밖에 없다.

마이클 루카 교수가 이끄는 하버드 경영대학원 연구팀이 2011년에 발표한 조사에 따르면 ‘기업에 대한 평점이 1점 오를 경우 매출액이 5~9% 정도 상승’한다는 보고도 있다. 대부분의 생산업자나 자영업자의 입장에서는 별도의 마케팅 비용과 노력 없이도 자발적인 소비자들의 높은 별점이나 호의적인 후기 댓글은 다른 소비자들의 구매를 촉발시키는데 큰 효과가 있기에 이 별점 시스템이 매우 매력적일 수 있는 것이다.

글로벌 시장조사기관인 닐슨이 지난 2012년 56개국 약 2만8천여 명의 일반 소비자들을 대상으로 진행한 조사에 따르면 사람들이 물건을 구매할 때 ‘친구와 가족의 추천’을 가장 신뢰할만한 정보원으로 얘기했으며, 다음으로 ‘구매후기와 같은 온라인상에서의 평가’였다.

4년 후인 2016년에 똑같은 질문으로 재차 조사된 결과에서는 ‘온라인 플랫폼에 있는 평가’가 4년 전에 비해 15% 증가하면서 소비자 선택을 위한 가장 중요한 정보원이 됐다고 한다.

이 조사결과는 최근으로 올수록 사람들이 물건을 사기전에, 식당을 가기 전에, 호텔을 예약하기 전에 온라인상에 있는 별점이나 후기 댓글은 더욱 더 중요하게 생각하고 있다는 것을 보여준다. 특히 스마트폰을 신체의 일부분처럼 사용하고 있는 젊은 MZ 세대에게는 더할 것이다.

별점(제공=픽사베이)

한편으론 별점은 왜 5점 만점이 대부분일까라는 의문이 든다. 1930년대 초 미국의 사회심리학자인 렌시스 리커트(Rensis Likert) 연구팀은 사회과학에서 실증적으로 측정하기 힘든 인간의 심리, 감정, 태도 등을 평가하기 위해 ‘리커트 스케일(Likert Scale)’을 처음 개발했다.

평가과정에서 “매우싫다-싫다-보통이다-좋다-매우좋다”와 같은 단일선상에서 5점 중 하나를 선택하게 만든 간단한 측정 기법이다. 그 이후로 데이터 분석 통계 기술의 발달과 함께 우리 사회의 거의 모든 영역의 평가시스템에서 이 같은 5점 척도가 활용되게 됐다.

필자가 있는 대학에서도 매년 학기말이면 교수와 강사를 대상으로 강의평가를 실시한다. 별점과 같은 5점 척도다. 수강생들이 내 강의에 대해 어떻게 느꼈는지를 알 수 있고 다음학기 수업개선을 위해 필요한 정보라 유심히 보는 편이다. 그런데 여기에서도 문항별 변별적으로 솔직한 평가를 하는 것이 아니라, 아주 극단적으로 점수를 주는 아웃라이어(통계학에서 평균에서 멀리 떨어진 측정치)가 다수 있는 것을 알 수 있다. 이는 개인적 악감정이 우선되는 '별점 테러'와 거의 유사하다.

그런데 이 평가 점수가 내게 좀 더 유익할 수 있는 것은 다른 정보와 같이 제공될 때다. 예를 들면 내 점수가 5점 만점에 ‘4.5’가 나왔다고 가정해보자. 학교 내의 전체 교수 평균과 강의 성격을 고려해서 비슷한 주제의 강좌나 혹은 영어강의냐 한국어 강의냐에 따라서 비교 집단을 구분한 후에 각각의 강의 평균 점수도 같이 제공해 준다.

다시 말해 내 점수가 다른 교수들과의 비교에서 어느 정도 높은지 아니면 부족한지를 알게 해준다. 또한 개방형 질문에서의 수강후기는 다음 학기 수업을 준비하는데 도움이 된다. 이런 평가는 학생들 사이에서도 물론 이뤄지고 있는데, 본인이 수강한 수업에 대한 의견을 ‘대나무숲’, ‘에브리타임’과 같은 온라인 커뮤니티나 앱을 통해 공유되면서 다른 학생들의 수강여부에도 영향을 미치고 있다.

분명한 점은 별점 시스템 그 자체가 나쁜 것은 아니다라는 사실이다. 사람들에게 별점과 같이 아주 간단한 상징이나 숫자 하나로 엄청나게 많은 정보를 제공할 수도 있다. 그러나 이 시스템이 악용돼 수많은 이용자들에게 틀리거나 왜곡된 정보를 제공하게 됨으로써 발생될 수 있는 사회적 비용이 문제인 것이다.

현재의  별점 시스템이 갖고 있는 문제점이 무엇인지를 좀 더 자세하게 살펴보자.  먼저 포털에서 여러분이 사는 동네 맛집을 검색한다고 하면, 첫 화면에 뜨는 검색 결과 대부분은 거의 4.5점 이상일 것이다. 그런데 다음 상황을 한번 가정해보자. 키워드를 입력해서 찾은 결과 A집이 4.5 별점을 받았을 때 처음 드는 생각은 “음, 5점 만점에 4.5이니 괜찮은데?” 일 것이다. 다른 한편으론 두 번째로 랭크된 B집이 4.3정도였다면 당연히 A집이 B집 보다 별점이 좋으니 더 맛집이구나라고 생각할 가능성이 많을 것이다.

곰곰이 한 번 더 생각해보자. 우리가 별점 도출의 알고리즘이 어떻게 작동되는지까지는 알지 못하더라도 별점 평가에 참여한 사람들이 몇 명인지(샘플 사이즈), 참여한 다른 사람들의 별점은 어떻게 되는지(평균 평점과 점수 분포), 그리고 찾는 맛집의 종류(예, 한식, 중식, 일식 등)에 따라 별점이 어떻게 다른지 등을 동시에 알아야 A와 B집이 이용자들로부터 어떤 평가를 받았는지를 정확하게 판단할 수 있게 된다.

우리가 보통 시험을 치루고 결과를 받을 때 100점 만점에서 각자가 받은 점수를 원점수라고 한다. 예를 들면 90점을 받았다고 하면 나름 좋은 점수라고 생각한다. 그러나 시험을 치룬 거의 모든 학생들이 100점 만점을 받았다는 사실을 알게 되면 90점은 상대적으로 좋지 않음을 판단할 수 있게 된다. 그러기에 전체 학생들의 점수 분포를 고려해 자신의 상대적인 위치를 보여주는 표준점수가 더 효율적인 평가의 기준이 된다. 대입 수학능력시험에서 등급의 결정기준은 원점수가 아닌 표준점수인 이유다.

별점도 마찬가지다. 이 집의 별점은 몇 개이고, 유사 맛집 평균이 어떠한데 이 집 점수의 상대적 위치는 이렇구나 라는 정보가 돼야 선택에 도움이 될 수 있다는 얘기다. 지금 우리가 이용하는 별점 시스템이 표준점수가 아니라 원점수이기에 사람들이 별점을 보고 맛집을 찾아갈 때 실망할 확률도 높아지는 것이다.

한편, 별점과 함께 후기 댓글의 내용과 건수도 소비자들의 선택에 매우 중요한 역할을 한다. 수백, 수천개의 후기 댓글을 다 읽어 볼 수는 없다. 그러나 조회수가 많거나 최근의 댓글이 우선적으로 보여지는데, 이러한 댓글 정보도 조금만 곰곰이 생각해보면 문제가 매우 많음을 알 수 있다.

우선 후기 댓글은 실제 이용한 사람들이 남기는데, 대부분의 경우 참여 제한의 조건을 두지 않는 경우가 많다. 또 이용자들이 자발적으로 솔직한 후기를 남기기도 하지만 인증 사진을 찍은 후 소셜미디어에 사진을 남기면 음식값을 할인해주는 프로모션 이벤트도 많고 가끔은 별점을 가지고 거래가 이뤄지기까지도 한다.

데이터(제공=이미지투데이)

데이터 분석학에서 선정된 샘플의 결과를 전체 모집단(Population)으로 확대 해석하는 것을 일반화(Generalization)라고 한다.

여기에는 한 가지 전제 조건이 있다. 바로 샘플이 모집단에서 무작위로 추출된 확률표본이어야 한다. 별점에 참여하는 사람들이 전체 이용자를 대표하는 그룹에서 뽑은 무작위 표본도 아니고 또한 그 결과는 이용한 모든 사람들(모수)의 평가도 아닐 것이다. 그러기에 별점과 후기 댓글에 참여할 수 조건은 무엇인지, 평가한 사람들은 몇 명인지, 비교 대상이 될 수 있는 평균 별점은 어떤지 등을 간단한 별점시스템에 알기는 어렵다. 그럼에도 불구하고 별점이 유익할 수 있는 것은 참여한 사람들의 솔직한 평가가 만들어내는 ‘집단지성’ 매커니즘에 대한 믿음 때문이다.

통계학에서는 조사 대상자인 샘플의 분석 결과를 모수로 확대할 때, 일반적으로 데이터의 분포를 평균을 중심으로 정상분포곡선에 가깝다고 가정한다. 그런 다음, 각자의 점수가 상대적으로 어느 위치에 있는지에 따라서 통계적으로 유의미함을 검증한다. 다시 별점으로 돌아가서 얘기하면, 우리가 일반적으로 머릿속에서 “5점척도의 별점이니 대략 평균이 3점 정도일 거니까 이 집의 별점이 4.5이니 맛집이구나” 이런 생각일 것이다.

다음과 같은 두 가지 시나리오를 가정해보자. 먼저 5점 척도의 중간값인 3점 근처에 가장 많은 이용자가 별점을 주고 양 극단인 1점과 5점에는 상대적으로 적은 수가 위치한다면 이는 일반적인 정상분포곡선에 매우 가깝다. 같은 별점 평균임에도 조금 다른 상황도 가능하다. 이용자의 호불호가 극명해 중간값인 3점 근처에는 거의 없고 양극단에 대부분의 별점이 치우치는 경우도 있을 수 있을 것이다. 즉 정상분포곡선과는 정반대의 U자형 분포인 것이다.

이런 분포를 알지 못한다면 이 집의 별점 평가에서도 평균은 여전히 중간에 위치하고 있을것이라고 가정하고 그로 인한 잘못된 추론 결과는 사람들의 잘못된 선택으로 이어질 가능성이 매우 크다.

다음으로 별점의 딜레마를 조금 경제학적으로 접근해보자. 우리가 한 국가의 경제발전과 규모를 얘기할 때 ‘GNP(Gross National Product)’ 혹은 ‘GDP(Gross Domestic Product)’와 같은 데이터를 사용한다.

그러면 별점시스템을 통해 우리사회가 얻을 수 있는 이익을 GSB(Gross Social Benefit)로, 이로 인해 발생되는 폐해나 비용을 GSC(Gross Social Cost)로 가정한다면, 과연 이 별점 시스템이 우리 사회와 구성원들에게 어떤 영향을 주는지를 포괄적으로 살펴볼 필요가 있다는 얘기다.

다시 말해서 “매우 유익할 듯해서 만들었고 사람들이 점차 많이 이용하게 됐는데 여기 저기 불만의 목소리가 많이 나오니 없애버리고 다른 방법을 찾자”가 아니라 'GSB' 혹은 'GSC' 중에서 어느 쪽이 더 큰지에 대한 심도깊은 논의를 통해 이 문제에 대한 최적의 솔루션을 찾아야 할 것이다.

오컴(Ockham) 면도날(출처: 구글이미지)

중세 14세기 영국의 논리학자이며 프란체스코회 수사였던 '오컴의 윌리엄 (William of Ockham)' 이름에서 따 온 ‘오컴의 면도날(Ockham's Razor)’ 개념이 있다. 흔히 '경제성의 원리' 또는 ‘단순한 것이 최고(simple is the best)’라는 명제로도 유명하다.

"더 적은 수의 논리로 설명이 가능한 경우, 많은 수의 논리를 세우지 말라"는 오컴의 주장처럼, 어떤 현상을 설명할 때 불필요한 가정을 하지 말고 '같은 현상을 설명하는 두 개의 주장이 있다면 간단한 쪽을 선택하라'는 얘기다. 여기서 면도날은 필연성 없는 개념이나 불필요한 가설을 잘라 버린다는 비유로 '사고 절약의 원리(Principle of Parsimony)'라고도 불린다.

관련기사

오컴의 면도날은 그러나 간단함을 강조한 추론방식이지 진실과 거짓을 구분하는 판단의 근거로 삼으면 치명적인 오류가 생길수도 있다. 어쩌면 별점 시스템이 오컴의 면도날이 강조하는 그런 상징적인 기제다. 만약 그 속에 숨겨진 메시지가 지나치게 간과되고 심지어 왜곡까지도 가져오기도 한다면 이 별점 시스템이 팩트와 진실까지도 베어버리는 무서운 면도날이 될 수도 있다.

이런 문제의식을 갖고 디지톨로지 다음 연재글에서는 별점 시스템의 작동 원리와 비판적 사고를 위한 데이터 리터러시를 언급하며 별점 시스템의 함정을 해결하기 위한 다양한 노력과 사례들을 살펴보고 모든 소비자들의 이익의 합인 GSB를 높일 수 있는 솔루션을 알아본다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.

김성태 고려대 미디어학부 교수

현재 고려대 ‘빅데이터 사회문제 연구센터’를 운영하며, 데이터를 통한 통찰력 있는 세상 읽기와 (빅)데이터 분석을 통한 다양한 사회 문제 솔루션 도출에 관심을 갖고 있다. 이번 '데이톨로지' 연재는 인류의 역사, 철학사상 그리고 다양한 인문학적 논쟁의 패러다임속에서 데이터 자체의 미학, 역사속의 위대한 데이터 분석가, 디지털데이터가 만드는 새로운 현상과 문화를 최근 사례와 함께 소개함으로써 미래의 성장동력으로서의 (빅)데이터의 가치를 재발견하고, 독자들에게 ‘디지톨로지Digitalogy’ ‘데이톨로지Datalogy’ ‘데이터빌리티Datability'의 중요성에 대한 토론의 장이 되기를 기대한다.