인공지능(AI) 챗봇 '이루다' 개발사인 스캐터랩이 만 14세 미만 아동의 개인정보와, 성생활 등 민감정보를 불법 수집한 사실도 드러났다.
개인정보위는 28일 전체회의에서 의결된 스캐터랩 현장조사 결과 및 행정처분을 발표하면서 이같이 밝혔다.
스캐터랩은 이루다를 개발하는 과정에서 자사 카카오톡 대화 분석 서비스 '텍스트앳'과 '연애의과학' 이용자로부터 수집한 카카오톡 대화 데이터를 별도 동의 요구 절차 없이 이루다 AI 학습에 사용했다는 지적이 제기되면서 개인정보보호법을 위반했다는 비판을 받았다.
이에 개인정보위가 현장조사를 실시한 결과, 개인정보보호법 추가 위반 사실도 드러난 것이다. 법정대리인의 동의 없이 만 14세 미만 아동의 개인정보를 수집한 점, 성생활 등의 민감정보를 처리하면서 별도의 동의를 받지 않은 점이 문제가 됐다.
송상훈 개인정보위 조사조정국장은 "조사 과정에서 스캐터랩의 개인정보보호법 추가 위반 사실이 확인돼 총 8가지 개인정보보호법 위반 행위에 대해 과징금, 과태료를 합해 1억330만원을 부과했다"고 말했다.
-만 14세 미만 아동의 개인정보를 법정대리인 동의 없이 수집한 것으로 드러났다. 이 점과 더불어 현장 조사 과정에서 발견된 위법 사항들에 대해 설명해달라.
"텍스트앳의 경우 약 4만8천명의 아동 정보를 수집했다. 연애의과학은 12만명 정도다. 이루다는 아동 약 3만9천명의 정보가 수집된 것으로 판단했다. 당초 대화 데이터가 '민감정보'로서 유출됐다는 언론 보도가 있었지만, 이런 사실은 발견하지 못했다. 다만 연애의과학 내 심리분석 서비스 중 대화 상대방의 성적 취향 관련 내용이 있었다. 이 부분에 있어서는 민감정보가 수집된 것으로 현장 조사 과정에서 추가적으로 확인했다."
-스캐터랩은 이루다 서비스 플랫폼인 페이스북 메신저와 연애의과학, 텍스트앳을 제공하는 앱 마켓 정책을 통해 만 14세 미만의 이용을 제한했다는 입장이다. 이런 이의를 인정하지 않은 이유는?
"페이스북 메신저를 통해 이루다 서비스에 회원가입할 때 가입자의 성별과 연령을 스캐터랩이 추가 수집했다. (만 14세 미만으로 기재한 회원에 대해서도) 정보 수집을 했기 때문에 그렇게 간주한 것이다."
-과징금, 과태료를 합쳐 1억330만원이 부과됐다. 어떤 기준으로 부과된 액수인가. 최근 페이스북 제재 사례에선 330만명 이상의 개인정보를 유출한 것으로 밝혀져 67억원의 과징금이 부과됐다. 스캐터랩의 경우 60만명 가량이 개인정보 침해를 입은 것으로 나타났는데 1억원 정도다. 이번 과징금·과태료 부과 수준에 대해 어떻게 받아들여야 하나.
"페이스북과 스캐터랩은 법 위반 행위 관련 매출액 규모 차이가 굉장하기 때문에 부과되는 과징금도 차이가 날 수밖에 없다. 이루다와 직접적으로 연관된 매출액은 없지만, 이루다가 스캐터랩의 다른 서비스인 텍스트앳과 연애의과학에서 수집된 카카오톡 대화 문장을 이루다 발화에 쓴 점, 이루다와 텍스트앳, 연애의과학 서비스 관리 조직과 인력 운영이 같다는 점을 고려해 텍스트앳과 연애의과학 연 매출액을 관련 매출액으로 산정해 과징금으로 부과했다."
-텍스트앳과 연애의과학 연 매출액이 얼마인가.
"텍스트앳과 연애의과학 평균 매출액은 총 10억 8천만원 정도다. 작년 기준으론 약 8억2천900만원이었다."
-과징금 감경 요인은 없었나.
"스캐터랩이 최근 3년간 과징금 부과 처분을 받은 적이 없은 점에 대해 감경이 있었다. 개인정보위 조사에서 최대한 적극적으로 협력해 준 점에 대해서도 약 10%의 과징금 감경을 처분했다."
-과징금과 과태료 액수가 높은 항목에 대해 더과중한 제재로 이해해도 되나.
"중대한 위반 행위에 대해서는 과태료가 좀 높게 책정돼 있다. 그렇지만 과징금은 연 매출액 관련 위반 행위의 3% 이하로 부과하기 때문에 제재의 과중성을 얘기하기 곤란한 부분이 있다."
-스캐터랩이 적극적으로 조사에 협조했다고 했다. 그런데 스캐터랩은 이용자 데이터에 대해 상당한 수준으로 가명처리했다고 주장하는 반면, 개인정보위는 그렇지 않다는 입장을 보였다. 이런 입장차를 감안해도 그렇다고 볼 수 있나.
"의견은 서로 다를 수 있고, 다르다고 해서 감경 요인에 대해 감경을 하지 않는 것은 아니다. 전체 조사과정에서 자료 제출을 거짓으로 하거나 제출을 거부하는 등 협조하지 않는 부분이 발생하면 감경 대상이 되지 않지만 조사 내용에 대한 입장 차이는 이에 해당되지 않는다."
-스캐터랩 측은 대화 데이터 700만건 중 3~4건 정도만 문제가 됐다고 주장하고 있다.
"스캐터랩이 이루다 학습 데이터베이스(DB)에 대해서는 정보 주체가 식별될 수 있는 정보에 대해 가명처리를 했다. 그런데 카카오톡 대화 내용에 대해서는 일절 가명처리를 하지 않았다. 이루다 발화와 연관된 응답 DB의 경우 실제 발화된 대화 내용은 700건 정도인데, 발화 여부를 떠나 이 DB 자체가 카카오톡 대화 내용을 변형 없이 그대로 발화에 사용되게 했다. 이 대화 내용은 개인정보다. 연애의과학 또는 텍스트앳 DB와 비교할 경우 실제 발화자가 누구인지 회원 정보를 분석해낼 수 있기 때문이다."
-스캐터랩 서비스 이용자들이 카카오톡 대화 데이터를 제공할 때 제공자와 상대방 대화까지 함께 제공됐는데, 이 부분에 대해선 문제가 없는 건가.
"위원회는 대화의 일방 당사자가 입력한 카카오톡 대화는 대화 상대방의 회원정보를 함께 수집하지 않는 이상, 이를 제공한 일방 당사자의 개인정보로서 수집된 것으로 보고 있다. 이루다 같은 경우에는 응답 DB에서 대화 상대방의 대화 내용까지도 그대로 발화로 쓴 부분이 있기 때문에 그 부분에 있어서는 가명정보로 간주하지 않고, 적어도 (당사자) 동의를 받거나 익명정보로 처리했어야 했다. 그렇지 않아서 위법으로 판단했다."
관련기사
- 개인정보법 위반 '이루다', 과징금 5천만·과태료 5천만2021.04.28
- "개인정보 보호, 투자의 대상이지 회피 대상 아니다"2021.03.10
- 법원 "이루다가 배운 '카톡 대화 DB' 지우면 안돼"2021.02.19
- 사람이 되고픈 꿈 못 이룬 ‘이루다’2021.01.15
-스캐터랩 주장처럼, AI 기업이 가명정보를 정말 철저하게 처리했음에도 수많은 데이터 중 몇 건의 데이터에서 개인정보를 걸러내지 못하는 상황에 대해 어떤 고민을 하고 있나.
"개별 사안별로 모든 부분을 다 고려해서 판단해야 한다. 획일적으로 "어떻게 하면 가명처리를 다 마친 것"이라고 말하기는 굉장히 어렵다. 이루다 건으로 살펴본다면 서비스 개발까지는 가명정보를 활용할 수 있는 목적인 '과학적 연구'에 포함될 수 있지만, 이 서비스를 외부에 공개하는 부분은 포함되지 않는다고 심의 과정에서 판단했다. 외부에 대화 서비스를 제공하는 경우에는 이용자 동의를 받거나, 수집한 정보를 익명화해 익명정보를 이용해야 한다고 판단했다."