"AI 챗봇이 실제 내 전화번호를 유출한다"… 제미나이에서 잇따라 노출

MIT 테크놀로지 리뷰(MIT Technology Review)가 5월 13일(현지 시간) AI 챗봇이 실제 사용자의 전화번호를 무단으로 유출하고 있는 사례를 단독 보도했다. 사용자들은 자신의 개인 연락처 정보가 구글(Google) AI(특히 제미나이 어시스턴트 응답)에 의해 제3자에게 노출되고 있다고 보고하고 있으며, 이를 막을 쉬운 방법이 사실상 없다는 것이 핵심이다. 한 레딧(Reddit) 사용자는 "제발 도와달라"며 절박한 심정을 토로했다.

MIT 테크놀로지 리뷰는 "이 사건은 LLM 학습 데이터 안에 개인정보가 잔류한 결과로 보인다"고 분석했다. 사용자가 직접 자기 번호를 챗봇에 입력하지 않아도, 과거 어딘가에 노출된 번호가 모델 학습 코퍼스에 흘러들어가면 이후 누가 어떤 질문을 던지든 모델이 그 번호를 '관련 정보'로 인식해 답으로 뱉어낸다는 것이다. 익명화·필터링 절차가 작동했음에도 일부 케이스가 빠져나갔다.

더 심각한 점은 사용자가 자기 번호를 '학습 데이터에서 빼 달라'고 요청할 수 있는 명확한 절차가 LLM 제공자 측에 없다는 것이다. GDPR과 한국 개인정보보호법은 '잊혀질 권리'를 보장하지만, 이미 학습된 모델 가중치에서 특정 사람의 정보를 정확히 지우는 기술적 방법은 사실상 존재하지 않는다.

한국 사용자 입장에서도 결코 무관한 사건이 아니다. 네이버·카카오·SKT 등 국내 AI 사업자들도 외부 LLM을 활용한 서비스를 늘리고 있고, 챗GPT(ChatGPT)·제미나이(Gemini)·클로드(Claude)는 한국어 데이터로도 학습돼 있다. 이번 보도가 던지는 진짜 질문은 "우리는 우리의 데이터를 LLM 학습 코퍼스에서 빼낼 권리가 있는가"라는 정책적 과제다.

자세한 내용은 MIT Technology Review에서 확인할 수 있다.

이미지 출처: 이디오그램 생성