공공 구축 'AI 학습 데이터' 속 개인정보 삭제된다

개인정보위, 과기정통부에 'AI 허브' 데이터 개선 권고

컴퓨팅입력 :2021/06/23 14:15

개인정보보호위원회는 한국인터넷진흥원(KISA)을 통해 과학기술정보통신부가 추진하는 인공지능(AI) 학습용 데이터 구축 사업이 개인정보 관련 법규의 정합성을 준수할 수 있도록 지원 중이라고 밝혔다.

과기정통부는 2017년부터 AI 학습용 데이터를 대규모로 구축하고 ‘AI 허브’를 통해 개방해왔다. 

개인정보위는 안전한 데이터 활용 여건을 조성해 성공적인 디지털 뉴딜 사업을 추진하기 위해 지난해 11월 과기정통부와 업무협약을 체결했다. 이에 대한 후속 조치의 일환으로 KISA를 통해 AI 학습용 데이터 중 일부 표본(샘플) 63종에 대해 개인정보 포함 여부 및 재식별 가능성 등을 검토했다.

그 결과 이미지‧영상 데이터의 경우 일부 인물 및 차량번호가 식별 가능하고, 비정형 문자 데이터의 경우 일부 개인정보의 가명처리가 미흡한 부분 등을 지적했다.

이에 과기정통부와 한국지능정보사회진흥원은 2개의 전문기업을 선정해 개인정보가 포함되어 있을 가능성이 있는 65종 1억8천여건의 AI 학습용 데이터를 점검하고 가명처리를 추가 진행했다.

이미지‧영상 데이터 46종 8천323만건은 얼굴과 차량등록번호 등을 식별할 수 있는 경우 흐릿하게 편집 처리했다. 비정형 문자 데이터 19종 9천970만건은 이름‧주소 등 개인정보가 확인되는 경우 해당 부분을 보통명사와 기호의 조합으로 가명처리해 제공하고, AI 학습용 데이터를 사용하는 기업은 해당 문자열을 가상의 이름, 주소 등으로 치환하여 활용할 수 있도록 했다. 

이와 같이 가명처리 된 AI 학습용 데이터들은 6월 말까지 순차적으로 개방될 예정이다.

관련기사

기관들은 개인정보위의 제안에 따라 AI 허브에 3개월 간 온라인 창구를 운영, 이용자들이 가명처리가 미흡한 데이터를 발견하고 의견을 제시할 경우 이를 개선할 계획이다.

개인정보위는 앞으로도 AI 학습용 데이터가 체계적인 보호 기반 위에 안전하게 활용될 수 있도록 지원할 예정이다.