정부가 '데이터 경제 강국'이 되기 위해 규제 개선을 하기로 한 가운데 일부 시민단체는 개인정보 유출을 우려하며 반발하고 있다.
가장 큰 쟁점은 가명정보의 활용과 결합이다.
가명정보는 개인을 특정할 수 없게 비식별조치한 정보를 말한다. 완전히 알아볼 수 없게 만든 익명정보와 달리 기술적으로 추가적인 조치를 할 경우 개인을 다시 식별할 수 있다는 주장도 있다. 시민단체가 우려하는 대목이다.
하지만 업계에서는 가명정보에 익명정보보다 더 많은 정보가 있기에 이의 활용을 원한다.
가명정보 활용과 결합을 확대할 경우 개인정보 침해 우려가 얼마나 커질 것인지에 대해 서로 의견이 다르고 논란이 있는 것이다.
정부는 이와 관련해 최근 가명정보의 활용범위를 확대하되 이를 악용해 개인정보를 재식별하려 할 경우 강력히 처벌하는 쪽으로 제도 개선 방향을 수립했다.
이와 관한 3가지 궁금증을 전문가들을 통해 풀어본다.
■ 의문 1. 가명정보 결합, 개인 식별할 수 있나
가명정보는 한 개인이 누구인지 특정할 수는 없지만 그에 대한 약간을 정보를 담고 있다. 예를 들면 그가 20대이고 여자이며 서울에 산다는 정보가 들어있다. 이 정보는 정보를 보유한 기관에 따라서 각기 다를 수 있다.
따라서 이들 기관의 정보를 모아 결합하면 개인을 특정할 수 있다는 의견이 가능하다.
보안업계 한 전문가는 이에 대해 "그렇지 않다"고 말했다. 가명정보와 가명정보의 결합만으로는 개인을 특정해내기가 어렵다는 설명이다. 그는 "결합을 해도 서울 도봉구에 사는 60대의 50㎏대 여성이 노란색 옷을 좋아한다와 같은 정보만 도출될 뿐이지, 그 개인이 누구인지 특정할 수 있는 정보는 나오지 않을 것"이라고 말했다.
그는 다만 가명정보를 결합한 후 추가 정보를 덧붙이는 이른바 '애드 워크(Add work)'를 한다면 개인을 특정할 수도 있다고 말했다.
정보 보유 기관이 나쁜 의도로 개인정부를 덧붙여야 한다는 뜻이다.
행정안전부 김상광 개인정보보호정책과장은 두 가지 사실을 짚어야 한다고 말했다.
하나는, 데이터 결합 자체도 국가가 지정한 전문기관에서 이뤄지며 각 기업에게는 데이터 결과값만 전달돼 개인을 식별할 수 없다는 점이다. 김상광 과장은 "익명성 평가의 값을 5로 설정하기만 해도 개인을 알아볼 수 없다"며 "식별하긴 어렵다"고 말했다. 익명성 평가는 비식별화를 위한 조치 과정 중에 얼마나 개인을 알아볼 수 없도록 식별정보를 없애느냐에 대한 수준을 의미한다.
현재 정부 부처 논의가 진행 중이지만, 데이터 결합은 보안이 뛰어난 지정 전문기관에서만 이뤄질 수 있도록 한다는 방침이다.
또다른 하나는 아웃라이어라고 불리는 극단의 값을 제외한다는 점이다.
김 과장은 "100만명 중에 1명이 해당되는 극단의 값은 제외하고 가명정보를 만들기 때문에 극단이 노출될 일은 없다"고 설명했다. 또 개인 정보를 가명화해 이용할 경우에 특정 장소에서만 쓸 수 있게 제한할 방침이다.
■ 의문2. 동의없이 활용하는 가명정보, 거부할 수 있나
개인이 드러나 있지 않은 가명정보라고 하더라도 카드 및 은행, 소셜커뮤니티 사이트 등에서 개인정보가 유출됐던 일반인들은 동의없이 내 정보를 내주긴 어렵다고 입을 모은다.
지난달 30일 행정안전부의 정윤기 전자정보국장은 "안전하게 조치된 가명정보는 동의없이도 활용할 수 있다"며 안전성에 방점을 찍었다. 가명정보를 이용하고 제공할 수 있는 범위를 법으로 구체적으로 규정해 개인정보보호의 '울타리'를 치겠다고 강조했다. 확정되진 않았지만 가명정보를 이용·제공할 수 있는 범위는 시장조사 등 상업적 목적을 포함한 통계작성이나 산업적 연구, 공익적 기록 보존 등이다.
정윤기 국장은 흔히 걱정하는 광고성 전화나 마케팅 권유 문자가 오지않게 하겠다고 당시 확언했다.
그러나 가명정보는 개인정보라고 볼 수 없기 때문에 이에 대한 소유권은 불분명한 상태다. 기업이 원래 갖고 있는 데이터는 기업 재산의 소유로 보느냐, 가입자 개인들의 자산으로 보느냐는 질문에 정윤기 국장은 "당장 명확하게 답변할 수 없다"고 답했다.
■ 의문 3. 가명정보로 유의미한 데이터 결과 도출할 수 있나
개인정보 유출에 관한 우려도 있지만, 과연 가명정보로 유의미한 데이터를 뽑아내고 활용할 수 있느냐, 하는 의문도 있다. 비식별화된 정보만으로는 머신러닝이나 딥러닝을 활용하기 어렵다는 문제도 제기됐다.
하지만 머신러닝 업체의 한 관계자는 "데이터의 질과 양이 데이터의 정교성을 결정짓긴 하지만, 비식별화됐느냐 식별화됐느냐는 중요치 않다"고 말했다.
이 관계자는 "머신러닝에 데이터를 넣고, '20대 어떤 여성이 어떤 걸 좋아했고, 이런 상태를 좋아했다'는 내용을 통계적으로 뽑아내기 때문에 식별과 비식별화가 추출되는 데이터의 가치를 결정짓는다고 보긴 어렵다"고 덧붙였다.
일부에서는 새로운 보안기술 접목도 고민해야 한다고 말했다.
최근 제4차 보안기술로 주목받고 있는 '동형암호'에 대해서도 가능성을 배제하지 말아달라는 것이다. 동형암호는 데이터를 암호화하고, 이 암호키 자체를 보안하는 기술이다.
지난 4일 서울 여의도 금융투자협회에서 열린 '2018년도 금융 빅데이터 협의회'에서 삼성SDS 관계자는 "머신러닝과 딥러닝을 활용할 수 있는 동형암호의 국내 연구 수준은 세계 최고"라면서 "암호화된 데이터 값을 머신러닝에 넣더라도 원본 데이터를 넣은 것과 같은 수준의 결과를 얻을 수 있다"고 조언했다.
특히 동형암호는 클라우드 상에서 암호화된 상태로 데이터 분석 서비스를 이용할 수 있으며 사용자는 데이터 노출에 대한 염려없이 클라우드 분석 서비스를 이용할 수 있다고 덧붙였다. 데이터 결합 시 국가공인기관에서만 암호화 돼 나온 데이터에 대한 복호화 값을 갖고 있는 방안도 고려할 수 있다고 말했다.
관련기사
- 데이터 잘 쓰는 나라 만든다…내년 1兆 투입2018.09.06
- 가명정보 활용범위 넒어져…악용 땐 처벌강화2018.09.06
- 데이터, 너무 줬나?…이통사, 망부하 우려2018.09.06
- 현대중공업지주, 카카오와 손잡고 의료 빅데이터 사업 진출2018.09.06
다만 일부에서는 "동형암호 기술이 뛰어난 것은 인정하지만, 데이터 분석 속도가 느린 것이 단점"이라며 "급하지 않은 데이터 분석에서는 이를 적용하는 것도 나쁘지 않다"고 말했다.
행정안전부 측도 데이터 유출이나 식별을 막을 수 있는 다양한 보안 기술 적용을 고려할 계획이라고 말했다.