[이원석 교수의 익명정보③] 복어와 익명정보···신기술로 신세계 열어야

아직 일반인에 생소한 '익명정보'를 개인정보보호위원회(개보위)는 어떻게 생각할까. 개보위는 '익명정보'를 ‘시간·비용·기술 등을 합리적으로 고려할 때 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는 정보’라고 정의한다. 유럽 개인정보보호법(GDPR)은 보다 구체적이다. 익명정보 요건으로 ➀개별화 배제 ②구별 가능성 배제 ③추론 가능성 배제 ④연결 가능성 배제를 제시했다. 이 요건을 모두 만족하는 익명정보는 개인 동의 없이 법적으로 자유롭게 제 3자에게 제공할 수 있다. 필자는 익명정보가 기업의 기밀정보 유출이나 저작권 문제를 해소할 수 있다고 생각한다.

통계데이터는 순도가 매우 낮은 익명정보다. 통계처리 기준 범위를 작게 할수록 순도가 높은 익명정보로 가공된다. 그 기준을 계속 작게 하면 어느 순간 대상 원천데이터에 있는 개인이 식별되는 임계점에 도달한다. 이 임계점이 가명정보와 익명정보의 경계선이다. 이 선에 가장 근접한 익명정보가 순도가 가장 높다. 따라서 모든 원천데이터는 예외 없이 고순도 익명정보로 가공할 수 있다.

AI·빅데이터 산업을 주도하는 미국과 중국은 원천데이터를 그대로 사용해 고순도 익명정보 기술을 개발할 필요가 없다. 우리는 그렇지 않기에 우리 스스로 고순도 익명정보를 만들어야 한다. 이미 고순도 익명정보를 만드는 기술은 존재한다.

복어는 독을 제거하지 않고 먹을 때 사망할 수 있는 무서운 먹거리다. 복어를 데이터와 비교하면, 원천데이터에 있는 민감한 개인정보는 복어의 독과 같다. 또 복어 내장은 주민번호나 전화번호같은 개인식별자로 이는 개인의 본명에 해당한다. 복어 살은 개인의 정보시스템 이용 내역이다. 학급의 중간고사 성적표를 복어에 비유하면 학번은 복어 내장인 개인식별자이고, 점수는 복어 살에 해당하는 정보시스템 이용 내역이다.

익명처리 기본 원칙은 원본 값에 대한 중복성과 상이성을 보장하는 것이다. 홍길동을 포함해 여러 학생들의 사회 점수가 중복해서 모두 75점이라면, 성적표에서 사회 점수로만으로는 홍길동 레코드를 구별할 수 없다. 만약 홍길동만 혼자 75점이라면 이 정보를 이미 알고 있는 사람은 성적표에서 홍길동의 레코드을 특정할 수 있다. 이런 경우가 GDPR의 개별화다.

개별화 배제를 위해 홍길동의 점수를 원래 성적과 상이하게 73점으로 가공하면 홍길동 레코드를 특정할 수 없지만 추론할 수 있다. 만약 70점으로 가공하면 홍길동 레코드로 추론하는 강도는 낮게 된다. 이렇게 인위적으로 원본 이용 내역과 상이한 값으로 정밀하게 가공하면 복어 살에서 피를 제거한 것과 같은 고순도 익명정보를 만들 수 있다.

복어 내장인 개인식별자를 가명으로 작명하면 가명식별자가 되고, 익명으로 작명하면 익명식별자가 된다. 한 개인식별자 값에 대해 많은 수의 상이한 익명식별자 값을 만들면 개별화 배제를 보장할 수 있다. 또 2명 이상의 다른 개인식별자 값들에 대해 하나의 익명식별자 값을 중복시켜 구별 가능성 배제를 보장하기도 한다. 이에, 익명식별자 값만으로는 해당 개인을 특정할 수 없다.

익명결합은 두 익명식별자 값 쌍에서 동일인일 신뢰도가 높을 때 두 익명식별자 값 쌍을 결합한다. 이때 서로 다른 두 익명식별자 값으로 결합하므로 GDPR의 연결 가능성 배제 원칙을 충족한다. 뿐만아니라 익명식별자 값은 데이터 판매자가 독자적으로 생성해 가명을 작명하지 않기 때문에 공인 결합 전문기관이 필요 없다.

판매자는 하나의 원천데이터를 중복성과 상이성 정도를 다르게 가공해 익명성과 활용성 수준을 차별화한 익명정보 제품군을 매장에 전시한다. 구매자는 여러 판매자의 다양한 제품을 실제로 보고 익명결합을 통해 비교, 자신에게 효용성이 높은 제품을 구매한다. 선진 데이터 유통 체계를 실현하는 것이다.

그럼 복어의 피를 얼마나 빼야 안전한 고순도 익명정보일까? 개인정보보호위원회는 익명정보는 개인정보가 아니므로 자유롭게 사용할 수 있다고만 한다. 익명정보에 대한 정확한 기준을 정해주지 않는다. 이미 국내 기술로 고순도 익명처리 기술을 개발했지만 아직 사용하지 못하고 있는 이유다.

규제 당국의 명확한 기준 없이 개별 회사가 임의로 익명정보를 정의하고 사용하는 것은 우리 법체계 안에서 불가능하다. 국가 차원에서 다양한 레벨의 고순도 익명정보 인증 기준을 만들어 공표해야 한다. 우리의 AI 빅데이터 산업은 미국과 경쟁할 충분한 잠재력이 있다. 미국을 따라가지 않고 우리의 첨단 기술로 우리만의 길을 개척할 때 AI 빅데이터 시대를 선도할 수 있다.