[이원석 교수의 익명정보③] 복어와 익명정보···신기술로 신세계 열어야

AI·데이터 경쟁력 높여줄 고순도 익명정보 검증 국가기준 필요

전문가 칼럼입력 :2024/03/16 15:00    수정: 2024/03/16 16:44

이원석 연세대학교 컴퓨터과학과 교수

아직 일반인에 생소한 '익명정보'를 개인정보보호위원회(개보위)는 어떻게 생각할까. 개보위는 '익명정보'를 ‘시간·비용·기술 등을 합리적으로 고려할 때 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는 정보’라고 정의한다. 유럽 개인정보보호법(GDPR)은 보다 구체적이다. 익명정보 요건으로 ➀개별화 배제 ②구별 가능성 배제 ③추론 가능성 배제 ④연결 가능성 배제를 제시했다. 이 요건을 모두 만족하는 익명정보는 개인 동의 없이 법적으로 자유롭게 제 3자에게 제공할 수 있다. 필자는 익명정보가 기업의 기밀정보 유출이나 저작권 문제를 해소할 수 있다고 생각한다.

통계데이터는 순도가 매우 낮은 익명정보다. 통계처리 기준 범위를 작게 할수록 순도가 높은 익명정보로 가공된다. 그 기준을 계속 작게 하면 어느 순간 대상 원천데이터에 있는 개인이 식별되는 임계점에 도달한다. 이 임계점이 가명정보와 익명정보의 경계선이다. 이 선에 가장 근접한 익명정보가 순도가 가장 높다. 따라서 모든 원천데이터는 예외 없이 고순도 익명정보로 가공할 수 있다.

AI·빅데이터 산업을 주도하는 미국과 중국은 원천데이터를 그대로 사용해 고순도 익명정보 기술을 개발할 필요가 없다. 우리는 그렇지 않기에 우리 스스로 고순도 익명정보를 만들어야 한다. 이미 고순도 익명정보를 만드는 기술은 존재한다.

복어는 독을 제거하지 않고 먹을 때 사망할 수 있는 무서운 먹거리다. 복어를 데이터와 비교하면, 원천데이터에 있는 민감한 개인정보는 복어의 독과 같다. 또 복어 내장은 주민번호나 전화번호같은 개인식별자로 이는 개인의 본명에 해당한다. 복어 살은 개인의 정보시스템 이용 내역이다. 학급의 중간고사 성적표를 복어에 비유하면 학번은 복어 내장인 개인식별자이고, 점수는 복어 살에 해당하는 정보시스템 이용 내역이다.

익명처리 기본 원칙은 원본 값에 대한 중복성과 상이성을 보장하는 것이다. 홍길동을 포함해 여러 학생들의 사회 점수가 중복해서 모두 75점이라면, 성적표에서 사회 점수로만으로는 홍길동 레코드를 구별할 수 없다. 만약 홍길동만 혼자 75점이라면 이 정보를 이미 알고 있는 사람은 성적표에서 홍길동의 레코드을 특정할 수 있다. 이런 경우가 GDPR의 개별화다.

개별화 배제를 위해 홍길동의 점수를 원래 성적과 상이하게 73점으로 가공하면 홍길동 레코드를 특정할 수 없지만 추론할 수 있다. 만약 70점으로 가공하면 홍길동 레코드로 추론하는 강도는 낮게 된다. 이렇게 인위적으로 원본 이용 내역과 상이한 값으로 정밀하게 가공하면 복어 살에서 피를 제거한 것과 같은 고순도 익명정보를 만들 수 있다.

복어 내장인 개인식별자를 가명으로 작명하면 가명식별자가 되고, 익명으로 작명하면 익명식별자가 된다. 한 개인식별자 값에 대해 많은 수의 상이한 익명식별자 값을 만들면 개별화 배제를 보장할 수 있다.  또 2명 이상의 다른 개인식별자 값들에 대해 하나의 익명식별자 값을 중복시켜 구별 가능성 배제를 보장하기도 한다. 이에, 익명식별자 값만으로는 해당 개인을 특정할 수 없다.

익명결합은 두 익명식별자 값 쌍에서 동일인일 신뢰도가 높을 때 두 익명식별자 값 쌍을 결합한다. 이때 서로 다른 두 익명식별자 값으로 결합하므로 GDPR의 연결 가능성 배제 원칙을 충족한다. 뿐만아니라 익명식별자 값은 데이터 판매자가 독자적으로 생성해 가명을 작명하지 않기 때문에 공인 결합 전문기관이 필요 없다.

판매자는 하나의 원천데이터를 중복성과 상이성 정도를 다르게 가공해 익명성과 활용성 수준을 차별화한 익명정보 제품군을 매장에 전시한다. 구매자는 여러 판매자의 다양한 제품을 실제로 보고 익명결합을 통해 비교, 자신에게 효용성이 높은 제품을 구매한다. 선진 데이터 유통 체계를 실현하는 것이다.

그럼 복어의 피를 얼마나 빼야 안전한 고순도 익명정보일까? 개인정보보호위원회는 익명정보는 개인정보가 아니므로 자유롭게 사용할 수 있다고만 한다. 익명정보에 대한 정확한 기준을 정해주지 않는다. 이미 국내 기술로 고순도 익명처리 기술을 개발했지만 아직 사용하지 못하고 있는 이유다.

규제 당국의 명확한 기준 없이 개별 회사가 임의로 익명정보를 정의하고 사용하는 것은 우리 법체계 안에서 불가능하다. 국가 차원에서 다양한 레벨의 고순도 익명정보 인증 기준을 만들어 공표해야 한다. 우리의 AI 빅데이터 산업은 미국과 경쟁할 충분한 잠재력이 있다. 미국을 따라가지 않고 우리의 첨단 기술로 우리만의 길을 개척할 때 AI 빅데이터 시대를 선도할 수 있다.

이원석 연세대 컴퓨터과학과 교수

이원석 교수는 누구?

미국 보스턴대학(Boston University)에서 컴퓨터공학 학사를 받고 미국 퍼듀대에서 컴퓨터공학 석사, 박사 학위를 받았다. 삼성전자에서 1년간 선임연구원으로 일하다 1993년부터 현재까지 연세대학교 컴퓨터과학과 교수로 일하고 있다.

관련기사

연세대 교수로 재직하며 지난 30년간 데이터 분야에서 활발한 교육과 첨단 연구를 해오고 있다. 80여건의 데이터 관련 첨단 연구과제를 수행했고, 데이터 분야에서 54건 SCI급 국제 논문을 발표했다. 또 57편 국내 논문과 174편 국내 학술대회 논문을 발표했다. 연세대 재직기간중 170명의 석사와 22명의 박사를 배출했다.

2005년 산업자원부 지정 최우수실험실로 뽑혔고 2006년에는 과학기술부지정 국가지정연구실(NRL)로 지정됐다. 2011년 대통령소속 국가정보화 전략위원회 실무위원으로 활동하면서 같은해 11월 국가정보화위원회의 청와대 보고에서 국가차원 빅데이터 활용을 담은 공공 빅데이터 기본계획을 수립하고 발표하는데 기여했다. 2012년부터는 한국빅데이터포럼 운영위원장을 맡아 민간 빅데이터 활용을 위한 다양한 활동을 했고 2013년부터 공공데이터 전략위원회의 빅데이터 전문위원장으로 6년간 활동하기도 했다. 최근 개인정보보호위원회의 제도발전위원으로도 일했다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.