[이원석 교수의 익명정보②] 마이데이터와 가명정보는 '잘못된 만남'

가명결합은 AI와 빅데이터 시대에 부적합한 데이터 유통 체계

전문가 칼럼입력 :2024/03/10 15:41    수정: 2024/03/30 18:23

이원석 연세대학교 컴퓨터과학과 교수

유럽연합은 지난 2018년 자국 시장의 국가 차원 데이터 주도권 회복을 위해 강력한 개인정보보호법(GDPR, General Data Protection Regulation)을 시행했다. 정보 주체에게 정보삭제권과 정보처리 반대권, 정보이동권 등 다양한 자기 결정권을 법제화했다.

GDPR에서 원천데이터 자원을 개인 동의 없이 합법적으로 활용하려면 ‘가명정보’나 ‘익명정보’로 가공해야 한다. 본명을 가명으로 가공하는 가명정보는 개인 식별이 가능한 고순도 원천데이터 자원이다. 따라서 기록보전이나 통계작성, 과학적 연구 목적에만 사용할 수 있다. 과학적 연구는 대출 신용도 연구와 같이 광범위한 분야에서 데이터를 활용한 연구다. 또 가명정보는 단순한 가공으로 생성할 수 있어 고도의 기술이 필요없다. 하지만 제약이 있다. 개인 식별이 가능해 법적으로 엄격한 보호 조치와 함께 사용해야 하는 것이다.

반면 익명정보는 이런 제약에서 자유롭다. 가공한 개인을 식별할 수 없게 했기 때문이다. 이에, 법적 제약 없이 자유롭게 사용할 수 있다. 통계데이터가 대표적인 익명정보다. 하지만 순도가 낮아 AI와 빅데이터 산업에 활용성이 낮다. 유럽은 아직 고순도 익명정보 처리 기술을 개발하지 못하고 있다.

우리나라는 2019년에 개인정보보호법을 개정해 GDPR의 가명정보 이용을 추가했다. 이 개정의 핵심은 제 3자 제공에 개인 동의가 필요 없는 가명정보를 이용, 회사 간에 원천데이터를 유통하게 한 것이다. 가명결합은 두 회사의 가명정보를 개인별로 결합한 고순도 비빔 가명정보를 만드는 과정이다. 두 회사는 각자의 가명정보를 공인 결합 전문기관에 함께 제공해 신청한다.

결합 전문기관은 결합 과정에서 두 회사가 제공한 가명정보 쌍에 있는 개인의 본명을 가명으로 작명해 동일한 가명을 갖는 레코드 쌍을 결합한다. 이 과정에서 개인을 식별할 수 있는 가명이 외부에 유출되지 않게 엄격한 법적 보호 조치를 실행한다. 가명결합은 데이터를 제공하는 회사와 받는 회사가 함께 신청해야 한다. 마치 원시시대의 물물교환과 같다. 하지만 파는 사람이 물건을 미리 보여줄 수 없어 매장에 전시할 수 없다. 받는 사람도 물건을 보지 않고 구매한다. 또한 사는 사람이 정해져야 가명 작명이 가능해 유통용 가명정보 제품을 미리 만들어 놓을 수 없다. 비효율적인 주문형 유통 방식이다.

가명결합 결과인 비빔 가명정보를 자기 회사로 가져오려면 엄격한 법적 반출 심사를 거쳐야 한다. 중소기업은 이 심사를 충족하기 어렵다. 더 큰 문제는 이렇게 많은 비용과 시간을 들여 만든 비빔 가명정보가 결과적으로 쓸모없을 수도 있다. 물건을 보지 않고 구매했기 때문이다. 가명결합은 AI 빅데이터 시대에 매우 부적합한 데이터 유통 체계다.

정부는 2019년 데이터 기반 행정법을 제정하고 모든 데이터를 연계하는 디지털 플랫폼 정부를 실현하려 한다. 문제는 원천데이터를 개인별로 연계하는 방법이다. 현실적으로 모든 국민에게 데이터 연계에 대한 동의를 받는 건 불가능하다. 유일한 방법은 제 3자 제공이 가능한 가명정보를 이용하는 것이다. 개인 맞춤 행정이나 복지사각지대 발굴과 같이 좋은 목적이라고 해도 동의 없이 모든 국민의 가명정보를 연계하는 것은 개인을 사찰하는 빅브라더 정부라는 오해를 받기에 충분하다. 가명정보는 개인이 식별되는 원천데이터 자원이기 때문이다.

정보이동권을 이용한 마이데이터는 개인 동의를 받아 여러 다른 회사에 산재한 개인의 원천데이터를 주관회사에서 취합해 한곳에 보여주는 서비스다. 개인은 이 편리성 때문에 주관회사의 마이데이터 서비스에 동의한다. 하지만 주관회사는 마이데이터로 모은 고객의 원천데이터 자원을 개인이 모르게 가명정보로 가공해 제 3자에게 제공해도 합법이다. 마이데이터와 가명정보는 개인을 기만하는 잘못된 만남이다. 정부가 진행하는 공공 마이데이터도 동일한 문제가 있다.

우리는 21세기 원유인 원천데이터를 원유 형태인 가명정보 한 가지로만 유통한다. AI와 빅데이터 산업의 국제 경쟁력을 갖추기 위해선 휘발유나 경유 등 다양한 목적을 위해 여러 형태로 정제한 고순도 비빔 익명정보 제품들을 미리 만들어 시장에 유통해야 한다. 누구나 자유롭게 비교하고 신속하게 결합해 가장 만족스러운 제품을 구매할 수 있는 선진 데이터 유통 구조를 만들어야 한다.

이원석 연세대 컴퓨터과학과 교수

이원석 연세대 컴퓨터과학과 교수는...

미국 보스턴대학(Boston University)에서 컴퓨터공학 학사를 받고 미국 퍼듀대에서 컴퓨터공학 석사, 박사 학위를 받았다. 삼성전자에서 1년간 선임연구원으로 일하다 1993년부터 현재까지 연세대학교 컴퓨터과학과 교수로 일하고 있다.

관련기사

연세대 교수로 재직한 30년간 데이터 분야에서 활발한 교육과 첨단 연구를 해왔다. 80여건의 데이터 관련 첨단 연구과제를 수행을 하면서 데이터 분야에서 54건의 SCI급 국제 논문을 발표했다. 또 57편의 국내 논문과 174편의 국내 학술대회 논문도 발표했다. 연세대 재직기간중 170명의 석사와 22명의 박사를 배출했다. 

2005년 산업자원부 지정 최우수실험실로 뽑혔고 이어 2006년에는 과학기술부지정 국가지정연구실(NRL)로 지정됐다. 2011년에는 대통령소속 국가정보화 전략위원회 실무위원으로 활동하면서 이 해 11월 국가정보화위원회의 청와대 보고에서 국가차원의 빅데이터 활용을 담은 공공 빅데이터 기본계획을 수립하고 발표하는데 주도적인 역할을 했다. 2012년부터는 한국빅데이터포럼 운영위원장을 맡아 민간 빅데이터 활용을 위한 다양한 활동을 했고 2013년부터 공공데이터 전략위원회의 빅데이터 전문위원장으로 6년간 활동하기도 했다. 최근 개인정보보호위원회의 제도발전위원으로도 일했다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.