[이원석 교수의 익명정보①] 가명정보론 한계···데이터강국 힘들어

전문가 칼럼입력 :2024/03/03 15:23    수정: 2024/03/30 18:25

이원석 연세대학교 컴퓨터과학과 교수

 활발한 데이터 유통 체계는 국가 AI·데이터 산업 활성화의 핵심 요소다. 원본데이터를 제 3자에게 제공하는 방법은 가명정보와 익명정보로 구분된다. 가명정보는 개인의 본명만 가명으로 변경한 데이터고 익명정보는 개인의 모든 정보를 원본과 다르게 수정한 데이터다. 현재 우리나라는 가명정보가 유일한 합법적인 데이터 유통 방법이다. 개인을 특정할 수 있는 가명정보는 안전하게 유통하기 위해 엄격한 법적 보호 체계를 반드시 준수해야 한다. 하지만 개인을 알아볼 수 없는 익명정보를 사용하면 시간과 비용이 많이 소요되는 법적 보호 조치 없이 자유롭고 빠르게 유통할 수 있다. 익명정보 분야 이원석 연세대학교 컴퓨터과학과 교수가 국내 AI와 데이터 산업 활성화 측면에서 가명정보 문제점을 짚어보고 이를 극복할 수 있는 익명정보 활용 방안을 ▲가명정보 한계 ▲마이데이터와 가명정보 ▲복어와 익명정보 ▲하늘을 봐야 별을 딴다 ▲최적화사회와 데이터고속도 등의 제목으로 다섯 차례로 나눠 제시한다.(편집자 주)


 2011년 가트너는 빅데이터를 '21세기 원유'로 비유했다. 방대한 데이터를 지식산업의 자원으로 이용하는 데이터 시대가 시작된 것이다. 우리나라는 모든 개인의 업무와 사생활이 정보시스템을 통해 작동하는 성숙한 정보사회다. 엄청난 양의 원천데이터 자원을 지속해서 생산하는 세계 1위 원천데이터 자원 부국이기도 하다.

원천데이터 자원의 가치는 언제가 제일 좋을까? 개인이 정보시스템을 이용한 최신 이력 정보를 가질 때다. 이때가 순도가 가장 높다. 여러 레코드(기록)를 집계 또는 통계처리 할수록, 또 자원을 채굴한 시간이 오래될수록 개인 이력 정보 활용도가 희석돼 순도가 낮아진다. 이에, 서로 다른 회사의 정보시스템에서 최근 채굴한 고순도 데이터 자원을 동일 개인 단위로 비빔밥처럼 섞은 고순도 비빔데이터가 가장 활용성이 높다. 이는 개인별로 연관된 최신 정보를 파악해 개인에 대해 정교한 AI 서비스를 제공할 수 있기 때문이다.

따라서 국가 데이터산업 경쟁력은 사회 모든 영역에서 고순도 데이터 자원을 채굴해 신속하고 자유로운 유통으로 부가가치가 높은 고순도 비빔데이터 제품을 만드는 능력에 달려있다. 미국은 방대한 원천데이터 자원을 학습한 챗GPT 서비스로 데이터 산업에서 가장 앞서고 있다. 중국은 모든 고순도 원천데이터 자원을 국가가 취합해 이용해 AI기술을 선도하고 있다.

시장경제 중심의 미국은 데이터 자원을 상거래 대상으로 보고 연방거래위원회에서 개인정보보호 정책을 총괄한다. 원천데이터 자원의 자유로운 유통 과정에서 발생하는 개인 피해는 당사자 간 민사 손해 배상 소송으로 해결한다. 이에 따라 기업이 보유한 고순도 원천데이터 자원을 제 3자에게 제공하는 것에 부담이 없다. 우리나라는 다르다. 우리 개인정보보호법은 고순도 원천데이터 자원을 제3자에게 제공하려면 사안별로 모두 개인의 동의를 받아야 한다. 이를 어기면 형사처벌 대상이다.

법적 이유로 경직된 국내 데이터 유통 환경을 개선하기 위해 2020년 데이터 3법을 개정했다. 공익 목적이나 신기술 개발 등 제한된 목적으로 생성한 가명정보는 개인 동의 없이 제 3자에게 제공하는 것을 합법화했다. 가명정보는 원천데이터 자원에 있는 개인의 본명을 일종의 별명과 유사한 가명으로 바꿔 만든 원천데이터 자원이다. 가명정보에서 개인은 각각 다른 가명을 가지는데, 이 가명을 통해 특정 개인을 재식별할 수 있는 고순도 원천데이터다.

자신도 모르게 자신의 정보시스템 이용 내역 정보가 반복적으로 가명처리돼 제 3자에게 제공되는 것에 대한 거부감은 국민 모두가 가질 것이다. 이런 우려로 서로 다른 기관이 보유한 가명정보 쌍을 결합하고 반출 과정에 매우 엄격한 데이터 보호 조치를 법제화했다. 하지만 이런 조치로 많은 행정 노력과 비용이 투입되고 또 상당한 시간이 소요돼 비빔데이터 자원의 최신성 순도도 낮아진다.

무엇보다 가명정보는 어렵게 만든 고순도 비빔데이터 자원을 이용한 후 반드시 폐기해야 해야 한다는 단점을 갖고 있다. 재활용할 수 없다는 것이다. 최근 가명처리 정지 요구권 배제에 대한 법적 다툼이 있었다. 국민 모두에게 가명처리 정지 요구권이 배제된다는 건 병역 의무처럼 모든 개인이 가명처리돼야 하는 공적 의무를 갖는다는 뜻이다. 가명처리가 국민의 의무라면 사안별로 그 목적의 중요성을 상세히 설명하고 달성한 성과를 국민에게 알려줘야 한다. 그래야 의무에 대해 공감할 수 있을 것이다.

만약 가명정보를 법제화한 목적이 고순도 비빔데이터 자원의 활발한 유통을 통한 국내 데이터 산업 활성화라면 다른 방안을 찾아야 한다. 그 이유는 효율성이 낮은 가명정보만 사용하는 우리나라는 원천데이터 자원을 그대로 사용하는 미국, 중국과의 첨단 AI 기술 경쟁에서 마치 한 발로 뛰고 있는 것과 같기 때문이다.

기술 패권 시대다. 진정한 데이터 시대 강자가 되려면 개인이 특정되는 원천데이터 자원을 그대로 이용하는 원시 방법에서 벗어나야 한다. 개인을 알아볼 수 없도록 정교하게 제련한 고순도 익명정보를 신속하게 유통해 고순도 비빔 익명정보를 자유롭게 활용하는 우리만의 창의적 방법을 찾아야 한다. 이것이 데이터 시대를 맞아 대한민국이 기술 패권 국가로 도약하는 지름길이다.

이원석 연세대 컴퓨터과학과 교수

이원석 연세대 컴퓨터과학과 교수는...

미국 보스턴대학(Boston University)에서 컴퓨터공학 학사를 받고 미국 퍼듀대에서 컴퓨터공학 석사, 박사 학위를 받았다. 삼성전자에서 1년간 선임연구원으로 일했고, 1993년부터 현재까지 연세대학교 컴퓨터과학과 교수로 근무하고 있다.

관련기사

연세대 교수로 재직한 지난 30년간 데이터 분야에서 활발한 교육과 첨단 연구를 해왔다. 80여건의 데이터 관련 첨단 연구과제를 수행을 하면서 데이터 분야에서 54건의 SCI급 국제 논문을 발표했다. 또 57편의 국내 논문과 174편의 국내 학술대회 논문도 발표했다. 연세대에 재직하며 170명의 석사와 22명의 박사를 배출했다. 2005년에는 산업자원부 지정 최우수실험실로 선정됐다. 1년 뒤인 2006년에는 과학기술정보통신부지정 국가지정연구실(NRL)에도 이름을 올렸다. 

2011년에는 대통령소속 국가정보화 전략위원회 실무위원으로 활동했고, 이 해 11월 국가정보화위원회의 청와대 보고에서 국가차원의 빅데이터 활용을 담은 공공 빅데이터 기본계획을 수립하고 발표하는데 큰 역할을 했다. 2012년부터 한국빅데이터포럼 운영위원장을 맡아 민간 빅데이터 활용을 위한 다양한 활동을 했고, 2013년부터 공공데이터 전략위원회의 빅데이터 전문위원장으로 6년간 일했다. 최근에는 개인정보보호위원회의 제도발전위원으로도 활동했다. 

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.