챗GPT 등장 이후 인공지능(AI)과 신기술, 혁신적인 서비스의 개발을 해하지 않으면서도 이용자의 권리와 개인정보를 보호하려면 어떤 것을 고려해야 할 지에 대한 논의가 최근 활발해진 분위기다. 급변하는 정보사회에서 AI와 개인정보 보호에 있어 우리 사회가 취해야 할 균형 잡힌 자세가 어떤 것인지에 대해 법무법인 태평양 AI팀에서 [AI 컨택]을 통해 2주 마다 다뤄보고자 한다. [편집자주]
올해 초 개인정보보호위원회는 가명정보 처리에 관한 가이드라인을 개정하면서 비정형 데이터의 가명처리 기준을 정립했다. 여기서 비정형 데이터란 이미지, 영상, 음성, 텍스트와 같이 정해진 규격이 없는 데이터를 뜻한다.
이 가이드라인에서는 인공지능(AI) 개발과 밀접하게 관련된 7가지 주요 비정형 데이터 가명처리 예시가 소개됐다. 필자 역시 최근 정부, 지방자치단체, 기업의 가명처리 수준을 심사하면서 가명정보가 AI 기술 확산에 필수적인 역할을 하고 있음을 실감하고 있다.
가명정보에 관한 제도는 지난 2020년 개인정보 보호법 및 신용정보의 이용 및 보호에 관한 법률 개정으로 국내에 처음 도입됐다. 가명정보 제도가 처음 도입됐던 당시만 하더라도 가명정보 전문가는 드물었고 가명정보의 활용도 주로 정부나 지방자치단체를 중심으로 이뤄졌다.
그럼에도 불구하고 시간이 지나면서 통신사, 카드사, 대형병원 등 사기업에서도 가명정보 제도를 활용하기 시작했다. 또 개인정보보호위원회에서 운영하고 있는 가명정보 전문가 풀도 150명으로 확대됐다.
가명정보란 개인정보 일부를 삭제하거나 대체해 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리된 개인정보를 의미한다. 이러한 가명정보는 통계작성이나 과학적 연구 목적 등을 위해서는 정보주체의 동의 없이도 활용이 가능하다.
비록 가명정보도 개인정보의 한 유형이지만 일반 개인정보와는 다르게 보다 자유로운 활용이 가능하다. 이 점에서 가명정보는 AI 학습데이터 구축에 필수적이다. 일반 개인정보는 개인정보 보호법에 따라 엄격한 통제를 받아 AI 기술 개발에 일정 부분 제약을 줄 수밖에 없기 때문이다.
최근에는 합성데이터 활용에 관한 논의도 활발하다. 가명정보 역시 개인정보의 한 유형이기에 산업계에서는 보다 자유로운 데이터 활용을 위해 개인정보로 보기 어려운 유형의 데이터인 합성데이터를 고안했다.
합성데이터란 실제 데이터가 아닌 컴퓨팅 알고리즘을 기반으로 실제 데이터의 통계적 특성이나 패턴을 모방해 인위적으로 생성한 데이터다. 합성데이터는 기존의 가명정보와 달리 원본데이터를 마스킹하거나 범주화하는 등 원본을 변조하지 않는다. 대신 원본의 통계적 분포로부터 모의데이터를 추출하는 방식으로 생성된다.
적절하게 생성된 합성데이터는 원본 데이터와 유사한 수준의 가치를 지니면서도 익명성도 확보할 수 있다. 따라서 법적인 제약 없이 자유롭게 활용이 가능하다는 장점이 있다. 개인정보보호위원회도 이를 고려해 올해 안에 합성데이터 생성 및 활용에 관한 구체적인 기준을 담은 가이드라인을 발표할 계획이다.
가명정보 제도가 도입되면서 정부가 국가 AI 기술 경쟁력 확보를 위해 보다 자유로운 데이터 활용 방안을 모색하고 있다는 점은 긍정적으로 평가할 만하다. 그럼에도 불구하고 AI 학습데이터 구축을 위한 길은 여전히 멀게 느껴진다.
가명정보와 합성데이터가 AI 기술 개발에 큰 도움이 되는 것은 사실이지만 이들을 생성해내기 위해서는 원본 데이터가 필요하다. 이러한 원본 데이터에는 개인정보가 포함될 수밖에 없다. 결국 가명정보나 합성데이터를 통한 AI 학습을 위해서는 원본 개인정보를 적법하게 보유해야 하는 문제가 생긴다.
대형 통신사, 병원 및 대기업 등은 AI 학습을 위한 충분한 양의 개인정보를 보유하고 있어 큰 문제가 되지 않을 수 있다. 이와 반대로 영세한 업체들의 상황은 다르다. 그들은 경쟁력 있는 AI 기술을 개발할 역량이 있더라도 학습에 필요한 원본데이터를 확보하고 있지 못한 경우가 많다.
물론 영세업체는 외부에 공개된 정보를 통해 데이터를 확보하려고 시도할 수 있지만 이것 만으로는 충분한 가치를 창출하기 어렵다. 결국 이미 데이터를 충분히 보유하고 있는 기업이나 정부로부터 정보를 받아와야 한다.
그렇지만 데이터가 경쟁력인 시대에 기업이 정보를 쉽게 넘겨줄 리 없고 개인정보 보호법도 정보의 이전을 쉽게 허용하지 않는다. 보유하고 있는 개인정보를 다른 제3자에게 이전함에 있어서는 정보주체의 동의가 필요하거나 한정된 용도로만 이전 받아 사용할 수 있다는 제약이 따르기 때문이다.
최근 한 AI 스타트업 사업자가 지방자치단체가 보유한 개인정보를 이전 받아 가명처리한 후 지방자치단체 사무에 활용될 AI 소프트웨어를 개발해 납품한 사례가 있었다. 사업적인 측면에서만 본다면 이 소프트웨어는 지방자치단체 사무에 국한되지 않고 다른 영역에서도 폭 넓게 활용될 충분한 가치가 있었다.
관련기사
- [기고] 리걸테크 서비스와 '우물 안 개구리'2024.08.20
- [기고] 알고리즘과 AI의 차이점…규제가 중요한 이유2024.07.19
- [기고] AI 생태계 속 규제 패러다임의 변화…'AI 거버넌스'2024.07.05
- [기고] 인공지능 규제, 어디로 가야 하나2024.06.21
그런데 AI 업체가 지방자치단체로부터 원본 개인정보를 넘겨 받아 이를 가명처리 하기만 한다면 가명정보로 개발한 AI를 지방자치단체 사무 만이 아니라 보다 넓은 목적으로 활용해도 괜찮은 것일까. 애초에 원본 개인정보를 이전 받은 목적이 지방자치단체 사무를 위한 것이었다면 그 활용 범위를 넓히는 것은 쉽게 단정짓기는 어려운 문제다.
가명정보 제도가 도입되고 데이터 활용이 보다 자유로워지기는 했으나 이로 인해 혜택을 보는 것은 처음부터 데이터 확보에 우위를 가진 자들로 국한되고 있는 것은 아닌지 아쉬움이 남는다. 보다 근본적으로 AI 시대에 걸맞은 데이터 활용을 위해 정보의 이전을 활성화하는 제도적인 개선이 이뤄지기를 기대해본다.