[이원석 교수의 익명정보 ⑤끝] '데이터 트윈' 기반 '지능화 사회' 구현해야

[최적화 사회와 데이터고속도로] 가명·익명 모두 사용하는 분석 체계 갖추면 세계 선도 가능

전문가 칼럼입력 :2024/03/30 18:38    수정: 2024/04/02 10:15

이원석 연세대학교 컴퓨터과학과 교수

증기기관 발명으로 시작한 산업화가 불러온 풍경이 있다. 모두가 같은 대중 방송을 보고 기성복을 입는다. 소위 대중사회를 만들었다. 반면 컴퓨터 발명으로 시작한 정보화는 개인이 모든 생활과 업무를 가상공간에서 시간과 공간 제약 없이 영위하는 정보사회를 실현했다.

스마트 폰 보편화로 개인 가치와 개성을 중시하는 개인 사회가 됐다. 컴퓨터는 개인의 모든 행적을 가상공간에 데이터로 기록한다. 이 기록이 21세기 원유인 원천데이터 자원이다. 개인이나 국가 모두 이 원천데이터를 잘 활용해야 인공지능(AI)이 주도하는 지능화 시대의 승자가 될 수 있다.

지능화란 무엇일까? 산업화는 형체가 있는 물체를 만들고, 정보화는 형체가 없는 알고리듬을 만든다. 컴퓨터 하드웨어는 형체가 있는 고체고, 소프트웨어는 형체가 없는 유체다. 데이터는 개인이 생활이나 업무에 컴퓨터를 이용하면서 남긴 기체다. 즉 데이터는 유리컵에 담긴 콜라를 마신 개인의 느낌이다. 대부분 시원하다고 하지만 탄산이 싫다고 하는 개인도 있다. 같은 개인이라도 콜라를 마신 상황에 따라 다르게 느낀다. 느낌에 정답이 없듯이 지능화는 데이터로 개인 상황과 취향에 따라 최적의 초개인화 서비스를 제공해야 한다.

■ "지능화는 연구개발 및 업무 적용(R&DB) 방식으로 수행해야"

산업화와 정보화는 연구개발(R&D)로 대중을 위한 기술을 만들었다. 반면 지능화는 개인의 생활과 업무 데이터를 AI 빅데이터 기술로 학습해 개인 취향에 가장 적합한 최적 서비스를 자율 지능사물을 통해 전달해야 한다. 따라서 지능화 연구개발은 실제 개인 업무와 생활 데이터를 결합해야 하고, 또 서비스가 얼마나 유용한지 실제 환경에 적용해야 한다. 즉, 지능화는 연구개발 및 업무 적용(R&DB) 방식으로 수행해야 하는 것이다.

우리는 개인 업무나 생활 데이터를 이용할 수 없다. 이에, 지난 10년간 개인정보보호법에 막혀 우리는 미국 및 중국과의 지능화 연구 경쟁에 뒤져 있다. 그래서 우리나라에서는 '축구의 손흥민'에 비교할 수 있는 '국제 데이터 분석가'가 나올 수 없다. 동네 축구가 없어서다. 21세기 원유인 방대한 원천데이터 자원을 창고 깊이 숨겨 놓고 우리는 책으로 배운 이론만 연구실에서 연마하고 있다. 어렵게 구한 가명정보만 이용하는 우리 현실이 안타까울 뿐이다.

현재 우리가 개인 동의 없이 합법적으로 이용할 수 있는 데이터는 가명정보 외에 익명정보도 있다. 이 두 정보를 상호 보완적으로 이용하는 '데이터 트윈' 체계가 필요하다. 즉, 먼저 고순도 익명정보로 자유롭게 이용할 수 있는 '공연계'에서 분석 목표를 기획해 빠르게 1단계 분석 모델을 만들고 데이터 R&DB로 검증한다. 이어 이 분석 결과가 성공적일 때 가명정보를 이용해 최종적으로 이 분석 모델을 검증하는 식이다.

야구 선수가 타율 3할이면 잘한다고 한다. 분석가도 마찬가지다. 10번 익명정보로 분석해 성공한 3개의 분석 모델만 가명정보로 검증하는 '데이터 트윈' 방식은 비용과 시간, 불필요한 서약 등을 최소화하는 우리 현실에 가장 적합한 분석 체계다.

■ "90년대 구축 국가 정보고속도로 정보화 강국 만들어...국가 차원 익명정보 기술 개발 주도해야"

 경부고속도로는 빠른 물류 유통으로 우리 산업화를 성공시켰다. 또 90년대 구축한 국가 정보고속도로는 우리를 정보화 강국으로 만들었다. 이제 뒤처진 AI 국가경쟁력을 되찾기 위해서는 국가 데이터고속도로를 구축해야 한다. 국가 차원에서 익명정보 기술 개발을 주도해 개인정보를 완벽히 보호하면서 사회 모든 분야에서 활용성이 높은 고순도 익명정보를 양산해 신속히 결합하는 것이다.

5차원 데이터 고속도로라면 가장 안쪽 1차선은 공익 목적의 가명정보를 결합하는 버스전용차선이다. 나머지 차선은 저순도와 고순도 익명정보를 익명결합하는 차선이다.

최근 챗GPT와 휴머노이드 자율로봇 등 인간을 대체하는 AI 기술이 인간의 직업을 뺏어간다고 우려한다. 하지만 우려하지 않아도 된다. 합계 출산율 0.7인 우리에겐 오히려 축복이다. 국가 데이터고속도로를 구축하려면 데이터 트윈 체계, 데이터 R&DB에 관련한 다양한 직무와 직종이 필요하기 때문이다. 예를 들면 데이터 상품 기획, 익명정보 가공 & 생산, 데이터 정밀지도, 자율사물 강습자 등이다.

과거 정보고속도로로 생긴 정보화 일자리를 생각하면 된다. 산업화와 정보화를 성공적으로 실현한 우리는 지능화에도 막대한 잠재력이 있다. 지금의 어려움을 현명하게 돌파해 지능화까지 성공하면 다양한 자율 지능사물이 언제 어디서나 모든 개인에게 초개인화 서비스를 실시간으로 제공하는 최적화 사회를 세계서 우리나라가 가장 먼저 실현할 것이다.

이원석 연세대 컴퓨터과학과 교수

필자 이원석 연세대 컴퓨터과학과 교수는...

미국 보스턴대학(Boston University)에서 컴퓨터공학 학사를 받고 미국 퍼듀대에서 컴퓨터공학 석사, 박사 학위를 받았다. 삼성전자에서 1년간 선임연구원으로 일했고, 1993년부터 현재까지 연세대학교 컴퓨터과학과 교수로 근무하고 있다.

관련기사

연세대 교수로 재직한 지난 30년간 데이터 분야에서 활발한 교육과 첨단 연구를 해왔다. 80여건의 데이터 관련 첨단 연구과제를 수행을 하면서 데이터 분야에서 54건의 SCI급 국제 논문을 발표했다. 또 57편의 국내 논문과 174편의 국내 학술대회 논문도 발표했다. 연세대에 재직하며 170명의 석사와 22명의 박사를 배출했다. 2005년에는 산업자원부 지정 최우수실험실로 선정됐다. 1년 뒤인 2006년에는 과학기술정보통신부지정 국가지정연구실(NRL)에도 이름을 올렸다.

2011년에는 대통령소속 국가정보화 전략위원회 실무위원으로 활동했고, 이 해 11월 국가정보화위원회의 청와대 보고에서 국가차원의 빅데이터 활용을 담은 공공 빅데이터 기본계획을 수립하고 발표하는데 큰 역할을 했다. 2012년부터 한국빅데이터포럼 운영위원장을 맡아 민간 빅데이터 활용을 위한 다양한 활동을 했고, 2013년부터 공공데이터 전략위원회의 빅데이터 전문위원장으로 6년간 일했다. 최근에는 개인정보보호위원회의 제도발전위원으로도 활동했다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.