[기고] 디지털 뉴딜 인공지능 데이터 공개를 자축하며

이제는 데이터 활용의 극대화를 고민할 때이다

전문가 칼럼입력 :2021/07/14 10:44

이지형 성균관대학교 AI 대학원장

디지털 뉴딜을 수행한지 1년이라는 시간이 흘렀고, 이 사업을 통하여 인공지능 발전의 핵심이라 할 수 있는 인공지능 학습용 데이터도 170종이 구축되어 개방됐다.

우리나라의 인공지능은 알파고를 기점으로 그 이전과 이후로 나뉜다고 해도 과언이 아닐 정도로 알파고는 우리나라의 학계, 연구소, 기업뿐만이 아니라 사회 전반에 매우 큰 충격을 주었다. 알파고로 말미암아 지금 세계의 기술 흐름이 어떻게 흐르고 있는지, 그 기술이 가져올 미래의 변화 및 충격에 대해서 많이 고민하게 되었다.

성균관대학교 이지형 AI 대학원장

그때의 진단은 “우리는 미래에 다가올 인공지능에 대해서 준비가 되지 않았다”였으며, 현실에 대한 이러한 냉혹한 판단 이후 우리는 순발력을 발휘하기 시작했다.

다양한 인공지능 관련 인력을 양성하기 위한 프로그램과 정책이 수립되어 수행되었으며, 사회의 여러 분야에 인공지능 기술을 적용하기 위한 많은 노력을 집중하였다. 이러한 노력의 일차적 마무리가 바로 이번에 공개한 인공지능 학습용 데이터라고 할 수 있다.

인공지능이 무엇인지에 대해서 다양한 방식으로 정의할 수 있겠으나, 인공지능을 실용적 측면에서 정의하면 “데이터를 이용한 문제해결 기법”이라 할 수 있다.

우리는 다양한 문제해결을 위해서 인공지능을 활용하고자 한다. 현재 사회에서 데이터가 축적되고 있지 않은 분야는 없고, 또한 축적되는 데이터의 양이 시간에 따라 증가하고 있다. 현재 사회에서 데이터란 바로 해결해야 할 문제의 출발점이다.

인공지능 기술의 발전과 이의 활용에 있어 양질의 데이터는 필수적이다. 데이터를 활용한 문제해결에 있어서 데이터의 수집과 가공이 문제해결에 필요한 시간과 노력의 절반 이상을 차지하고 있다는 것은 이미 널리 알려진 사실이고, 많은 기업들이 이구동성으로 호소하는 내용도 바로 데이터 수집의 어려움이다.

따라서, 그동안 진행되었던 인공지능과 관련된 다양한 정책의 화룡점정이 이번 학습용 데이터의 공개라고 할 수 있을 만큼 의미 있는 사건이다. 이번에 인공지능 학습용 데이터는 우리나라의 인공지능 발전에 중요한 전환점이 될 수도 있다.

그러나 데이터는 데이터일 뿐이다. 데이터 축적이 그 자체로 문제해결도 아니고 인공지능의 발전을 의미하지도 않는다. 요리에 비유하자면 데이터는 재료일 뿐이다. 물론 어디에서 쉽게 구할 수 없는 귀한 재료이다. 이제부터 고민해야 할 것은 이 귀한 재료를 어떻게 관리하고 어떻게 활용할 것인가이다.

첫째로 이제부터는 단순히 더 많은 데이터의 구축, 단순히 더 많은 활용만을 고민하면 안된다. 데이터를 활용하여 우리나라의 인공지능 기술의 근본적 발전을 이끌어 낼 수 있는 새로운 전략이 필요하다. 단지 활용의 건수를 늘린다고 인공지능 기술의 발전이 이뤄지는 것은 아니다.

기 구축된 데이터를 기반으로 인공지능 기술의 발전을 이끌어 낼 수 있는 새로운 정책과 프로그램을 발굴해 낼 필요가 있다. 또한 이미 진행되고 있는 다양한 프로그램과 유기적 결합을 통하여 시너지 효과를 얻어내야 한다. 기존의 인재 양성 프로그램과 기 구축된 데이터의 활용을 결합하는 것은 두 가지 모두에 긍정적 상승효과를 가져올 수 있는 좋은 전략 중의 하나다.

둘째로 이 데이터가 고스란히 외국으로 넘어가게 되는 것에 대해서도 고민해야 한다. 이 데이터는 우리나라뿐만 아니라 해외에서도 탐을 내고 있는 귀한 재료일 것이다. 우리의 많은 세금으로 구축해 놓은 데이터를 단순히 외국 기업들에게도 무상으로 사용할 수 있게 하는 것이 아니라, 이 데이터를 이용하여 외국의 기업이 우리나라에 들어오도록 하는 유인 정책을 개발해야 한다.

우리가 20여년 전에 모바일 통신 인프라를 구축하여 세계의 모든 기업이 우리나라를 표준 삼아 기술 개발을 하던 시절이 있었다. 바로 이번에 공개되는 데이터를 인공지능 분야에 있어서 외국 기업을 국내로 불러들이고, 외국의 자본이 국내에 투자가 되고, 외국의 인재가 우리나라에 들어오게 하는 지렛대로 활용해야 한다.

셋째로 장기적으로 데이터를 무제한으로 공개하는 것에 대해서 고민해야 한다. 현재 전 세계적으로 공개되어 연구에 활용되고 있는 데이터는 많은 학술 혹은 연구 기관 등이 공개한 것들이 대부분이지, 기업이나 정부가 구축하여 공개한 것은 많지 않다. 그 이유는 데이터 그 자체가 매우 귀중한 자산이기 때문이다.

관련기사

이 데이터의 효용을 극대화하고 데이터 구축 사업이 자생력을 갖추기 위해서 데이터의 최적 활용에 대해서도 고민이 필요하다.

지난 5년여 동안 우리는 인공지능 기술과 산업의 발전을 위해서 부단히 달려왔다. 이제 인공지능의 재료인 데이터도 준비가 되었다. 이러한 자산과 경험을 바탕으로 펼쳐질 대한민국 인공지능의 다음 버전을 기대한다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.