[기고] AI 데이터 구축사업, 성과와 과제는 무엇인가?

전문가 칼럼입력 :2021/11/02 09:23    수정: 2021/11/02 09:47

문용식 한국지능정보사회진흥원장

데이터 댐을 가득 채울 인공지능 학습용 데이터 170종이  공개된 지 넉 달이 지났다. 지난 6월에 약 4.8억 건 1페타 바이트가 넘는 대규모 데이터 개방이 시작되었다. 공개된 지 3달 만에 3.5만여 회가 다운로드 되었다.

이는 20년 한해 총 다운로드 건수를 훌쩍 넘어서는 성과다. 현재 인공지능 학습용 데이터 누적 다운로드는 10만여 회를 넘어서면서 대한민국 인공지능 산업계에 새로운 활력을 불러일으키고 있다.

인공지능의 학습에 필요한 데이터를 구축해 공급하는 사업은 2016년 알파고 쇼크와 함께 기획되었지만, 본격적인 시작은 지난해 디지털 뉴딜부터라고 할 수 있다. 데이터, 네트워크, 클라우드 등과 같은 디지털 SOC 투자를 확대하여 경제위기를 극복하자는 것이 디지털 뉴딜의 핵심 개념이다.

정부 주도로 대규모 인공지능 학습용 데이터를 구축하여 시장에 공급하는 것은 세계 최초의 사례이다. 요즘 디지털 분야에서는 대한민국의 정책이 세계를 선도하는 경우가 갈수록 늘어나고 있다.

본격적인 AI 데이터 공급은 산업발전에 필요한 양질의 공업용수를 직접 공급하는 것에 비할 만하다. 학습용 데이터 가공에만 4만 명이 넘는 일자리가 만들어졌다. 취업 준비 청년, 경력단절 여성, 은퇴자, 장애인 등 취약계층이 많이 참여하였다.

문용식 한국지능정보사회진흥원장

대규모 데이터 사업이 한편으로는 일자리 위기를 극복하고, 다른 한편으로는 인공지능 시대로의 전환을 가속화하는 데에 크게 기여하였다는 평가를 받고 있다.

인공지능 학습용 데이터는 AI 허브 (www.aihub.or.kr) 플랫폼을 통해 제공되는 만큼, AI 허브의 접근성과 안정성이 중요하다. AI 허브는 고도의 기술이 집약된 최신의 민간 클라우드를 채택하였다. 첨단 보안 서비스는 물론이고, 데이터 이용이 아무리 증가하더라도 빠른 확장과 안정된 서비스 제공이 가능하다.

개방에 앞서 크라우드워커들이 여러 번의 기능 및 부하 테스트를 실행하였으며, 개방 이후에도 지속적인 개선을 통해 서비스를 안정시켰다. 데이터 분류 체계를 정비하고 직관적인 사용자 인터페이스를 구성하여 데이터 검색의 편의성을 높였다.

그럼 AI 학습용 데이터는 어떻게 활용되고 있을까? 우선 그 동안 데이터가 없어 개발이 어려웠거나 상대적으로 상업성이 낮아 주목을 받지 못한 서비스 개발에 적극적으로 활용되고 있다.

전국의 방언 데이터는 지역 어르신의 돌봄 서비스 개발에 사용되고 있다. 우리나라의 도로와 자연환경이 담긴 이미지 데이터는 자율주행과 공간정보서비스 개발에 활용되고 있다. 한국인의 얼굴 표정과 감정이 담긴 데이터는 한국인에 맞는 감성 서비스 개발에 활용되고 있다. K-패션 이미지 데이터는 부쩍 상승한 한류 콘텐츠를 위한 AI 솔루션 개발에 활용되고 있다. 다른 나라에서는 구할 수 없는 한국 특화형 데이터들을 중점적으로 구축하여 제공하는 것이 데이터 댐 사업의 주요 역할이기도 하다.

대규모 데이터 구축에는 어려움도 많다. 개인정보보호를 위해 비식별 처리된 이미지 데이터는 얼굴이 명확하게 인식되지 않아 정교한 서비스 개발에 한계를 나타내기도 했다. 데이터 공개와 개인정보보호의 균형은 계속 고민해야 할 이슈다.

생명윤리법의 규율을 받는 의료데이터는 일반에 공개가 어려워 안심존을 별도로 구축해야 했다. 의료 데이터는 인터넷과 단절된 폐쇄적인 환경에서 최고 사양의 GPU와 하드웨어로 분석할 수 있다. 또한 인공지능 학습용 데이터는 우리 AI 기술의 해외 진출까지도 고려해서 구축해야 한다. 국제 표준에 준하는 데이터 품질은 우리 AI 기술의 수출에도 이바지할 수 있다.

관련기사

AI 허브는 데이터의 활용도를 높이기 위해 또 한 번의 서비스 고도화를 준비하고 있다. 객체(object)별 검색 기능과 방문목적별 서비스 제공이 다음 목표이다. 자동차, 사람과 같은 객체 단위로 데이터를 검색하고 내려 받아 사용할 수 있으면 데이터의 수요도 더 커질 것이다. 또 사용 목적별로 웹에서 정보를 제공받을 수 있어 데이터 활용의 폭도 넓힐 수 있다.

AI 허브 고도화와 인공지능 학습용 데이터의 활용 확대가 대한민국의 미래를 좌우할 인공지능 산업의 퀀텀 점프를 이끌어 내리라 확신한다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.