[기고] "인공지능, 결국은 데이터다"

선진국 AI 따라잡기 위해 데이터 공유 이뤄져야

전문가 칼럼입력 :2019/11/20 09:35

김남현 엘젠ICT 대표컨설턴트

글로벌 IT 자문사 '가트너'는 2019년 인공지능(AI) 사용을 통해 발생하는 기업 이익이 1조9천억달러(약 2천160조5천억원)에 이를 것으로 전망했다.

실제로 AI 기술은 이미 스마트 스피커, 스마트홈 등 실생활은 물론이고, 자동차에서부터 운송 및 통신에 이르기까지 다양한 산업 및 지역에 걸쳐 적용돼 다양한 비즈니스에서 사용되고 있다.

이런 수준높은 인공지능 서비스를 구현하기 위해서는 우수한 인공지능 알고리즘은 물론이고 대량의 학습데이터가 필수적이다. 현재 정부 기관에서 제공하는 데이터와 민간에서 보유중인 데이터는 이런 조건을 만족시키기에는 아직 많이 부족한 것이 사실이다. 기존의 학습데이터 수집 방식은 작업 시간과 비용이 많이 필요하기 때문에, 한정된 예산과 물리적으로 한정된 시간안에서 학습데이터를 충분히 확보하기가 어렵기 때문이다.

엘젠ICT 김남현 대표.(사진=엘젠ICT)

AI를 위한 학습 데이터 확보를 위해 클라우드 방식을 통해 비용과 작업시간을 절감할 수 있는 AI 학습데이터 수집 가공 서비스를 활용하는 것이 하나의 방법일 수 있다. 또 각 기관에서 다년간 데이터 전문가들에 의해 확보한 데이터를 각 기관의 합리적인 방식의 협업과 데이터교환을 통해 빠른 시간에 고품질의 학습데이터를 생산해 서로 공유하는 방안 등도 고려될 수 있다.

예를 들어, 딥러닝 기반 한글 자연어 처리를 위한 알고리즘 구현을 위해서는 한글 말뭉치가 엄청 많이 필요하다. 영어는 2천억개 이상, 일본어 200억개 이상 확보된 말뭉치 데이터베이스(DB)로 이제 자연어 처리기반의 의미분석과 해석에 대해 월등한 인식율을 보이고 있다.

그러나 컴퓨터 기준으로 영어보다 훨씬 학습하기 어려운 한글은 이들에 비해 말뭉치가 현저하게 적은 상태다. 이를 극복하기 위해서는 한글말뭉치를 보유한 기관, 업체들이 서로 협업하여 말뭉치DB를 공유해야 학습속도와 정확도를 단기간에 끌어올릴 수가 있어야 AI 선진국들의 서비스를 따라잡을 수가 있다.

각 기관들은 이런 방법을 통해 확보한 데이터들을 전처리 자동화 시스템(Data preprocessing)을 통해 개발자가 사용하기 쉬운 도구를 제공해 데이터 작업자들이 단시간에 기존 대비 많은 학습데이터를 생산할 수 있게 하고, 자동화된 검수 시스템을 통해 데이터 작업 결과물에 대한 품질을 높여야 한다. 나아가 검수 전문가를 통해 검증된 객관적이고 클린한 데이터만 AI학습에 활용되도록 해야한다.

관련기사

물론 기관 내 철저한 보안 프로세스로 고객 정보 등의 정보보호를 최우선으로 해야 하며, 학습 데이터가 외부로 유출되지 않도록 인공지능 프로젝트 완료 후에는 완전히 폐기하는 절차를 따르도록 가이드해야한다. 이제 데이터는 AI의 근본이며 반드시 공유돼야 한다.

※김남현 엘젠ICT 대표컨설턴트는 엘젠ICT 대표다. 엘젠ICT는 인공지능 및 공공전문가를 중심으로 2014년 설립된 회사로 인공지능 솔루션, 빅데이터 분석, 시스템 통합 등의 사업을 진행하고 있다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.