AI학습용 데이터 올해 6천만건 구축...과제당 약 20억 지원

과기정통부, 지정 과제 10개와 자유 과제 10개 4월말까지 선정

컴퓨팅입력 :2020/03/19 14:58    수정: 2020/03/19 16:49

과학기술정보통신부(과기정통부)는 양질의 AI 데이터를 대규모로 구축 및 개방하는 'AI 학습용 데이터 사업' 공모를 오는 20일부터 시작한다고 밝혔다. 총 20개 과제를 뽑고 과제당 20억 원 안을 준다. 4월말까지 선정하고 5월에 협약을 체결, 연말까지 AI 학습용 데이터 셋을 구축해야 한다.

이 사업은 이미 지난 3년간 21종 4650만 건의 AI 학습 데이터를 구축, 개방했다. 65개 기업 1818명이 참여했다. 2017년 4종(750만 건), 2018년 7종(1100만 건), 2019년 10종(2800만 건)이 각각 구축 됐다. 이를 통해 4400여 개발자가 1만7077회를 활용, AI 서비스 및 제품 개발에 도움을 받았다고 과기정통부는 설명했다.

올해는 작년보다 예산 및 과제가 2배 늘었다. 20개 과제(10개 지정 공모, 10개 자유 공모)에 390억 원 (2019년 195억 원)을 투입한다. 구축 건 수는 약 6천만건이다. 말뭉치의 경우 "안녕하십니까"까 한 건이다. 이런 AI데이터 6천만 건을 구축한다.

과제 종류는 두 가지다. 해외 및 전문가 수요조사와 데이터 가치평가 등을 통해 기술 및 산업적으로 활용 가치가 높은 AI 학습용 데이터 10종을 지정 공모한다. 또 감염병 등 사회 문제에 적시 대응하고 데이터 3법 개정 후 가명정보 활용과 관련한 시장 수요를 반영하는 한편, 의료와 금융분야 등 주요 정부정책과 연계하기 위한 10종은 자유 공모로 추진한다.

특히 올해 주관기관을 데이터기업에서 AI전문기업으로 변경했다. 실 수요 기반 데이터를 구축, 혁신 AI서비스 및 제품을 빠른 시간에 생산, 상용화하기 위해서다.

또 올해부터 크라우드소싱 방식을 도입하는 기업과 사회적 약자를 지원하는 기업을 우대하고, AI 허브(AI 개발 필수 인프라(데이터, API, 컴퓨팅 자원 등)를 지원하는 통합 플랫폼)에 개방한다.

크라우드소싱 방식은 청년, 취업준비자, 경력단절여성 등에게 일자리 제공이 가능하고 데이터 가공 전문 인력 양성에도 기여할 것으로 과기정통부는 기대했다.

지원 규모는 사업당 20억 원 이내다. 민간(컨소시엄)도 사업비의 25%를 매칭해야 한다. 지원대상은 AI응용개발기업, AI데이터 수집 및 가공기업 등이 컨소시엄을 이뤄야 한다. 지원분야는 총 20곳으로, 지정 공모가 10개 자유 공모가 10개다.

지정 공모 주제는 ①한국어대화 및 음성 ②전문 도메인 한영말뭉치 ③랜드마크 이미지 ④시각 자료 기반 QA ⑤대용량 동영상 콘텐츠 ⑥문서요약 텍스트 ⑦드론주행 영상 ⑧딥 페이크(Deep Fake) 추적영상 ⑨수어(手語) 데이터 ⑩3D인체자세 및 형태 등이다.

관련기사

공모 관련 자료는 국정보화진흥원 홈페이지의 입찰 공고란에 공지된다.

양기성 과기정통부 빅데이터진흥과장은 "국내 특성에 맞는 인공지능 학습용 데이터 구축을 확대, 다양한 인공지능 기술개발을 가속화하겠다"면서 "AI 산업 생태계 조성과 글로벌 경쟁력 강화를 위해 지속적인 정책 지원을 해 나가겠다"고 밝혔다.