NIA, AI 학습용 데이터 250만개 공개

"한국사람의 말과 감성을 이해하는 똑똑한 인공지능(AI) 시대를 앞당깁니다."

한국정보화진흥원(원장 문용식, NIA)은 한국어 음성 및 대화와 관련한 250만 개 인공지능(AI) 학습용 데이터를 공개한다고 14일 밝혔다. 인공지능기술 활용 분야를 넓히고, 관련 AI 서비스 상용화를 촉진하는 계기가 될 것으로 NIA는 전망했다.

이번에 공개한 데이터는 한국 사람의 감정에 대한 영상 정보와 한국어의 자연스러운 발성 정보를 담고있다.

크게 4 종류로 ①감정, 상황, 대화내용을 담고 있는 복합 영상 데이터 ②자연스러운 한국어 대화 음성 데이터 ③한국어 챗봇용 대화 및 시나리오 데이터 ④한국어 기계독해 데이터 등이다.

NIA가 운영하는 AI허브(www.aihub.or.kr)에서 간단한 회원가입을 하면 누구나 내려 받아 사용할 수 있다.

AI 경쟁력은 데이터 확보에 달렸있지만 대다수 중소,벤처, 스타트업은 많은 비용과 시간이 드는 데이터 구축에 어려움을 겪고 있다. 이를 지원하기 위해 NIA는 '인공지능 데이터 구축 및 공개 사업’을 시행, AI 시장에 진입하려는 신생기업 등에게 도움을 주고 있다.

이 사업 일환으로 NIA는 2017년부터 법률, 특허, 일반상식, 한국형 이미지 등 4종의 데이터셋 구축을 시작했고, 올 1월에는 관광, 농업, 헬스케어 등 7종을 개방했다. 이어 6월에 한국어 음성 등 4종을 추가로 개방한 것이다.

올해말에는 한-영 번역 말뭉치와 한국형 사물이미지, 한글 글자체 이미지, 이상 행동 영상 등 10종 2500여만 건 데이터셋을 추가로 공개한다.

NIA는 국가 R&D 과제인 '지능정보 플래그십 사업' 등을 통해 만들어진 AI 학습용 데이터 다수도 다음달 AI허브에 공개할 예정이다.

관련기사

'지능정보 플래그십 사업'은 음성, 언어, 영상 등 다양한 정보를 복합적으로 학습해 사람과 상호 작용하는 대화형 에이전트 기술 및 서비스를 개발하는 AI분야 연구개발(R&D) 사업이다.

NIA 문용식 원장은 “인공지능 제품과 서비스가 활발히 개발되고 출시될 수 있도록 수요에 맞는 데이터셋을 대량 구축 및 공개, 국내 인공지능 산업과 시장 경쟁력을 강화하는데 역량을 집중하겠다”고 밝혔다.