솔트룩스, 국립국어원과 일상대화 말뭉치 구축사업 착수

2천명 대화 수집해 AI 활용 데이터로 변환

컴퓨팅입력 :2020/05/19 13:58

인공지능(AI) 전문 기업 솔트룩스는 국립국어원과 우리나라 지역 방언까지 알아들을 수 있는 AI 개발을 위해 '일상대화 말뭉치 구축사업'에 착수한다고 19일 밝혔다.

솔트룩스는 이달부터 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 ‘일상대화 말뭉치 구축’ 사업을 시작했다. 이를 통해 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다.

해당 사업은 작년부터 진행한 국가 말뭉치 구축사업의 일환으로 ▲구어 ▲일상 대화 ▲메신저 대화 ▲웹 ▲문어 등으로 나눈 사업 분야 중 일상 대화에 속한다. 이번 사업에서 말뭉치란 약 500시간의 대화를 지칭한다.

솔트룩스 로고

솔트룩스는 약 2천명의 대화를 수집한다. 초기 단계에는 대화형 AI 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 인공지능이란 사람과 유사한 수준의 대화가 가능한 AI를 뜻하며, 말뭉치 데이터가 주로 사용될 분야이다. 또한 대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮겨야 한다. 이 과정에서는 국내 속기 전문기업 ‘소리자바’와 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공되어 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다. 또한 솔트룩스에서 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다.

말뭉치 데이터는 학습 데이터로도 활용될 수 있다. 학습 데이터란 인공지능이 목적대로 작동하기 위해 학습하는 데이터로, 기계어 형식으로 돼 있다. 따라서 인공지능에게 사람의 말을 학습시키려면 기계어 형식의 학습 데이터를 만들어야 한다.

관련기사

국립국어원 측은 "말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것이다"고 밝혔다.

솔트룩스 이경일 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련되어 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”라고 말했다.