한국정보화진흥원(NIA)은 한글 텍스트 분석의 핵심요소인 형태소 사전을 개발해 공개했다고 21일 밝혔다.
형태소는 의미를 가진 가장작은 말의 단위로, 한글 텍스트 분석을 통해 다양한 의미를 추출하기 위해서는 형태소별 품사를 구분해 작성한 형태소 사전이 반드시 필요하다. 기존 오픈소스 기반 한글 자연어 분석 패키지(KoNLP)의 세종사전이 있지만, 단어수와 신조어가 부족하여 새로운 형태소 사전 제작에 대한 요구가 끊이지 않았다.
이번에 공개된 NIA 형태소 사전(NIADic)은 국립국어원의 우리말 샘 사전을 바탕으로 제작됐다. 기존 세종사전의 9만 단어 외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가해 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.
NIA는 형태소사전을 빅데이터센터를 통해 공개하고, 중소기업, 연구자, 일반인 등이 쉽게 활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지 KoNLP의 기초사전으로 제공한다.
이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높일 뿐 아니라 형태소 사전 중복개발의 비용절감과, 신규 서비스 개발 주기도 단축할 수 있을 것으로 기대된다.
관련기사
- 北 국영통신 11만개 기사 제목 분석해보니2017.02.21
- 데이터 세계의 황금 트라이앵글2017.02.21
- 김성태 의원 “빅데이터 특례법 제정 추진”2017.02.21
- 빅데이터법 공청회 무산…“최순실 탓”2017.02.21
향후 NIA형태소 사전은 오픈소스로 개방될 예정이다. 저작자와 출처 등을 표시하면 영리목적의 이용이나 변경, 2차적 저작물 작성을 포함하여 상업적 활용이 가능하기 때문에 향후 한글 빅데이터 분석 분야의 연구가 보다 활발해 질 것으로 기대된다.
빅데이터센터 권영일 센터장은 “형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것”이라고 말했다.