로민(대표 강지홍)이 국가기록원의 2021년 국가기록관리·활용기술 연구개발 사업의 일환인 기록물 OCR 데이터셋 구축 및 한글 필기체 인식 성능 개선 연구 과제 수행을 통해, 필기체 OCR의 인식 성능을 대폭 향상시켰다고 20일 밝혔다.
필기체 기록물의 문자인식(OCR) 기술은 다양한 필체 인식의 어려움과 딥러닝 학습에 활용 가능한 데이터셋의 부족으로 실제 업무에 적용하기에는 큰 한계가 있었다.
특히, 오래된 기록 문서는 노이즈가 많고 식별이 어려운 글자가 많아 인식 난이도가 높은데, 그에 비해 사업성 확보가 부족해 상용화된 솔루션이 없는 것도 필기체 기록물의 인식기술 도입에 큰 장벽이었다.
이번 연구에서 로민은 자체 개발한 인공지능(AI) OCR 모델에 국가기록원이 선별 제공한 기록물의 필기체 문서 이미지를 분석해 필기체 기록물 데이터셋을 구축하고, 필기체 OCR 알고리즘을 개발하여 필기체 기록물 특성에 최적화된 모델을 구현했다.
구현 결과, 로민의 필기체 OCR 모델은 노이즈가 많은 오래된 한글 필기체 기록물 샘플에 대해 필기체 검출 성능 98.38%, 필기체 인식 성능은 단어단위 89.82%, 음절단위 95.86%에 달해 목표치를 초과하는 압도적인 성능을 보였다. 특히 필기체 검출 성능은 당초 설정한 목표치 대비 10% 이상 높은 성능을 보였다. 이 성능 결과는 국가 공인 기관인 한국정보통신기술협회(TTA)의 소프트웨어시험인증연구소를 통해 시험 및 검증된 결과다.
로민의 필기체 OCR 모델의 문서 1장 당 인식속도는 평균0.77초로, 5천 장의 문서를 직접 사람이 타이핑하여 변환 시 약 541시간 소요되는 업무를 1.1시간만에 처리할 수 있게 된다. 2명의 작업자가 매일 5시간 업무 시, 약 2개월이 소요되는 업무를 단 한시간 만에 처리할 수 있게 되는 셈이다.
기업 및 공공기관은 성능이 향상된 필기체 OCR 솔루션을 통해, 보관중인 다양한 필기체 기록 문서의 전자화를 앞당겨 활용도를 높이고, 필기체로 작성된 업무 서식을 다량 보유한 은행, 카드, 보험사 등 금융기업의 업무의 효율성을 크게 높이는 것이 가능해진다.
로민은 지난 2020년 국가기록원의 한글 타자기록 문자인식 기술 개발에도 참여하여 국내 최초 타자체 문자인식 기술을 개발하고, 98.3%에 달하는 높은 인식 성능도 확보한 바 있다.
관련기사
- KB국민은행, 스타뱅킹서 '전자문서' 서비스 한다2021.12.16
- 서류 작성 즉시 클라우드로…'전자문서' 활용 더 편해진다2021.12.13
- 박미경 포시에스 대표, SW산업 발전 유공 ‘산업포장’ 수상2021.12.07
- 한국전자인증, 전자서명인증사업자 인정 획득2021.12.02
이로서 로민은 한글 타자체에 이어 한글 필기체의 OCR 기술까지 모두 확보해, 인쇄체를 포함한 오래된 공공기록물 전반을 전자문서화할 수 있게 됐다.
강지홍 로민 대표는 "로민의 인공지능(AI) 문자인식(OCR) 기술이 국민들의 비전자기록물 접근성 향상에 기여했다는 점에 큰 의미가 있다고 생각한다"며, "그간 확보된 압도적 인식 성능을 바탕으로 공공분야와 다양한 산업분야에서 인공지능(AI) 문자인식(OCR) 기술이 활발히 적용될 수 있도록 할 것"이라고 밝혔다.