국가기록원, 스캔 보관된 과거 정부 문서 'OCR'로 검색한다

국가기록원이 딥러닝 기반으로 약 22만 개의 한글 타자체 단어를 학습시켜 타자기록을 인식할 수 있는 인공지능(AI) 문자인식(OCR) 기술 개발에 성공했다고 22일 밝혔다.

이 기술은 국가기록원이 올해 연구개발 사업의 일환으로 AI 스타트업 기업과 협업해 수행한 소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구 과제를 통해 개발됐다.

이로써 1960년대부터 1990년대까지 정부에서 주로 사용되었던 타자기록을 쉽고 간편하게 검색하고 활용할 수 있게 된다.

국가기록원이 1960~1990년대 정부 문서 중 일부를 AI OCR 기술로 학습시켜 스캔된 문서 내 내용을 검색할 수 있는 기반을 마련했다.

그동안 국가기록원은 문서를 이미지로 스캔한 파일을 제공, 이미지 내 문서내용을 검색하는 데는 어려움이 있었다. 국가기록원은 약 40년간 생산한 타자기록을 11만권 이상 보유했다.

특히 기존 문자인식 기술은 활자체에 최적화 돼있어, 사람이 손으로 쓰거나 타자를 이용해 작성된 문서의 경우에는 효과가 크지 않았다. 타자기록은 1950년대에 최초로 세벌식 타자기가 양산되면서 정부의 공문서 작성에 쓰이기 시작했으며, 1969년에 네벌식, 1982년에 두벌식 자판이 사용되는 등 글꼴이 매우 다양하고 시각적으로 활자체와 차이가 있어 기존의 기술로는 인식성능이 떨어진다.

이번 기술 개발에 사용된 학습데이터는 1960～1990년대까지 재무부, 외무부, 건설교통부 등에서 생산한 도시계획, 경제계획 문서와 국무회의, 경제장관회의 등의 회의록 및 각종 법령 등이다. 1967년 행자부 대통령지시사항, 1978년 건설부 경제개발5개년계획, 서울도시계획 등 정책문서와 1970년 외무부 분단군가 UN 동시가입 문제 외교문서 등이 포함됐다. 타자기록은 총 1천970장 22만 단어에 달한다.

올해는 1단계로 공공기관에서 컴퓨터가 보급되기 이전에 주로 사용해 왔던 타자기록에 대해 문자인식 연구를 추진했다. 그 결과, 기존의 문자인식 기술과는 달리 문자탐지와 문자인식의 2단계로 구성된 딥러닝 기반의 인공지능 문자인식 모델을 개발해 학습 속도를 개선하고 인식성능을 90% 이상 획기적으로 높였다.