알리바바, AI로 고서 인식...정확도 97.5%

기존 OCR 대비 정확도와 속도 향상

인터넷입력 :2021/05/25 09:24

알리바바가 인공지능(AI) 기술을 통해 세계 각지에 흩어진 중국의 고서(古書)를 디지털화하는 작업을 진행하고 있다. 

25일 중국 언론 환치우왕에 따르면 알리바바는 다모아카데미가 개발한 AI 기술을 통해 캘리포니아대학 버클리 분교가 소장한 중국어 고서를 디지털화했다. 이는 세계 각국의 중국어 고서를 디지털화하는 '한전중광(漢典重光)' 프로젝트의 일환이다. 

알리바바의 기술을 통해 이번에 첫 20만 페이지 분량 고서가 디지털화됐다. 

다모아카데미의 AI 기술이 20만 페이지의 고서를 인식한 정확도는 97.5% 인 것으로 나타났다.

이 프로젝트는 알리바바 공익기금회, 쓰촨대학, 미국 캘리포니아대학 버클리 분교, 중국국가도서관, 저장도서관이 공동으로 추진했으며 해외에 흩어져있는 중국의 고서를 디지털화해 공유할 수 있게 하는 게 목표다. 누구든 한전중광 플랫폼을 통해 고서를 찾아 읽을 수 있다.

중국 고서 인식 작업 (사진=환치우왕, 하오칸)

고서의 디지털화 시도는 예전부터 계속돼왔지만 난이도가 높고 원가가 많이 들었다.  문자의 종류가 많고, 글자체도 다양하며 손상되는 경우도 많아 인식률이 높지 않았고 통상 40%를 밑돌았다. 훈련할 데이터가 부족한데다 통상의 OCR은 사람 의존도가 높고 전문인력이 주석을 달아야해 대규모 작업에 적용하긴 어려웠다.

이에 알리바바가 쓰촨대학과 함께 2019년 '디지털화 회귀' 컨셉을 내놓고 세계 각국의 고서를 디지털화하는 프로젝트를 추진해 왔다.

통상 고서의 디지털화는 종이책을 먼저 디지털 스캔본으로 만들고, 디지털로 된 버전을 문자로 바꾼 이후, 이 문자를 연구 시스템이나 검색 혹은 자전(字典), 지식맵으로 만든다.

관련기사

다모아카데미는 이중 디지털로 된 버전의 문자화와 응용 영역에 집중해 AI로 스캔버전 고서의 대규모 인식이 가능하게 했다.

AI가 3만 종류의 고서 문자를 인식할 수 있으며 정확도가 높아 사람의 노동력 대비 30배의 효율을 낸 것으로 알려졌다.