오픈드래프트가 '아래한글(HWP)' 문서에서 데이터를 99% 추출할 수 있는 방법을 제시했다.
오픈드래프트는 원천 기술인 문서 편집기 특허 기술을 기반으로 개발한 데이터 추출 및 구조화 솔루션 '오픈닥스(OpenDocs)'를 공개했다고 20일 밝혔다.
그동안 공공기관 등에서 널리 쓰이는 아래한글 문서는 해외 인공지능(AI) 서비스가 지원하지 않아 AI 학습용 데이터를 추출하는 데 어려움이 있었다.
기존에 대안으로 사용되던 이미지 기반 광학 문자 인식(OCR) 방식은 처리 속도가 느리고 인프라 비용이 높을 뿐 아니라 표나 수식 등 복잡한 문서 구조에서 정확도가 현저히 떨어지는 한계가 있었다.
이번에 공개된 오픈닥스는 이러한 기술적, 비용적 문제를 근본적으로 해결했다. 별도의 복잡한 개발 과정 없이 파일 업로드와 간단한 설정만으로 AI 학습에 즉시 활용 가능한 구조화된 데이터셋을 구축할 수 있다.
오픈닥스의 강점은 정확도와 속도다. 구형 바이너리 형식부터 최신 HWPX까지 아래한글의 모든 버전을 지원하며, 표, 수식, 그래프 등 복잡한 요소가 포함된 문서에서도 최대 99% 수준의 데이터 추출 정확도를 자랑한다.
또 고성능 엔진을 탑재해 1천200페이지 분량의 대용량 문서도 40초 만에 처리할 수 있어 기존 방식 대비 비약적인 성능 향상을 이뤘다.
사용자 편의성도 놓치지 않았다. 원문 문서와 동일한 레이아웃을 웹 에디터 상에서 그대로 보여주며 추출 결과를 확인할 수 있어, 직관적인 검증과 레이블링 작업이 가능하다. 이는 데이터 전처리 과정인 정제, 검수, 교정 업무의 효율성을 크게 높여준다.
관련기사
이미 공공 분야에서는 그 성능을 인정받고 있다. 국가기술표준원의 KS 표준문서, 한국정보통신기술협회(TTA) 단체표준문서, 국민권익위원회 민원처리 프로젝트 등 대규모 공공 사업에 도입되어 복잡한 법령 문서와 기술 규격서 환경에서도 안정적인 데이터 추출 능력을 검증받았다.
오픈드래프트 한재섭 대표는 "인공지능의 품질을 좌우하는 것은 결국 양질의 데이터"라며 "오픈닥스를 통해 적은 비용과 최소한의 노력으로 고품질 데이터를 확보할 수 있도록 지원하여, 모든 기관과 기업의 AI 경쟁력 강화에 기여하겠다"고 포부를 밝혔다.











