한컴 PDF AI 기술, 깃허브 트렌딩 1위…글로벌 개발자 주목

PDF 데이터 추출 정확도 전 항목 1위…AI 학습 병목 해결 기술로 부상

컴퓨팅입력 :2026/03/23 15:31

한글과컴퓨터(한컴)가 PDF 데이터 추출 오픈소스로 글로벌 개발자 커뮤니티에서 경쟁력을 입증했다. 인공지능(AI) 데이터 처리 핵심 기술을 앞세워 오픈소스 생태계 확장에 나선다는 목표다.

한컴은 PDF 데이터 추출 오픈소스 '오픈데이터로더 PDF v2.0'이 깃허브에서 전체 오픈소스 트렌딩 1위를 기록했다고 23일 밝혔다.

깃허브 트렌딩은 전 세계 개발자들이 주목하는 오픈소스를 실시간으로 집계하는 지표로, 해당 기술의 관심도와 신뢰도를 가늠하는 기준으로 활용된다. 오픈데이터로더 PDF v2.0은 출시 일주일 만에 트렌딩 1위에 오르며 글로벌 개발자 커뮤니티에서 높은 주목도를 확보했다.

한컴 오픈데이터로더 PDF가 깃허브 트렌딩 1위를 기록했다. (사진=한컴)

실제 반응도 빠르게 확산되고 있다. 프로젝트는 하루 최대 1800개 이상의 스타 증가를 기록했으며 누적 스타 수 7000개, 포크 수 500개를 돌파했다. 이는 일반적인 오픈소스 성장 속도를 크게 웃도는 수준으로, 글로벌 인기 프로젝트 반열에 진입했다는 평가다.

오픈데이터로더 PDF는 복잡한 PDF 문서를 텍스트·표·이미지 등으로 분해해 AI가 바로 활용할 수 있는 형태로 변환하는 기술이다. PDF는 AI 학습에 널리 활용되는 문서 포맷이지만 구조가 복잡해 데이터 추출 과정에서 병목이 발생하는 한계가 있었다.

v2.0은 AI 기반 분석과 직접 추출 방식을 결합한 하이브리드 엔진을 적용해 성능을 높였다. 별도의 외부 서버 전송 없이 로컬 환경에서 구동되며 광학문자인식(OCR), 표 추출, 수식 추출, 차트 분석 등 AI 기능을 기본 제공한다.

또 도클링 등 타사 오픈소스 AI 모델과의 호환성을 확보해 활용 범위를 넓혔다. 자체 벤치마크 테스트에서는 읽기 순서, 표, 제목 추출 등 주요 항목에서 동종 오픈소스 대비 최고 정확도를 기록하며 1위를 차지했다.

한컴은 글로벌 AI 생태계 연계도 확대하고 있다. 오픈데이터로더 PDF는 이미 랭체인 공식 구성요소로 등록됐으며 향후 랭플로우, 라마인덱스, 제미나이 CLI 등 주요 프레임워크와의 연동을 추진할 계획이다.

관련기사

특히 이번 버전에는 아파치 2.0 라이선스를 적용해 상업적 활용을 허용함으로써 기업과 개발자의 도입 장벽을 낮췄다. 이를 기반으로 개방형 PDF 데이터 플랫폼으로의 확장을 본격화한다는 구상이다.

김연수 한컴 대표는 "이번 성과는 우리 문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 직접적인 검증을 받은 결과로, 다양한 활용을 통한 기술 생태계 확장 가능성도 확인했다"며 "아파치 2.0 라이선스 전환을 통해 전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다"고 밝혔다.