한글과컴퓨터가 PDF 데이터 추출 기술을 글로벌 인공지능(AI) 프레임워크에 통합하며 전 세계 개발자들의 데이터 활용 지원에 앞장선다.

한컴은 '오픈데이터로더 PDF'가 '랭체인'의 도큐먼트 로더 PDF 파트 공식 구성요소로 등록됐다고 3일 밝혔다.

랭체인은 챗GPT와 같은 대규모언어모델(LLM)을 기반으로 다양한 AI 애플리케이션을 구축하는 데 가장 널리 사용되는 오픈소스 프레임워크다. 전 세계 수십만 명의 AI 개발자가 활용하는 사실상의 표준 개발 도구로 자리 잡았다.

오픈데이터로더 PDF 랭체인 등록 페이지 (사진=한컴)

이번 등록은 한컴이 지난 9월 깃허브에 오픈데이터로더 PDF 코드를 공개한 데 이은 성과로, 해당 기술이 글로벌 AI 개발 생태계의 핵심 구성요소로 공식 인증받았다.

랭체인과의 통합은 단순히 코드를 공개하는 것을 넘어 해당 기술의 안정성과 성능, 나아가 AI 개발 환경에서의 적합성을 검증받았음을 뜻한다.

오픈데이터로더 PDF는 AI 학습·활용 과정에서 고질적인 병목 현상을 유발했던 PDF 문서 내 텍스트·표·이미지 등의 데이터를 정확하고 빠르게 추출해 AI가 즉시 활용 가능한 형태로 변환하는 기술이다.

한컴은 이번 랭체인 공식 등록을 통해 PDF 데이터 처리 문제로 어려움을 겪는 전 세계 AI 개발자들에게 오픈데이터로더 PDF를 PDF 데이터 분야에서 가장 신뢰할 수 있는 솔루션으로 직접 제공할 수 있게 됐다.

특히 이같은 성과는 오픈데이터로더 PDF의 기술적 우위를 제시하는 차별화 포인트가 될 전망이다. 한컴은 자사 문서 기술력이 국내를 넘어 글로벌 AI 표준 프레임워크에 기여하고 있음을 입증하며 기술 리더십 입지를 강화한다는 목표다.

한컴 정지환 최고기술책임자(CTO)는 "랭체인 공식 등록은 우리의 문서 처리 기술력이 글로벌 AI 개발 생태계의 표준으로 인정받은 중요한 성과"라며 "코드 공개에서 더 나아가, 전 세계 개발자들이 가장 활발하게 사용하는 글로벌 AI 프레임워크에 직접 통합됨으로써 AI 시대 데이터 활용의 어려움을 해결하는 데 실질적으로 기여하게 돼 기쁘다"고 말했다.

이어 "앞으로도 랭체인 커뮤니티와의 긴밀한 협력을 통해 기술을 지속적으로 고도화하고 AI 생태계 발전에 기여하는 노력을 이어갈 것"이라고 덧붙였다.