이파피루스 '파이뮤PDF 프로', 레이아웃 분석 성능 업그레이드

LLM·RAG 특화로 AI 학습·서비스 개발 효율 제고

컴퓨팅입력 :2025/11/26 18:17

이파피루스(대표 김정희)가 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'에 머신러닝 기반 레이아웃 분석 기능을 적용해 글로벌 경쟁 솔루션 대비 약 10배 빠른 속도와 높은 정확도를 선보인다. 

이파피루스는 문서 데이터 추출 라이브러리 '파이뮤PDF 프로' 성능을 업그레이드했다고 26일 밝혔다. 

이번 업데이트의 핵심은 머신러닝 기술을 활용한 문서 레이아웃 분석 기능 추가다. 이를 통해 AI 전처리 용도로 활용되는 문서 데이터 추출 작업 전반의 속도와 정확도를 동시에 높였다는 설명이다.

이파피루스, '파이뮤PDF 프로' 레이아웃 분석 성능 업그레이드(이미지=이파피루스)

현재 시중의 다수 문서 추출 솔루션은 문서를 고해상도 이미지로 변환한 뒤 비전 언어 모델(VLM) 방식으로 인식하는 구조를 갖고 있다. 이 방식은 연산량이 많아 처리 속도가 느리고, 고가 GPU 인프라를 필요로 한다는 한계가 있다. 

반면 최신 버전 '파이뮤PDF 프로'는 자체 개발한 머신러닝 기반 레이아웃 분석기를 적용해 문서 구조를 직접 파악한 뒤 데이터를 추출한다. 이파피루스는 이 방식이 VLM 기반 글로벌 유사 제품 대비 약 10배 빠른 속도를 구현하면서도 높은 정확도를 유지한다고 설명했다. 

특히 테두리가 없거나 병합 셀을 포함한 복잡한 표, 스캔 이미지와 디지털 데이터가 뒤섞인 문서에서도 독보적인 처리 품질을 보인다는 점을 강조했다. GPU 없이 CPU만으로 동작해 인프라 비용 부담이 적은 것도 강점으로 내세웠다.

'파이뮤PDF 프로'는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 2016년 첫 출시 이후 2025년 11월 현재 누적 다운로드 1억2천만 건을 돌파했다. 오라클, 보쉬, DHL, 도큐싸인, 슈나이더일렉트릭 등 글로벌 기업 고객을 확보하며 기술력을 인정받고 있다.

대규모 언어 모델(LLM)과 검색 증강 생성(RAG) 특화 기능도 강화됐다. '파이뮤PDF 프로'는 문서 내 페이지, 위치 등 메타데이터를 포함한 청크(말뭉치)를 생성할 수 있어 LLM·RAG 환경에서의 검색과 추론 효율을 높인다. 

관련기사

또한 추출한 문서 데이터를 라마인덱스(LlamaIndex)에서 바로 활용 가능한 리더(Reader) 파일 형태로 출력할 수 있어, 문서 기반 대화형 서비스나 검색형 AI 서비스를 개발하는 데 유리하다. 지원 포맷은 PDF, MS오피스, 한글 문서, 이미지 등 다양한 문서 유형을 포괄한다.

이파피루스 김정아 부사장은 "자체 테스트 결과에 따르면 '파이뮤PDF 프로'는 문서 읽기·쓰기와 텍스트 추출, 문서 렌더링 등 모든 작업에서 글로벌 유사 제품들보다 압도적으로 빠른 속도를 자랑한다"며 "AI 시스템 구축을 위한 필수 도구로서 LLM·RAG 서비스 구현이나 데이터베이스 구축에 드는 시간과 비용을 크게 줄여줄 것"이라고 말했다.