"정확도 올렸다"…업스테이지, 새 OCR 모델 '도큐먼트 파스' 공개

문서 구조 분석 정확성 평가 AWS·MS 솔루션보다 5% 이상 높게 받아

컴퓨팅입력 :2024/10/17 10:21

업스테이지가 기업 문서를 분석해 거대언어모델(LLM)로 처리 가능한 새 솔루션을 공개했다. 

업스테이지는 차세대 광학문자인식(OCR) '도큐먼트 파스(document Parse)'를 출시했다고 17일 밝혔다. 

도큐먼트 파스는 기존 OCR 기술에서 명확한 인식이 어렵던 레이아웃이나 테이블 등을 포함한 복잡한 형태 문서에서도 각 구조와 텍스트 정보를 분석해 데이터 자산화를 돕는다. 어떤 형식의 문서도 구조화된 텍스트 형식으로 전환할 수 있다. 기업이나 기관에서 실제 LLM 활용 시 바로 적용할 수 있다. 

업스테이지는 차세대 광학문자인식(OCR) '도큐먼트 파스(document Parse)'를 출시했다. (사진=업스테이지)

업스테이지는 도큐먼트 파스를 통해 검색증강생성(RAG) 시스템 성능과 LLM 응답 정확도를 결정하는 핵심 요소인 데이터 전처리 과정에서의 정확성뿐만 아니라 속도와 사용성 측면에서도 현재 가장 진보한 형태의 문서 처리 기술을 선보이게 됐다고 설명했다.

업스테이지는 관련 기술 성능 측정에 통용될 수 있는 객관적 기준 마련을 위해 문서 구조 분석 벤치마크인 DP-벤치도 공개했다.

결과에 따르면  도큐먼트 파스는 레이아웃을 비롯한 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트를 포함한 빅테크 5개사 서비스와 비교해 5% 이상 높은 점수를 받았다. 또 1분에 100장을 처리할 수 있는 속도로 같은 기준을 적용한 AWS 텍스트랙보다 10배, 라마파스보다 5배 빨랐다.

관련기사

도큐먼트 파스는 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종의 문서 처리뿐만 아니라 수식 인식 및 이미지 추출도 가능하다. HTML 외에도 헤더 및 테이블 요소를 마크다운 형식으로 제공해 LLM 사용자가 입력 문서의 토큰 크기를 줄일 수 있다.

김성훈 업스테이지 대표는 "토큐먼트 파스는 각 기업이 가진 기존 문서를 가장 정확하게 자산화해 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구"라며 "다양한 비즈니스에서 업무 혁신을 현실화할 것"이라고 밝혔다.