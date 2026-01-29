엘리스그룹(대표 김재원)이 복잡한 형태의 문서를 AI가 스스로 분석하고, 체계적인 데이터로 바꿔주는 AI 문서 분석 솔루션 ‘헬피 도큐먼트 비전’을 29일 공개했다.

헬피 도큐먼트 비전은 문서 내 단락뿐 아니라 표, 차트, 수식, 이미지 등 다양한 시각적 요소를 자동으로 분석할 수 있다. 테이블 처리에 극대화한 VLM(Vision Language Model)인 ‘헬피 테이블 비전’을 중심으로, 글로벌 최고 수준 오픈소스 모델들을 결합해 높은 정확도와 처리량을 동시에 확보했다.

헬피 테이블 비전은 글로벌 VLM 벤치마크 ‘Nanonets’에서 업계 1위를 기록했으며 제조 대기업 등 산업 현장에서 활용될 만큼 복잡한 테이블 데이터 분석에 강점을 보인다. 도메인 맞춤형 최적화에 강점을 지녀 일반 모델이 인식하기 어려운 고문서나 근현대사 문서를 수백 건 수준의 데이터 학습만으로 정확히 분석할 수 있다. 또 수백 행에 달하는 긴 엑셀 문서 분석은 물론 차트·그래프의 데이터(HTML) 복원, 복잡한 수식 기호화 등 정밀한 구조화 데이터를 제공하는 기능도 갖췄다.

엘리스그룹 김재원 대표

기존 상용 솔루션과 성능을 비교한 결과, 문서 레이아웃 분석 및 데이터 추출에 기존 솔루션은 평균 33.6초가 소요된 반면, 헬피 도큐먼트 비전은 평균 9.8초를 기록하며 약 3.4배 빠른 처리 속도를 보였다. 읽기 순서 추출 정확성, 표∙수식 추출 성능, 실행 시간 등 전반적인 문서 이해 성능에서도 우수성을 확인했다.

이러한 성능은 엘리스그룹의 자체 GPU 프라이빗 환경인 ‘엘리스클라우드’를 기반으로 한 AI 풀스택 역량에서 비롯됐다. 인프라 구축부터 모델 개발, 서비스까지 전 과정을 자체 기술로 운영하며 빠른 최적화와 안정적인 성능을 구현했다.

헬피 도큐먼트 비전은 사내 데이터와 학습 인프라를 유기적으로 결합해 금융, 의료, 법률 등 도메인별 특수 문서에 맞춘 빠른 최적화가 가능하다. 이를 통해 기업 내 방대한 비정형 데이터를 고품질 디지털 데이터로 전환함으로써, 최근 기업들이 도입하고 있는 RAG 및 AI 에이전트 시스템의 성능을 높일 수 있다.

관련기사

엘리스그룹은 이번에 활용한 시각 언어 모델(VLM) 기술을 문서 인식에 그치지 않고, 상황 판단 및 행동 수행까지 가능한 ‘시각 언어 행동 모델(VLA)로 발전시킬 계획이다. VLA는 AI가 복잡한 매뉴얼이나 도면을 보고 실제 산업 현장에서 로봇이나 기계를 정교하게 제어하게 돕는 기술이다. 엘리스의 정밀한 데이터 추출 능력은 물리적 환경에서 AI가 움직이는 ‘피지컬 AI’의 핵심 역할을 하게 된다.

엘리스그룹 김수인 CRO는 “엘리스의 AI 문서 분석 솔루션을 통해 수작업으로 처리하던 복잡한 문서를 고품질 데이터로 전환함으로써 기업들이 실질적인 업무 자동화 혁신을 경험할 수 있도록 돕겠다”며 “단순히 문서를 읽는 VLM 기술을 넘어, 실질적인 행동으로 이어지는 VLA 기술로 고도화해 산업 현장의 문제를 직접 해결하는 피지컬 AI’ 시대를 선도하겠다”고 말했다.