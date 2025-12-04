인터엑스가 제조, 공공, 연구기관을 겨냥한 비정형 문서 처리 시장 공략에 나섰다.

인터엑스는 제조, 공공, 연구기관을 위한 문서 구조화 전처리 서비스 '도큐먼트.AI API'를 공식 출시했다고 4일 밝혔다.

이 서비스는 수식, 중첩 표, 차트 등이 혼재된 복잡한 기술 문서를 정밀하게 분석해 구조화하는 것이 핵심이다. 대규모 언어모델(LLM), 검색증강생성(RAG) 기반 챗봇과 문서 검색, 사내 포털 구축 등에 필요한 전처리 기능을 API 형태로 제공해 기존 시스템에 쉽게 연동할 수 있도록 했다.

(이미지=인터엑스)

도큐먼트.AI API는 문서 내 텍스트는 물론 표와 수식, 차트, 캡션, 섹션 구조를 최대한 그대로 보존한 상태로 JSON, HTML, 마크다운 등 다양한 포맷으로 변환할 수 있는 것이 특징이다. 특히 여러 페이지에 걸쳐 찢겨 있는 멀티 페이지 표를 의미적으로 하나의 표로 자동 병합하는 기능을 탑재했다.

인터엑스는 이를 통해 기술 보고서와 품질 문서 등에서 엔지니어가 다시 손으로 재작업하지 않아도 될 수준의 정밀도를 확보했다고 강조했다.

회사 측은 디지털 전환 과정에서 가장 큰 병목으로 비정형 문서 전처리 구간을 지목했다. 전 세계 기업 데이터 상당 부분이 PDF, 한글(HWP), 스캔 이미지, 보고서, 계약서 등 형식과 구조가 제각각인 문서 형태로 쌓여 있지만 이를 시스템이 이해할 수 있는 구조화 데이터로 바꾸는 데 막대한 시간과 인력이 들어간다는 설명이다.

인터엑스는 이 구간을 '문서 구조화 전처리'로 정의하고, 단순 텍스트 추출을 넘어 표, 수식, 차트, 캡션, 섹션 구조까지 유지하는 SaaS 기반 API로 외부에 개방했다.

도큐먼트.AI API는 특히 제조, 엔지니어링 문서에 초점을 맞췄다. 설비 점검표와 품질, 시험 성적서, 공정 보고서처럼 표 안에 수식과 단위, 경계값이 복잡하게 섞여 있는 문서나 연구개발(R&D) 보고서와 특허 문서, 기술 논문처럼 한 페이지에 수식과 표, 차트가 뒤섞인 문서를 대상으로 정밀한 구조 분석을 수행한다.

인터엑스는 "대량 문서를 대충 빨리 처리하는 서비스가 아니라, 엔지니어와 연구자가 다시 손보지 않아도 되는 수준의 파싱 품질에 초점을 맞췄다"고 설명했다.

타깃 고객은 제조, 공공, 연구기관을 상대로 LLM, RAG 기반 챗봇과 문서 검색, 사내 지식 포털 등을 구축하는 SI 기업과 AI 스타트업, 대기업과 기관의 디지털 전환(DX), 데이터, 개발 조직이다.

이들은 프로젝트마다 전용 문서 파싱 엔진을 다시 만들 필요 없이, 제조와 공공 문서에 특화된 전처리 엔진을 API로 호출해 사용할 수 있다. 한글 공문과 연구, 정책 보고서처럼 한글, 표, 차트가 복잡하게 섞인 문서를 대량으로 다루는 공공, 연구기관도 주요 고객군으로 꼽힌다.

인터엑스는 이번 서비스를 '문서 때문에 막힌 프로젝트를 다시 움직이게 만드는 문서 구조화 전처리 SaaS'로 정의했다.

인터엑스 측은 "디지털 전환 경쟁력이 얼마나 많은 문서를 제대로 읽고 구조화할 수 있는지에서 시작된다"며 "제조와 공공, 연구 현장에서 축적한 문서 이해 기술을 API로 개방해 복잡한 문서를 다루는 엔지니어와 연구자, 공무원이 가장 먼저 변화를 체감할 수 있는 서비스를 지향한다"고 밝혔다.