[기고] AX 시대 데이터 감옥, '오픈소스'로 해방한다

한컴 정지환 최고기술책임자(CTO)

전문가 칼럼입력 :2025/11/03 15:28

정지환 한컴 최고기술책임자(CTO)

인공지능(AI) 패러다임의 중심축은 거대언어모델(LLM) 자체를 넘어 LLM에 신뢰할 수 있는 데이터를 안정적으로 공급하는 인프라 경쟁으로 이동했다. 오픈소스 AI 모델은 산업 수요에 맞게 미세조정이 가능하고 비용을 절감하며 민감 데이터의 내부 처리를 통해 보안성까지 확보할 수 있어 필수재가 됐다.

실제 AI 플랫폼 허깅페이스의 누적 AI 모델 수는 올해 10월 기준 215만 건을 돌파했으며 오픈로직 보고서에 따르면 글로벌 기업 96%가 오픈소스 활용을 유지하거나 확대할 계획이라고 밝혔다. 성공적인 AI 전환(AX) 구현의 핵심은 고품질 데이터지만, 실제 AI 개발 시간의 70%가 데이터 전처리 작업에 할애된다는 통계는 이 병목 현상을 증명한다.

한글과컴퓨터(한컴)는 첫 글로벌 오픈소스 프로젝트인 '오픈데이터로더 PDF'를 통해 AI 학습의 최대 난제인 '데이터 감옥' 문제를 해결하고 글로벌 AI 생태계에 기여하고자 한다.

한컴 정지환 CTO (사진=한컴)

PDF, AI 시대 가장 방대한 '데이터 감옥'

기업 데이터의 대부분을 차지하는 전자문서는 AX 시대에 AI가 활용할 수 있는 핵심 데이터 자원으로 변화했다. 이 중 PDF는 AI 학습을 위한 가장 방대하고 신뢰도 높은 원천이라는 전략적 가치를 지닌다.

올해 기준 전 세계적으로 약 2조5천억 개의 PDF 문서가 존재하며 글로벌 기업 98%가 배포 문서 표준으로 PDF를 채택하고 있다. 헬스케어, 정부 공식 문서 등 신뢰도 높은 기록의 대다수(약 78~90%)를 차지한다는 사실은 PDF가 AI 학습을 위한 가장 방대하고 신뢰도 높은 원천임을 증명한다.

최근 허깅페이스가 공개한 PDF 기반 '파인PDFs' 데이터셋 연구 결과는 LLM 학습 시 이 고품질 PDF 데이터셋을 25% 비중으로 혼합했을 때 모델 품질이 가장 뛰어났다고 밝혔다. PDF 문서가 잘 정제될 경우 AI 모델 성능을 결정짓는 핵심 요소임을 보여주는 결과다.

그러나 PDF는 태생적으로 복잡한 표, 다양한 레이아웃, 이미지 속 텍스트 등 비정형적 요소가 많아 데이터를 온전히 추출하기 어려운 데이터 감옥으로 불려왔다. 한컴이 오픈데이터로더 PDF를 오픈소스로 공개한 것은 이 기술적 난제를 독보적인 문서 처리 기술로 해결하고 글로벌 AI 생태계 발전에 기여하려는 의지다.

'오픈데이터로더 PDF'의 3대 기술 차별점

오픈데이터로더 PDF는 전 세계 개발자에게 합리적인 오픈소스 기반 PDF 데이터 추출 솔루션을 제공하기 위해 기존 서비스들과 차별화되는 세 가지 핵심 기술을 담았다.

첫째, 성능과 효율을 극대화한 하이브리드 엔진이다. 규칙 기반의 휴리스틱 방식과 AI 방식의 장점을 결합해 명확한 데이터는 빠른 속도의 휴리스틱 알고리즘으로 추출하고 복잡한 표나 이미지는 AI 기술로 품질을 극대화한다. 이는 고가의 그래픽처리장치(GPU) 장비 의존도를 최소화하면서 빠르고 정확한 데이터 추출을 가능케 한다.

둘째, 태그드 PDF 지원이다. 태그드 PDF는 제목·표 등 각 요소에 의미 태그가 포함된 포맷이다. 이 구조적 정보를 활용하면 AI 인식 기술 의존 없이 GPU 사용을 최소화하며 높은 속도와 정확도를 동시에 달성할 수 있다. 대부분의 오픈소스 도구가 이를 지원하지 못하는 상황에서 오픈데이터로더 PDF는 차별화된 성능을 제공한다.

셋째, 데이터 주권과 신뢰성을 보장하는 AI 안전성 지원이다. 네트워크 연결 없이 내부망에서 오프라인으로 구동돼 데이터 유출을 원천 차단한다. 나아가 학습 데이터에 악의적인 프롬프트를 주입하는 '프롬프트 인젝션' 등 AI 보안 위협을 필터링하는 AI 안전성 기능까지 제공해 신뢰할 수 있는 AI를 만드는 시작점을 지원한다.

글로벌 AI 생태계의 표준으로

오픈데이터로더 PDF는 기술적 우위를 넘어 글로벌 AI 생태계의 핵심 인프라로 자리매김하기 위한 로드맵을 실행하고 있다.

가장 큰 성과는 최근 LLM 기반 애플리케이션 구축에 가장 널리 쓰이는 오픈소스 프레임워크인 '랭체인'의 공식 구성 요소로 등록된 것이다. 이는 전 세계 수십만 AI 개발자가 활용하는 표준 프레임워크에 공식 편입됐음을 의미한다.

앞으로 랭체인에 이어 라마인덱스, 제미나이-cli 등 주요 AI 프레임워크와의 호환성을 지속 강화하고 글로벌 커뮤니티와 협력해 AI 데이터 추출 표준 도구로 자리 잡고자 한다.

데이터 감옥을 넘어 신뢰할 수 있는 AX 시대로

AI 시대로의 전환은 데이터 변환의 혁신 없이는 불가능하다. AI 개발 시간의 약 70%가 소요되는 데이터 전처리 병목 현상을 해결하는 기술이야말로 AX 시대 기술 경쟁력의 핵심이다.

관련기사

한컴이 오픈데이터로더 PDF 프로젝트를 글로벌 오픈소스로 공개한 것은 전 세계 모든 기업과 개발자가 이러한 데이터 감옥의 장벽 없이 AX를 실현하도록 지원하겠다는 비전의 실천이다.

한컴은 앞으로도 AI 데이터 기술을 선도하고 핵심 기술의 오픈소스화를 통해 성공적인 AX 생태계 확장에 기여하며 고객이 가장 신뢰할 수 있는 AX 파트너로 자리매김하고자 한다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.