HWP가 AI 혁신의 적? '진짜 범인'은 낡은 문서 문화와 관성

인공지능(AI) 시대를 맞아 공공 데이터 개방의 최대 걸림돌로 '아래아한글(HWP)'이 지목되며 거센 비판을 받고 있다.

독자적인 바이너리(Binary) 포맷 탓에 AI가 읽을 수 없어 데이터 활용을 가로막는다는 주장이 핵심이다.

하지만 현장의 전문가과 산업계의 시각은 다르다. AI 도입을 방해하는 진짜 주범은 파일 확장자가 아니라 기형적인 '문서 작성 문화'와 변화를 거부하는 '조직의 관성'이라는 지적이다.

29일 관련 업계에 따르면 주요 AI 기업은 이미 다양한 비정형 데이터를 활용하기 위한 서비스를 선보이며 AI 혁신을 지원하고 있다.

AI 도입을 막는 핵심 원인으로 AI에 적합하지 않은 문서 작성 법이 지목되고 있다(이미지=오픈AI)

기업이 아닌 시대의 유물 '바이너리'

최근 공공·산업 분야에서는 HWP는 바이너리 구조라 AI가 읽을 수 없다'는 인식이 널리 퍼져 있다. 실제로 HWP 파일을 메모장으로 열면 글자가 깨지고 XML 기반 문서처럼 구조가 제대로 시각화되지 않아 분석이 어렵다는 비판이다.

이에 앞서 먼저 논란의 핵심인 파일 구조를 이해할 필요가 있다. 컴퓨터 파일은 크게 '텍스트(Text) 파일'과 '바이너리(Binary) 파일'로 나뉜다.

텍스트 파일은 이름 그대로 문자와 숫자로만 구성된 양식이다. 데이터가 표준 문자 코드(유니코드 등)로 저장되기 때문에 별도의 전용 프로그램 없이 메모장만 있어도 내용을 확인하고 수정할 수 있으며 호환성이 뛰어나다. XML이 대표적인 텍스트파일 양식이다.

반면 바이너리 파일은 이미지, 영상, 실행 프로그램처럼 복잡한 데이터를 저장하기 위한 방식이다. 방대한 정보를 효율적으로 담기 위해 단순 문자 코드가 아닌 별도의 규칙으로 데이터를 저장하며, 이를 해석하기 위해서는 한글이나 워드 같은 전용 애플리케이션이 반드시 필요하다.

2000년대 초반까지의 구형 문서 파일들이 주로 이 바이너리 구조를 채택했던 이유는 '효율성' 때문이다. 당시의 하드웨어 성능과 저장 공간의 한계로 인해, 글자뿐만 아니라 폰트, 레이아웃, 표 등 복잡한 서식 정보를 적은 용량에 담아내기 위해서는 텍스트 방식보다 압축적인 바이너리 방식이 훨씬 유리했기 때문이다.

이로 인해 전용 도구 없이는 내용을 읽을 수 없는 바이너리 파일은 AI 입장에서 활용이 까다로울 수밖에 없다.

마이크로소프트 역시 워드 2007 버전부터 XML 기반 DOCX를 채택한 만큼 바이너리 기반 DOC 파일로 저장된 이전 문서는 파일 전환에 대한 어려움이 동일하다.

결국 핵심은 특정 포맷 문제가 아닌 과거 기술로 만들어진 레거시 데이터를 어떻게 처리할 지의 문제다. 이는 국가를 가리지 않고 산업 전반에 걸쳐 동일하게 처한 문제다.

핸디소프트 이해석 대표는 "HWP, DOC 가릴 것 없이 과거 문서는 대부분 AI가 읽기 힘든 바이너리 구조라는 공통된 한계를 갖고 있다"며 "특정 양식이나 서비스를 비판하기 보다 방대한 데이터를 AI 자산으로 가공하기 위한 방안을 마련하는 것에 집중해야 한다"고 강조했다.

정부가 90년대부터 워드를 썼다면? 크게 다르지 않았을 것

일각에서는 "정부가 처음부터 글로벌 표준인 MS 워드를 썼더라면 지금 같은 문제는 없었을 것"이라고 주장한다. 하지만 이는 거대 조직의 생리와 기술 발전 과정을 간과한 분석이라는 평가다.

정부 부처처럼 방대한 인력과 수많은 부서가 연계된 조직은 새로운 시스템으로의 완전한 전환은 매우 어렵다.

보안 지원이 종료됐음에도 많은 부처에서 윈도우10을 사용 중인 것으로 알려졌다(이미지=마이크로소프트)

실제로 마이크로소프트가 보안 지원이 종료된 구형 윈도우의 교체를 수없이 권고했지만 공공기관은 호환성과 예산 문제로 인해 지원 종료 후에도 종합상황실을 운영하며 버티는 현상을 반복해 왔다.

HWP 대신 워드를 도입했더라도 이러한 시스템 관성은 동일하게 작동했을 가능성이 크다.

한글과컴퓨터 역시 이미 20년 전인 2007년에 개방형 포맷인 HWPX를 선보였고 2010년에는 HWP 5.0의 내부 설계도를 문서화해 공개했다. 기술적으로는 이미 십수 년 전부터 AI 학습에 용이한 '텍스트 기반 구조'를 갖춰두었던 셈이다.

그러나 당시 정부 부처 등 공공기관은 기술 발전 속도를 따라가지 못했다. 기존 구형 SW에서 최신 파일을 읽을 수 없다는 민원과 행정 불편을 이유로 도입을 차일피일 미뤘고, 심지어 현장에서는 최신 포맷인 HWPX를 사용하지 말라는 지침이 내려오는 역설적인 상황까지 벌어졌다.

결국 기술 개발 이후 무려 11년이 지난 2018년이 되어서야 HWPX는 비로소 공공의 공식 포맷으로 자리 잡을 수 있었다.

만약 우리 정부가 1990년대부터 워드를 썼다고 가정하더라도, 이러한 보수적인 행정 문화 아래에서는 대다수 문서가 AI가 이해하기 어려운 바이너리 기반의 구형 DOC 파일로 방치되었을 가능성이 크다는 지적이 나오는 이유다.

도입 막는 진짜 원인, 보여주기식 '의전용 편집'

AI 전문가는 포맷보다 더 심각한 본질적 문제로 공공기관 특유의 기형적인 문서 작성 문화를 지목한다. 파일 내부 데이터가 보여주기식으로 파편화되어 AI가 이해하기 힘든 구조라는 지적이다.

대표적인 사례가 투명한 표(Table)다. 공공 문서를 열어보면 문서 전체 시각적 레이아웃을 잡기 위한 투명한 선으로 그려진 표가 남발된다. 심지어 표 안에 또 다른 표를 밀어 넣는 이중·삼중의 표가 존재한다.

이는 사람 눈에는 정갈한 보고서로 보이지만 AI가 텍스트를 추출하는 순간 재앙이 시작된다. 왼쪽 단의 항목과 오른쪽 단의 수치가 엉뚱하게 결합하거나 문장이 토막 나면서, 데이터 간의 핵심적인 상관관계가 완전히 파괴되기 때문이다.

이러한 현상의 배후에는 윗선의 '보여주기식 보고 문화'가 자리 잡고 있다. 내용의 논리적 구조보다는 ▲무조건 한 장에 모든 내용을 구겨 넣어야 하고 ▲자간과 장평을 억지로 조절해 끝 줄을 맞춰야 하며 ▲화려한 도표로 치장된 문서를 선호하는 '의전용 편집'이 공공 데이터를 제대로 사용할 수 없게 만든다는 것이다.

더불어 체계화되지 못한 문서 활용법도 비판에 올랐다. 업무 성격에 따라 엑셀, 파워포인트, 위키 등 데이터 구조에 최적화된 다양한 도구를 병행해야 함에도 HWP에 과도하게 집중됐다는 것이다.

이 대표는 "출판 목적 문서를 만들기에는 HWP가 좋은 도구이지만 이를 활용하는 방법에서 문제가 존재했다"며 "기존 방식대로 문서를 그림 그리듯 작성하는 문화가 계속된다면 아무리 최신 AI 모델을 도입해도 학습할 수 있는 유의미한 데이터는 얻을 수 없다"고 비판했다.

HWP가 AI 혁신의 적? '진짜 범인'은 낡은 문서 문화와 관성

관련기사

지금 뜨는 기사

이시각 헤드라인

전남광주 반도체 新공장 투자, 업계는 당혹스럽다

삼성전자 "3년 안에 AI 모듈러 홈 1만채 판매 목표"

AI 민원부터 AI 순찰차·재해복구까지…미래 행정기술 총출동

김용범 정책실장 "호남·충청 반도체 클러스터 조만간 발표...용인 이전 아냐"

ZDNet Power Center