이제 역사학자도 AI 알아야 하는 시대

AI로 고문서 인식 및 복원하는 기술 잇달아 등장

과학입력 :2023/10/16 16:16

인문학 분야 대표 학문인 역사학에서도 인공지능(AI) 활용이 늘어나고 있다. 손상돼 알아보기 어려운 고대 문서나 비석 등의 기록을 AI가 인식해 복원하고 번역까지 해 준다. 

역사학 연구의 가장 어렵고 힘든 부분 중 하나를 기술의 힘으로 해결하고 있는 것이다. 역사학자들에게도 AI 활용 능력의 중요성이 커질 전망이다.

■ 베수비오 화산 재에 묻힌 두루마기 문서, 펴보지 않고 내용 읽는다

폼페이 옆 도시 헤르쿨라네움은 서기 79년 베수비오 화산 폭발로 폼페이와 함께 20m 두께의 재에 덮였다. 1750년 이 지역 농부가 율리우스 케이사르의 장인이 살던 호화로운 주택 유적을 발견했다. 여기서 600건 이상의 파피루스 문서가 발견됐다. 그 중엔 철학자 에피큐로스의 유실된 저술 '자연에 대하여(On Nature)' 중 일부도 포함돼 있었다.

오늘날 남아있는 고대의 책이나 문서는 대부분 오랜 세월에 걸쳐 필경사들이 여러번 베껴 적는 작업을 한 결과 살아남은 것들이다. 반면 헤르쿨라네움 문서는 당대에 기록된 생생한 문서다. 유적지 본래 주인의 신분을 생각해 볼 때 사료로서 가치도 높으리라 기대된다.

헤르쿨라네움 유적지에서 발견된 탄화된 두루마리 문서 (사진=Vesuvius Challenge)

하지만 화산재에 덮이면서 문서 자체가 탄화되어 상당수 문서는 열어보기 어려운 상태다. 손상된 문서를 펴보려다간 그대로 바스러지고 만다. 이에 따라 이들 파피루스 문서를 X레이 CT 방식으로 촬영해 두루마기를 펴지 않고 속 내용을 확인하려는 시도가 이뤄졌다.

미국 켄터키대학 브렌트 실즈 교수 연구팀은 개봉된 문서들을 CT 촬영한 후, 잉크가 묻은 부분에 나타나는 종이 질감의 미세한 차이를 AI에 학습시켰다. 이후 2019년 프랑스에 보관 중이던 미개봉 문서 2건을 CT 촬영해 해독에 나섰다. 연구진은 스캔 데이터를 공개해 관심 있는 사람들이 머신 러닝 기법으로 해독 작업에 참여하도록 하는 '베수비오 챌린지'도 열었다.

최근 이 대회의 첫번째 수상자가 나왔다. 미국 네브라스카대학에서 컴퓨터공학을 전공하는 대학생 루크 페리터가 처음으로 두루마기의 한 단어를 해독했다고 '네이처'가 보도했다.

과학자들은 손상된 헤르쿨레네움 유적의 고문서들을 AI로 복원하려 하고 있다. (자료=Vesuvius Challenge)

그가 찾은 단어는 '자주색'이란 뜻의 라틴어 '포피라스(πορϕυρας)'였다. 당시 귀한 자주색 염료로 지은 옷은 권력자나 유력 인사들만 입을 수 있었다. 이 문서가 당대의 유력 인사나 그들이 입던 의상, 염료 기술 등에 대한 내용일 수 있다는 의미다.

패리터는 5만 달러의 상금을 받았으며, 올해 말까지 두루마리 하나를 모두 읽는데 성공한 팀에게는 70만 달러가 주어진다.

■ 딥마인드와 고대 그리스 연구자의 만남

구글 딥마인드는 고대 그리스의 비석 등에 새겨진 비문에서 손상된 부분을 복원하는 AI '이타카'를 지난해 선보였다. 이탈리아 베니스 카포스카리대학 등의 역사학자들과 협업했다. 

석조물에 새겨진 기록은 종이에 기록된 자료에 비해 오랜 세월 살아남을 수 있지만, 비바람에 닳아 없어져 내용이 유실되는 것을 막기는 어렵다. 연구진은 8만 건의 고대 그리스 비문으로 이타카를 학습시켰다. 역사학자가 비문 텍스트를 입력하면 이타카가 유실된 부분에 가장 적합할 것으로 보이는 단어들을 추천해 준다.

아테네에 관한 내용을 담은 기원전 485년 경의 비문 (자료=위키미디어)

유실된 부분을 추정하는 이타카의 복원 정확도는 62%로 25%에 그친 사람 역사학자에 비해 훨씬 높았다. 역사학자가 이타카를 보조적으로 활용할 경우 정확도는 72%로 뛰었다. 연구진은 "이 연구는 AI와 역사학자의 협업의 잠재력을 잘 보여준다"라며 "역사적으로 가장 중요한 시기 중 하나인 그리스 시대를 연구하는 방식에 큰 변화를 일으킬 것"이라고 밝혔다.

■ AI로 한문 고문서 번역 더 빠르게 

우리나라에서도 역사 및 고전 연구에 AI를 접목하는 시도가 이뤄지고 있다. 한국전자통신연구원(ETRI)은 한국고전번역원 등과 함께 고문서의 한문을 자동 인식해 번역하는 AI 기술을 개발 중이다.

현재 한문 고서 번역가들은 고서 원문을 일일이 입력해 글자로 옮기고 확인한 후 여러 차례 한글로 변경하는 등 번거로운 과정을 거쳐야 한다. ETRI는 92%의 한자 인식 정확도와 85점 수준의 번역 정확도를 갖는 고서 한자인식 및 번역 기술을 개발, 이같은 불편을 덜어준다는 목표다.

관련기사

한국고전번역원 권경열 책임연구원(왼쪽)과 ETRI 민기현 선임연구원(오른쪽)이 AI 기반 고서 번역 기술에 대해 논의하고 있다. (사진=ETRI)

여기엔 ▲저술 간행 및 필사 과정의 오류를 바로 잡아 원 저술에 가깝게 만드는 정본화 ▲정본화를 위한 이본 대조 ▲문자인식 검수 ▲어휘사전 ▲번역 패턴·특수 용어 공유 등의 기능을 지원한다. 

이처럼 번역가들을 위한 스마트 업무 환경 기반을 마련, 작업 효율을 높여 약 3만 종의 고서와 수십만 점의 고문서들의 번역을 앞당길 수 있으리란 기대다. 강현서 ETRI 호남권연구센터장은 "번역 전문가의 작업 환경이 그동안 노동집약적 업무로 과중했다"라며 "디지털 전환을 통해 간소화하고 한자를 모르는 일반인들도 고서를 쉽게 접해 우리나라 문화기록유산인 고서에 관심을 갖는 계기가 될 수 있을 것"이라고 밝혔다.