씨게이트가 오는 9일까지 서울 삼청동 코너갤러리에서 '데이터로 재탄생한 한글 시조 프로젝트 전시회'를 개최한다. 이 전시회는 씨게이트의 생태계 보호 및 문화 유산 복원 지원 캠페인인 '데이터 포 굿'(Data for Good)의 일환으로 기획되었다.
이 프로젝트를 총괄한 서강대학교 국제한국학과 웨인 드 프레메리 교수는 행사 첫 날인 2일 오전 진행된 기자간담회에서 "고전 문헌 연구는 단순 디지털화 뿐만 아니라 표기 변천 과정까지 염두에 두고 분석해야 한다"고 밝혔다.
■ "고문헌 변화상, 디지털로 분석·추적해야"
웨인 드 프레메리 교수는 서울대학교에서 한국학 석사 학위를, 미국 하버드대학교 동아시아언어문명학과에서 박사 학위를 취득하고 현재 서강대학교 국제한국학과 부교수로 재직중이다.
드 프레메리 교수는 조선 중기의 기녀이자 문인인 황진이의 시조인 '청산리 벽계수야'의 변천 과정을 소개하며 "고대의 시조는 원래 노래였으며 중세 한글과 한자는 이런 시조를 어떻게 노래하는 지 기억하는 수단이었다"고 설명했다.
그러나 20세기 초인 1920년대 시조부흥운동이 일어나며 '청산리 벽계수야'의 표기도 원문과 조금씩 달라지기 시작한다. 원문에는 없던 띄어쓰기가 생긴 것이 대조적이다. 또 1960년대에 들어오면 한글의 음소 변화와 함께 세로쓰기가 아닌 가로쓰기가 도입된다.
드 프레메리 교수는 "'청산리 벽계수야'의 표기가 시대에 따라, 혹은 문헌 작성자의 의도에 따라 변화해 왔다. 이처럼 변화하는 데이터를 디지털로 저장하고 분석하는 것이 시대상 변화 포착에 중요하다"고 밝혔다.
■ "고전의 디지털화, 새로운 해석의 첫걸음"
그가 이끄는 ‘프로젝트 Mo文oN’은 시조나 고전 문헌, 문학작품에 AI와 솔루션 제작도구, 분석 엔진과 머신 러닝을 결합해 연구를 돕기 위한 목적으로 만들어졌다.
이 프로젝트의 목적은 두 가지다. 첫 째는 사진이나 스캔 이미지로 존재하는 고서와 근현대 문학 자료를 텍스트 검색이 가능한 디지털 문서로 변환하는 것이다. 이를 통해 모든 텍스트를 쉽게 검색하고 학자들이 연구에 집중하게 해 준다.
또다른 하나는 시조를 구성하는 글자의 유니코드(Unicode) 값을 분석해 다양한 형태의 3D 모델링을 제작하는 기능이다. 이 기능을 이용하면 시대에 따라 변화하는 시조의 형태를 3D 형태로 보여줄 수 있다.
드 프레메리 교수는 "이미지로 존재하던 시조 등 문학 작품을 기계가 분석하고 읽을 수 있는 글자 형태로 바꾸면 이를 바탕으로 새로운 해석이 가능하다"고 밝혔다.
■ 시조를 3D 모형으로 변환한 모델도 공개
이날 드 프레메리 교수는 중세와 근대의 '청산리 벽계수야'를 분석해 3D 프린터로 출력한 모형을 공개하기도 했다.
"한글, 한자, 영어 알파벳, 이모티콘 등 전 세계 모든 문자를 다룰 수 있는 문자 코드인 유니코드(Unicode)는 각 글자마다 부여된 코드값(일련번호)이 모두 다르다. 이를 통해 시조를 구성한 글자를 일일이 분석한 다음 글자 사이의 관계도를 3차원 공간 안에 펼칠 수 있다."
한글과 한자, 고문 등이 복잡하게 섞여 있을수록 3D 모형의 형태는 복잡해진다. 그러나 시조를 영어로 번역하면 알파벳 대문자 26개, 소문자 26개와 문장부호 등만 이용하기 때문에 코드값이 단순해진다.
시조 원문을 통해 3D 프린터 인쇄에 필요한 오브젝트 파일을 출력하는 데는 평균적으로 3시간이 걸린다. 또 이 과정에서는 프로세서의 연산 기능과 그래픽칩셋의 가속 기능을 모두 활용한다.
■ "문화 유산, 후대에도 물려 주어야"
'프로젝트 Mo文oN'은 글로벌 IT 업체의 후원을 통해 자리를 잡았다. 2017년 2월 마이크로소프트의 ‘클라우드 포 굿’ 지원 프로젝트 중 하나로 선정되어 마이크로소프트 애저와 고급 분석, 머신러닝, AI 솔루션을 지원받았다.
올해에는 여기에 씨게이트가 가세했다. 씨게이트는 데이터를 통한 생태계 보호 및 문화 유산 복원 등을 지원하는 '데이터 포 굿' 캠페인 일환으로 시조 현대화 작업에 필요한 이미지 파일과 여기에서 생성되는 데이터 등을 안전하게 저장하고 보관할 수 있는 기술과 제품 등을 지원한다.
씨게이트 국내 총판인 오우션테크놀러지 씨게이트 총괄 이채호 이사는 "기존에 누렸던 문화, 유산, 경험을 후대에도 누릴 수 있게 해 주는 것이 글로벌 기업에 주어진 숙제 중 하나"라고 설명했다.
■ "고서 이미지 입수·여러 판본이 어려움 더해"
드 프레메리 교수는 고전 문헌 디지털화의 난점 중 하나로 고서 원본 이미지 입수가 어렵다는 점을 들었다. "머신러닝을 위한 문헌 자동 인식에는 카메라로 찍은 고화질 사진이 필요한데 개인이 이를 소장하고 있을 경우 '소주 한 잔' 사면서 부탁하는 경우도 적지 않습니다."
출판사나 옮긴 이의 표기에 따라 한 작품에 서로 다른 판본이 여러 개 존재하는 것도 연구에 어려움을 더한다.
관련기사
- 씨게이트, SSD 신제품 3종 국내 출시2019.10.02
- 씨게이트, 기업용·NAS용 16TB HDD 출시2019.10.02
- 씨게이트, 영상·사진 특화 고용량 저장장치 출시2019.10.02
- 씨게이트, 백업플러스 울트라 터치 출시2019.10.02
"김소월 시집 '진달래꽃'만 해도 판본이 두 개만 존재한다는 것이 정설이었는데 올 상반기에 세 번째 판본이 존재한다는 사실이 밝혀졌습니다. 수집가들은 이를 잘 알고 있는데 학계나 전문가들은 이를 몰라요."
드 프레메리 교수는 입시 위주 교육 과정에서 고전 시조가 문제 풀이를 위한 암기 대상이 되는 현실에도 아쉬움을 표했다. "학생들에게 시조를 가르치겠다고 하면 '다 배웠다', '모두 알고 있다'고 하지만 기원이나 유래, 변천사나 음운에 대해 물어보면 제대로 대답하는 학생들이 거의 없습니다."