AI기술은 어떻게 '번역 서비스' 확 바꿨나

네이버 파파고 'NMT 방식 번역' 비결 소개

인터넷입력 :2017/03/14 14:13    수정: 2017/03/14 17:21

손경호 기자

인공지능(AI)이 여러 분야를 바꿔놓고 있다. 더 똑똑해진 AI는 퀴즈, 체스에 이어 바둑 영역에서까지 인간 최고수를 꺾었다.

하지만 최근까지도 AI 무풍지대로 통했던 영역이 있다. '가장 인간적인 작업' 중 하나로 꼽히는 번역이었다. 특히 한국어와 영어 간 번역의 정확도는 그다지 높지 않았다. 간단한 생활 용어 외에는 활용할만한 영역이 많지 않았다.

그런데 최근 몇 년 사이에 번역 정확도가 상당히 좋아졌다. 오래 전부터 번역 기술을 개발해 온 구글 뿐 아니라 국내 기업 네이버가 제공하는 '파파고' 번역 서비스도 예전과 비교하기 힘들 정도로 정교해졌다.

어떻게 이런 변화가 가능했을까?

오는 29일 지디넷코리아와 국회 4차산업혁명포럼 공동 주최로 서울 삼성동 코엑스 인터콘티넨탈호텔에서 열리는 '독일 인더스트리 4.0을 통해본 한국형 4차산업혁명 미래 모델' 컨퍼런스에서 그 비결이 공개된다.

네이버에서 파파고 개발을 주도해 온 김준석 리더는 이날 컨퍼런스에서 '글로벌 시대 소통의 해답을 인공지능에서 찾다: 인공신경망 번역으로 본 인공지능의 미래'란 주제 발표를 한다.

이 자리에서 그는 파파고가 기존 번역과 어떻게 다른 차별점이 있는지에 대해 소개할 예정이다. 이와 함께 글로벌 관련 최신 기술 동향과 함께 앞으로 파파고 번역 서비스 활용 방안에 대해서도 소개한다. (☞ 컨퍼런스 바로 가기)

■ 통계 기반 번역이 어색한 이유 따져보니…

원래 번역 서비스의 출발은 '빅데이터 활용'이었다. 이미 번역돼 있는 방대한 번역 데이터에서 최적의 결과를 뽑아내는 방식이었다. 이런 방식의 번역 서비스는 통계기반 기계번역(SMT) 혹은 구문기반 기계번역(PBMT)으로 불렸다.

그 동안 대표적인 번역 서비스로 꼽히던 구글 번역의 출발점도 통계기반 번역이었다.

특히 유럽연합(EU)의 방대한 공식 문건은 초기 구글 번역 서비스의 틀을 잡는 데 큰 역할을 했다. 구글 번역에서 영어와 각종 유럽어 사이의 번역 정확도가 비교적 높았던 것은 그 때문이었다.

하지만 SMT는 한계도 적지 않았다. 사전에 학습한 단어나 구문에 대해 통계적으로 가장 많이 번역됐던 결과물들을 단순 조합해서 번역하는 탓이다. 그러다보니 어색하거나 말이 되지 않는 문장들이 눈에 띄는 경우가 많았다.

한국어와 영어 간 번역 품질은 특히 더 낮았다. 그나마 비교 분석할 수 있는 관련 자료가 영어나 유럽어에 비해 턱 없이 부족했던 탓 크다.

이를테면 '나는 아침 일찍 아침 준비를 했다'란 문장을 SMT는 'I prepared early in the morning the morning'으로 옮긴다. '아침 준비'란 말 속엔 '식사 준비'란 의미가 있다는 맥락을 읽지 못하고 글자 그대로 'prepare the morning'으로 번역해버렸다.

한국어에 많은 동음이의어를 처리하는 데도 약점을 보였다. 이를테면 '밤'이란 단어를 번역할 때 낮의 반대말인 밤(night)인지, 먹는 밤(chestnut)인지 구분하지 못하는 경우도 적지 않았다. 역시 문장의 맥락을 제대로 이해하지 못하기 때문에 생긴 현상이다.

따라서 SMT 같은 기존 방식으론 번역 수준을 높이는 데 한계가 분명했다.

■ 인공신경망, 어떻게 번역 바꿔놨나

그렇다면 최근 들어 번역 품질이 높아진 비결은 뭘까?

AI를 활용한 '인공신경망 기계번역(NMT)' 기술 덕분이다. NMT는 기본적으로 구문이 아니라 문장을 하나의 단위로 놓고 번역결과를 내놓는다.

김준석 리더는 "SMT가 문장의 일부분을 갖고 번역하는 방식이라면 NMT는 문장 전체 정보를 컨텍스트 벡터에 올리는 방식으로 번역한다"고 설명한다.

가장 빈도수가 높은 단어나 구문을 조합해 번역결과를 내놓는 SMT와 달리 NMT는 문장을 하나의 단위로 보고 인공신경망이라는 가상 공간에 번역된 결과를 벡터(좌표값) 형태로 배치하는 방법으로 반복학습한다. 여기에는 단어, 구절, 어순 정보까지 포함됐다. 그 뒤 새로 문장이 입력되면 마찬가지로 좌표값으로 변환해 이미 배치된 문장들과 유사성을 종합적으로 판단해 번역 결과를 내놓는다.

신경망 번역 모형 중 하나인 RNN 검색 모델 개념도.

그 결과 앞서 예시 문장에 대해 NMT는 'I prepared breakfast early in the morning'이라고 번역한다.네이버 파파고 역시 NMT를 활용해 번역 품질을 대폭 높일 수 있었다. 네이버는 자체 테스트 결과 지난 세상에 나온지 1년~2년에 불과한 파파고가 지난 10년 간 연구된 SMT에 비해 2배 가량 번역 품질을 높았다고 설명한다.

네이버랩스는 지난 2015년 '문자 단위의 Neural Machine Translation'이란 논문에서 파파고 서비스의 기본 원칙에 대해 잘 설명했다.

이 논문에서 네이버 측은 "NMT는 번역을 위해 필요한 인공신경망의 구조만 잘 결정해 주면 알아서 학습(딥러닝) 과정을 거쳐 입력된 데이터가 많을수록 더 자연스러운 번역이 가능해진다"고 설명했다.

컨퍼런스에서 김준석 리더는 앞으로 파파고가 이정표를 걷게 될지에 대해서도 소개할 예정이다. 한국어, 영어, 중국어, 일본어 이외 6개 언어 간 번역서비스를 확대하고, 기존 베타서비스에서 200자 글자수 제한이 있었던 것을 없앤다. 번역 커뮤니티를 개설하고, 경찰청 외에 국내에 파파고를 적용할 파트너사들도 대폭 늘린다. 파파고앱을 실행해 스마트폰 카메라로 대상을 비추면 자동으로 번역해 주는 'OCR'도 성능 개선을 예고했다.

AI로 날개단 번역, 언어장벽 사라진 사회 이끄나

AI로 날개를 단 번역 기술이 4차산업혁명과는 어떤 관계가 있을까?

대표적인 국가 차원 4차산업혁명 성공 모델로 꼽히는 독일 인더스트리 4.0의 핵심은 사물인터넷(IoT)과 인공지능을 기반으로 한 스마트팩토리다.

인더스트리4.0은 또 모든 기기가 네트워크로 연결돼 공정을 알아서 자율적으로 수행하는 '사이버물리시스템(Cyber-Physical system, CPS)' 시대가 오고 있다고 말한다.

이 때 중요한 것이 커뮤니케이션 능력이다. 사람과 사람간 커뮤니케이션 단계를 넘어 앞으로는 사람과 사물 간의 커뮤니케이션도 중요한 덕목으로 대두될 가능성이 많다.

관련기사

언어 장벽이 사라져 가고 있는 시대에는 무역의 기본 메커니즘이 확 달라질 것으로 기대된다. 또 기술문서를 각국 언어로 자동번역하면서 지식격차를 줄여 전 세계 어느 곳에서나 언어 제약 없는 협업이 가능해질지도 모를 일이다.

AI 기술을 바탕으로 한 번역은 이런 부분에서도 중요한 역할을 할 것으로 기대된다.