네이버 파파고, 웹 페이지 통째로 번역한다

OCR엔진 고도화·4개 언어추가·오프라인 번역

인터넷입력 :2018/04/27 14:35    수정: 2018/04/27 15:55

네이버가 ‘파파고’의 인공신경망번역(Neural Machine Translation, NMT) 기술을 이용해 웹사이트 번역 서비스를 시작한다.

사용자는 파파고 웹 페이지에 번역하고 싶은 사이트 주소(URL)를 붙여 넣으면 해당 페이지를 통째로 번역할 수 있다.

추후에는 파파고 앱과 브라우저에 기본 탑재될 예정이다.

■웹번역에 인공신경망번역 기술 적용

네이버는 27일 오전 강남 D2 스타트업 팩토리에서 신경망 번역기술에 관한 테크 포럼을 열었다. 이 자리에는 파파고 김준석 리더와 신중휘 테크리더가 참석해 파파고의 현 성과와 추후 업데이트 계획 등을 설명했다.

2017년 정식 서비스가 시작돼 현재 1천200만 다운로드 된 파파고는 지난 1월 아이패드 버전 출시, 3월 SK텔레콤 쿠키즈 미니폰 선탑재 등 사용성과 확장성을 계속 높여 왔다.

파파고 김준석 리더.

또 기계번역 품질 향상을 위해 인력과 기술 자산을 투입, 광학문자판독(Optical Character Reader, OCR) 엔진 성능 향상과 언어확장 등에 힘쓰고 있다.

현재 제공되는 총 10개 언어 서비스는 연내에 4개가 더 추가될 예정이며, 하반기 일본어부터 보다 진화된 OCR 엔진이 쓰일 예정이다. 연내에 출시될 스마트 동시통역 이어피스인 ‘마스’에도 파파고 기술이 사용된다.

특히 파파고는 오늘부터 옛 통계 방식의 번역 서비스가 이뤄지던 웹번역 부문을 인공신경망 번역 기술로 교체했다. 이에 사용자들은 보다 향상된 웹번역 품질을 이용할 수 있게 됐다. 사용방법은 파파고 PC 웹버전에 접속한 뒤, 번역하고자 하는 웹페이지 URL을 입력하면 된다.

파파고 웹번역

네이버 파파고 김준석 리더는 “작년 7월 정식 오픈한 파파고를 통해 많은 이용자들이 이성과 대화할 때, 또 취업을 위해 자기소개서를 작성할 때 도움을 받는다”면서 “파파고는 현재 13개 회사와 파트너 계약을 맺었고, 26개 서비스에 번역 API를 제공하는데 이를 앞으로 더욱 늘려나갈 계획”이라고 설명했다.

■ NMT가 탄생하기 까지 기계번역의 역사

신중휘 테크리더에 따르면 네이버는 2011년 기계번역팀을 구성했다. 그리고 2012년 구문 기반 통계 기계번역(Phrase-Based Statistical Machine Translation)을 적용했다. 이후 2014년 인공신경망 기계번역 기술이 나오면서 네이버는 2016년 10월 이 기술이 적용된 파파고 서비스를 선보였다.

신 테크리더에 따르면 기계번역의 역사는 1949년으로 거슬러 올라간다. 워렌 위버라는 기술자가 최고 제안해 기계번역 연구가 시작됐고, 규칙을 기반으로 한 기계번역이 시작됐다. 하지만 이 기술은 규칙이 없는 번역이 어렵고 결국 전문가의 손길이 필요한 한계를 지녔다. 또 개발이 오래 걸리고 유지보수가 어려운 문제점도 있었다. 이에 특허나 논문 등 정형화 된 번역에 주로 쓰였다.

기계번역 기술 발전의 흐름.

1993년 단어 기반의 통계적 기계번역이 등장했는데, 이는 최초의 통계기반 기계학습 모델이 사용됐다.

이후 2003년 구문 기반의 통계적 기계번역이 등장, 규칙 기반 기계번역을 넘는 정확도를 보였다. 하지만 생성되는 문장이 무한대인 반면 어순 구조 해결에 실패하면서 조사나 어미가 조금만 바뀌어도 정확도가 떨어지는 한계를 드러냈다.

번역에 대한 필요성이 커졌음에도 번역기술은 컴퓨팅 한계와 기술 부족으로 이렇다 할 성과를 내지 못하던 시점, 인공신경망 기계번역이 2014년 등장해 개발자 사이에서 큰 주목을 받았다. 번역에 딥러닝과 같은 인공지능(AI) 기술이 활용되기 시작한 것이다. 많은 데이터와 컴퓨팅 성능이 잘 맞아 떨어지면서 번역 기술 발전 속도가 빨라졌다.

네이버는 문장 단위 번역이 이뤄지는 어텐션 기반 인공신경망 기술을 개발하면서 기존 통계기반 기계번역보다 번역 품질을 2배 이상 높이게 됐다. 그러나 이 역시 번역에 있어 특정 단어가 생략되는 문제가 발생됐고, 표현 가능한 단어수가 제약된다는 문제점을 드러냈다. 또 고비용, 고사양 장비가 필요한 점도 과제로 남아 있다.

파파고 번역 품질 변화.

뿐만 아니라 자동 수집된 의역 데이터로 인해 오역이 발생하는 문제도 있었다. 가령 트럼프 미국 대통령의 경우 시간이 지나면서 호칭이 바뀌는데, 과거의 축적된 데이터에 따라 이를 제 때 따라가지 못하는 한계가 있었다. 트럼프 대통령을 이전 직책인 회장이라고 번역하는 게 대표적인 예다.

이처럼 인공신경망 번역기는 임의로 번역을 수정하는 데 있어 매우 어렵다는 문제가 있다. 이에 최신 데이터 확보가 관건인데, 네이버는 다양한 경로를 통해 번역 데이터를 끌어 모으는 데 많은 노력을 기울이고 있다.

관련기사

나아가 네이버 파파고는 작고 가벼운 엔진을 만들기 위해 연구개발을 집중하고 있다. 오프라인에서도 번역이 제공되는 서비스를 연내 출시한다는 목표도 세웠다. 보다 원활한 웹번역 서비스를 위해 서버도 늘리고, 반응 속도를 높이는 데에도 신경을 썼다.

신중휘 테크리더는 “자체적으로 한국어 중심으로 측정했을 때 파파고의 번역 품질은 구글보다 높은 것으로 나온다”면서 “좋은 데이터, 최신 데이터 확보에 노력할 계획이고, 트럼프 대통령과 같이 시간이 흐르면서 직책이 달라져 생기는 오역 등의 해결을 위해 내부적으로 자체 기술도 개발 중”이라고 밝혔다.