영어만 지원하던 카카오의 인공지능(AI) 번역 서비스가 이달 말 일본어와 중국어를 추가한다.
또 이달 중 카카오톡 플러스친구 채팅 창에서 번역 서비스를 이용할 수 있는 카카오I 번역 챗봇 서비스도 선보인다.
카카오 측은 자체 테스트 결과 중한/한중 번역의 경우 국내 번역기 중 가장 높은 성능을 보였고, 일한/한일 번역도 국내 최고 수준의 번역 품질을 가진 결과가 나왔다고 자신했다.
■ 언어 추가·예사말 높임말 구분·전용 앱 출시
카카오는 21일 한남동 오피스에서 카카오I 번역 서비스 계획과 번역 엔진의 특성 등을 설명하는 카카오 AI 미디어 스터디를 진행했다.
이 자리에서 카카오는 2월 말 카카오I 번역 서비스에 일본어와 중국어 번역 기능을 추가하고, 상반기 중 국내 번역기 중 최초로 예사말과 높임말을 구분해 번역 결과를 제공한다고 밝혔다.
또 구어체, 문어체도 구분해 결과를 얻을 수 있어 다양한 상황에 맞는 번역 결과를 확인할 수 있다고 설명했다.
아울러 카카오는 이달 말 카카오톡 플러스친구 형태로 카카오I 번역 챗봇을 출시한다. 플러스친구에 번역 챗봇을 추가하면 가상 대화 창에서 번역이 이뤄지는 방식이다. 추후에는 카톡 대화창에서 외국인과 바로 번역 서비스를 이용할 수 있게 될 전망이다.
또한 회사는 음성 기반 통역과 문자 인식 지원 등 더욱 수준 높은 번역 서비스가 제공될 전용앱은 연내 출시한다는 계획이다.
나아가 카카오는 번역 엔진을 카카오의 기존 서비스(카톡, 카카오미니, 다음 등)에 추가해 사용성을 높인다는 방침이다. 카카오TV 내에는 동영상 자막 번역 기능도 탑재될 예정이다.
이 밖에 카카오는 번역 엔진을 번역 서비스가 필요한 개인, 기업들에게 추후 API를 개방하기로 했다. 과금 여부 등에 대한 정책은 아직 결정되지 않았다.
■ “에이블루얼라인 통해 적은 데이터로도 품질 높여 ”
카카오는 지난해 9월부터 카카오I 번역 엔진을 적용한 기계 번역 서비스 카카오I 번역(베타) 서비스를 제공하고 있다. 해당 서비스에는 카카오의 다국어 번역 처리 기술과 신경망 기반 기계번역(NMT) 기술이 적용돼 기존 통계기반 번역 시스템 대비 나은 결과를 제공한다.
카카오 배재경 AI 부문 컨텍스트파트장에 따르면 번역에 필요한 학습 데이터양은 최소 수백만 개가 필요하다.
그러나 공개된 데이터를 보면 UN 다국어는 1천만~2천만, 영불 약 3천600만, 영독 약 500만, 한영 약 50만, 한중 약 30만, 한일 약 30만 수준이다. UN 다국어와 영불어, 영독어를 제외하면 데이터가 많지 않은 상황이다.
이에 카카오는 양질의 학습 데이터 확보를 위해 긴 글 형태의 번역쌍을 문장 단위의 번역쌍으로 가공하기 위한 자체 기술을 개발했다. 데이터를 문장 단위로 정렬하는 기술이 곧 양질의 학습 데이터 확보로 이어져 번역 품질에 영향을 주기 때문이다.
배재경 파트장은 “같은 양의 데이터를 확보했더라도 그 데이터를 얼마나 기계번역이 쉬운 문장 단위로 정렬(가공)할 수 있는지가 중요한 것”이라며 “카카오는 딥러닝 기반으로 학습데이터를 문장 단위로 정렬해주는 풀의 일종인 ‘블루 얼라인’을 직접 개선한 에이블루얼라인을 번역 서비스에 활용하고 있다”고 말했다.
에이블루얼라인은 기존 블루 얼라인이 다른 뜻으로 집계하는 유사어(이쁘다, 예쁘다)들도 학습할 수 있게 해주는 툴이다. 이에 기존 툴이 학습 데이터로 활용하지 못했던 글과 문장을 활용할 수 있어 번역의 정확도와 품질을 끌어올릴 수 있다는 것이 카카오의 설명이다.
관련기사
- 이제는 외국어 안 배워도 될까요?2018.02.21
- 시스트란, 인공지능 고전문헌 자동번역시스템 구축2018.02.21
- 네이버 '디스코', 영·일·중 번역 기능 탑재2018.02.21
- 네이버 AI 번역 ‘파파고’ 정식 서비스 시작2018.02.21
또 카카오는 자체 모델(알고리즘) 성능을 통해 데이터에 내재된 숨은 규칙을 잘 찾는다. 양질의 학습 데이터 확보와 함께, 우수한 신경망 모델을 기반으로 최적화 작업을 거친 모델을 사용하고 있다.
이를 통해 카카오 번역은 다의어와 장문 번역에서 자체 블라인드 테스트 결과 경쟁사 대비 높은 정확도를 확보했다고 평가했다.