영어를 거치지 않고 100여 개 언어를 직접 번역할 수 있는 오픈소스 인공지능 번역모델(MMT)이 공개됐다.
미국 지디넷은 페이스북이 AI 언어 모델 M2M-100를 깃허브를 통해 공개했다고 19일(현지시간) 보도했다.
M2M-100은 중개 언어로 영어를 사용하지 않고 각 언어를 직접 비교해 번역하는 것이 특징이다.
기존 번역 모델은 한국어, 중국어 프랑스어 등 영어가 아닌 언어 간에 번역을 할 때도 중개언어인 영어로 한번 번역을 거처야 했다. 기준이 되는 언어가 있는 만큼 학습 및 처리속도가 빠르지만 두 언어 고유의 특성을 살리기 어려운 단점이 있었다.
신규 언어 모델은 영어를 거치지 않는 직접 비교 번역을 통해 번역의 정확성을 높였다. 페이스북에 다르면 M2M-100은 기존 방식에 비해 번역기 품질을 평가하는 ‘BLEU 평가에서 10포인트 이상 높은 점수를 얻었다.
해당 방식을 구현하기 위해 페이스북 측은 뉴스피드에서 매일 발생하는 200억 건의 번역을 AI모델에 학습시켰다. 이를 위해 100개 언어로 구성된 75억 개의 MMT 데이터셋을 구축하고 각 언어별 연관성이 높은 단어간 데이터쌍을 구축했다.
자주 의사소통하고 유사성이 높은 언어 간에 번역 품질을 높이기 위해 분류 및 지리, 문화적 유사성에 따라 14개 계열로 그룹화하는 브리지 마이닝 작업을 거쳤다. 반면 싱할라어와 자바어 간 번역 등 통계적으로 번역 수요가 거의 없는 데이터쌍은 작업을 최소화했다.
페이스북은 다국어 번역 모델은 유사한 언어 간에 정보를 공유하므로 자료가 부족한 언어의 번역에 도움을 줄 수 있다고 밝혔다. 충분한 학습을 거치면 AI 모델이 이전에 학습하지 않은 언어로 번역할 수 있다는 것이다.
관련기사
- 美 대법관 "플랫폼 면책특권 축소 고려해야"2020.10.15
- '애플·구글·페이스북·아마존' 분할 현실화되나2020.10.07
- 페이스북, 오큘러스 퀘스트2 공개…가격 낮추고 성능 높였다2020.09.17
- 페이스북, 리눅스재단 플래티넘 회원 합류2020.08.14
더불어 전 세계 7천 개 이상의 언어 쌍 간을 번역할 수 있는 모델을 구축할 계획이라고 추후 계획을 소개했다.
페이스북 파리 AI연구소의 안젤라 팬 데이터 과학자는 “수년 동안 AI 연구원은 다양한 작업에서 모든 언어를 이해할 수 있는 단일 범용 모델을 구축하기 위해 노력해 왔다”며 "모든 언어, 방언 및 양식을 지원하는 단일 모델은 많은 사람에게 더 나은 서비스를 제공하고 새로운 경험을 동등하게 만드는 데 도움이 될 것"이라고 말했다.