메타, 100개 언어 번역·음성 변환하는 AI 모델 내놨다

'심리스M4T' 공개...100만시간 개방형 오디오 데이터 활용

인터넷입력 :2023/08/23 10:36    수정: 2023/08/23 13:33

페이스북, 인스타그램 운영사 메타가 텍스트와 음성을 토대로 100개 언어를 번역하거나, 말로 구현할 수 있도록 한 인공지능(AI) 모델을 내놨다. 

메타는 별도 AI 모델을 하나로 결합한 ‘심리스(Seamless)M4T’를 출시한다고 블로그를 통해 22일(현지시간) 밝혔다.

M4T는 대규모 다국어·멀티모달 기계(Massively Multilingual & Multimodal Machine)를 뜻한다. 심리스M4T는 기존 파이토치(PyTorch) 중심의 멀티태스킹 모델 아키텍처를 기반으로 구축됐으며, 이를 학습하기 위해 100만 시간의 개방형 오디오 데이터를 활용했다.

메타 연구팀은 “지원하는 리소스가 낮고, 중간 수준인 언어 성능을 개선했다”며 “영어와 스페인·독일어 등의 경우, 양질의 결괏값을 유지했다”고 전했다. 메타 연구 과학자인 파코 구즈만은 “심리스M4T 특장점은 중간 모델에 의존하지 않고, 더 빠르게 결과를 도출할 수 있다는 것”이라고 했다.

관련기사

(사진=메타)

이 AI 모델은 ▲100개 언어 음성인식 ▲100개 입출력 언어에 대한 음성-문자 변환 ▲100개 입력 언어와 36개 출력 언어를 지원하는 음성 간 번역 ▲100개 언어에 대한 텍스트 간 번역 ▲100개 입력 언어와 35개 출력 언어를 지원하는 텍스트 음성 번역을 지원한다. 음성 간 번역 시 35개 언어를, 100개 언어를 텍스트에서 텍스트로 각각 전환할 수 있다는 얘기다.

메타는 대규모 다국어 음성인식(MMS) 모델과 마찬가지로, 심리스M4T 역시 오픈소스로 공개할 예정이다. 메타 측은 “AI 생태계 발전에 있어, 심리스M4T는 중요한 돌파구가 될 것”이라며 “우리 연구원들과 함께 이 기술을 공유할 수 있도록 할 것”이라고 설명했다.