메타, '음성↔문자 변환' AI 오픈소스 공개

4천개 이상 음성 언어 식별

인터넷입력 :2023/05/24 14:34

메타가 4천개 이상 음성 언어를 식별하고, 약 1천100개 언어를 음성에서 텍스트, 또는 텍스트에서 음성으로 변환해주는 ‘대규모 다국어 음성인식(MMS)’ 인공지능(AI) 모델을 오픈소스로 24일 공개했다.

이번에 공개한 AI 모델은 음성-텍스트 변환, 텍스트-음성 변환이 가능한 언어 수를 기존 100여개에서 1천107개로 10배가량 확대했으며, 음성으로 식별 가능한 언어 수를 4천개 이상으로 40배가량 늘렸다.

지원 언어 수 증가뿐만 아니라, MMS 프로젝트를 통해 훈련된 AI 모델은 기존 음성 변환 모델과 비교했을 때 우수한 성능을 자랑한다. 메타 분석 결과, 음성 변환 언어 수를 61개에서 1천107개로 18배가량 늘렸을 때 문자 오류율은 단 0.4% 증가했다.

관련기사

사진=씨넷

또 오픈AI 음성인식 모델 ‘위스퍼(Whisper)’와 유사 비교를 수행한 결과, MMS 데이터로 교육된 모델은 단어 오류율을 절반으로 줄이면서도 11배 더 많은 언어를 처리할 수 있는 것으로 나타났다.

메타는 언어 다양성 보존에 기여하고, AI 생태계 발전과 책임 있는 개발을 위해 MMS 모델과 코드를 오픈소스로 공개한다는 방침이다. 아울러 수천 개 언어를 지원하는 단일 음성 모델 구축을 위해 적용 언어 범위를 늘리고, 기존 음성 기술로는 다루기 어려운 방언 처리 문제 해결을 위해서도 노력할 계획이다.