메타가 4천개 이상 음성 언어를 식별하고, 약 1천100개 언어를 음성에서 텍스트, 또는 텍스트에서 음성으로 변환해주는 ‘대규모 다국어 음성인식(MMS)’ 인공지능(AI) 모델을 오픈소스로 24일 공개했다.
이번에 공개한 AI 모델은 음성-텍스트 변환, 텍스트-음성 변환이 가능한 언어 수를 기존 100여개에서 1천107개로 10배가량 확대했으며, 음성으로 식별 가능한 언어 수를 4천개 이상으로 40배가량 늘렸다.
지원 언어 수 증가뿐만 아니라, MMS 프로젝트를 통해 훈련된 AI 모델은 기존 음성 변환 모델과 비교했을 때 우수한 성능을 자랑한다. 메타 분석 결과, 음성 변환 언어 수를 61개에서 1천107개로 18배가량 늘렸을 때 문자 오류율은 단 0.4% 증가했다.
관련기사
- 올해 VR·AR 헤드셋 출하량 18.2% 감소 전망2023.05.23
- EU, 메타에 1조7천억원 벌금…"개인정보 무단 전송"2023.05.22
- 메타, 자체설계 AI 반도체 공개2023.05.19
- 김진아 대표 "AI는 메타의 집중 분야...릴스는 뜨는 마케팅"2023.05.17
또 오픈AI 음성인식 모델 ‘위스퍼(Whisper)’와 유사 비교를 수행한 결과, MMS 데이터로 교육된 모델은 단어 오류율을 절반으로 줄이면서도 11배 더 많은 언어를 처리할 수 있는 것으로 나타났다.
메타는 언어 다양성 보존에 기여하고, AI 생태계 발전과 책임 있는 개발을 위해 MMS 모델과 코드를 오픈소스로 공개한다는 방침이다. 아울러 수천 개 언어를 지원하는 단일 음성 모델 구축을 위해 적용 언어 범위를 늘리고, 기존 음성 기술로는 다루기 어려운 방언 처리 문제 해결을 위해서도 노력할 계획이다.