미스트랄AI, 음성 모델 '복스트랄' 공개…오픈소스 인터페이스 '가속화'

요약·질문·명령 호출 통합 지원…오픈AI '위스퍼'보다 높은 성능 입증

컴퓨팅입력 :2025/07/16 17:56

음성 인공지능(AI)이 파운데이션 모델에 통합되는 흐름 속에서 미스트랄AI가 다국어 인식과 자연어 이해를 통합한 오픈소스 음성모델을 선보였다.

16일 미스트랄AI 블로그에 따르면 이 회사는 지난 15일 '복스트랄(Voxtral)' 시리즈를 출시했다. 총 240억 파라미터 규모의 프로덕션형 모델과 30억 파라미터 규모의 엣지형 모델 두 가지가 있으며 '아파치2.0 라이선스' 하에 허깅페이스를 통해 다운로드할 수 있다.

'복스트랄'은 질문 응답, 요약, 기능 호출까지 처리 가능한 '음성 이해 모델'로 설계됐다. 최대 32K 토큰 맥락 처리로 40분 분량의 오디오까지 대응하며 영어, 독일어, 힌디어, 프랑스어 등 다국어 자동 인식이 가능하다.

미스트랄 '복스트랄' 벤치마크 (사진=미스트랄)

기능 면에서도 기존 모델 대비 확실한 차별점을 드러낸다. 미스트랄 측은 "'복스트랄 미니 트랜스크라이브'가 오픈AI의 '위스퍼' 대비 비용 대비 정확도에서 우위에 있다"며 "'복스트랄 스몰'은 일레븐랩스의 '스크라이브' 수준의 성능을 절반 비용으로 제공한다"고 밝혔다.

평가 지표에서도 강점을 보였다. '복스트랄'은 리브리스피치, 스위치보드, 보크스포퓰리 등 다수 영어 벤치마크에서 오픈소스 모델 중 최고 수준의 낮은 오류율을 기록했다. 더불어 이 모델은 미스트랄 '스몰 3.1'의 언어 이해 능력을 계승해 일반적인 자연어 처리(NLP) 작업에도 활용 가능하다.

기업 고객을 위한 고급 기능도 제공된다. 프라이빗 온프레미스 구축, 의료·법률 등 도메인 특화 파인튜닝, 고급 화자 분리 및 감정 인식, 워드 레벨 타임스탬프 지원 등이 포함된다. 멀티 그래픽처리장치(GPU) 환경을 고려한 경량화도 적용돼 대규모 배포에도 적합하다.

관련기사

'복스트랄'은 '르샤(Le Chat)' 플랫폼 내 음성 모드로도 연동돼 일반 사용자도 음성 녹음 혹은 업로드를 통해 실시간 활용 가능하다. 추후 스피커 구분, 감정 인식, 비음성 사운드 감지 등 다양한 음성 주석 기능이 추가될 예정이다.

미스트랄AI는 "'복스트랄'을 통해 누구나 통제 가능하고 고성능인 음성 지능 시스템을 구축할 수 있게 됐다"며 "가볍고 개방된 설계로 다양한 환경에서 활용 가능성을 넓혔다"고 강조했다.