이론적으로 무한대로 음성을 생성할 수 있는 음성언어모델(SLM)이 공개됐다. 이 모델은 영어로된 텍스트를 자연스럽게 음성으로 전달한다.
KAIST(총장 이광형)는 전기및전자공학부 노용만 교수 연구팀 박세진 연구원(박사과정)이 새로운 음성 언어 모델 ‘스피치SSM'을 개발했다고 4일 밝혔다.
노용만 교수는 "현재 공개한 건 영어 텍스트를 여성 음성으로 만들었다"며 "향후 박세진 연구생(박사과정)이 메타(페이스북) 인턴을 마치고 돌아오면 한글로 된 음성도 만들어 공개하게 될 것"이라고 말했다.

연구 결과는 머신러닝 국제 컨퍼런스(ICML) 2025에 구두 논문 발표 대상으로 확정됐다. 구글 딥마인드와 협력해 오는 16일 열릴 국제머신러닝학회(ICML)에서 구두로 발표할 예정이다
음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리한다. 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다.
이같은 장점에도 불구하고 SLM은 음성을 아주 세밀하게 잘게 쪼개 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 메모리 소비도 증가해 장시간 일관성 있는 음성 생성이 어려웠다.
연구팀은 이 문제를 해결하기 위해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있도록 정보에 집중하는 ‘어텐션 레이어’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 ‘순환 레이어'를 교차 배치한 ‘하이브리드 구조’ 로 설계했다.
노용만 교수는 "이 구조가 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다는 것을 연구팀이 확인했다"고 설명했다.
연구팀은 또 음성 데이터를 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들었다.
음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀’ 방식의 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있도록 했다.
관련기사
- LIG넥스원·KAIST, 국방 자율시스템 연구센터 설립 협약2025.07.03
- KAIST, '노벨상 펀드'로 불리는 'HFSP' 수상2025.04.01
- KAIST "디지털 해킹 피해 대응 젠더따라 차이"2025.06.08
- SKT, 침해사고 이후 해지 위약금 면제...8월 요금 50% 감면2025.07.04

연구팀은 "기존은 100초 정도 짧은 음성 모델을 평가했지만, 우리는 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘라이브리스피치-롱(LibriSpeech-Long)'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다"고 설명했다.
논문 제1저자인 박세진 연구생(박사과정)은 “긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답한다"며 "다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 덧붙였다.