AI 음성 기업 수퍼톤이 클라우드나 값비싼 GPU 없이도 실시간으로 텍스트를 고품질의 음성으로 바꿔주는 AI 모델을 공개하고 개발 생태계 확장에 나선다.
수퍼톤은 지난 19일 온디바이스 기반의 TTS(Text-to-Speech) 모델 ‘수퍼토닉(Supertonic)’을 누구나 자유롭게 사용·수정·배포할 수 있는 오픈소스로 공개했다고 20일 밝혔다.
수퍼토닉은 일반 노트북이나 모바일 환경에서도 빠른 속도로 구동하는 모델이라는 게 가장 큰 특징이다. 사용자의 기기 자체에서 AI 연산 처리가 되는 온디바이스 모델이기 때문에 클라우드나 네트워크 연결 없이도 텍스트를 고품질의 음성으로 바꿔준다. 클라우드 서버로의 데이터 송수신도 없어서 이로 인한 지연 문제나 정보 유출 등의 우려가 적다.
또, 6천600만개 파라미터(매개변수)의 초경량 구조로 설계되었기 때문에 교육용의 초소형 컴퓨터는 물론, 고가의 GPU가 없는 일반 노트북이나 모바일 환경에서도 실시간 수준으로 음성을 생성할 수 있다. 수퍼톤 내부 벤치마크 결과, 일반 노트북 환경에서 수퍼토닉은 초당 약 2500자 이상의 텍스트를 음성으로 변환했다. 이는 글로벌 주요 TTS 모델이 초당 400자 내외의 음성을 생성하는 것과 비교해 압도적으로 빠른 속도다.
수퍼토닉의 소스코드는 개발자 협업 플랫폼인 ‘깃허브(GitHub)’에서, 모델의 학습 결과물인 체크포인트와 모델을 체험해볼 수 있는 데모 페이지는 AI 모델 공유 플랫폼인 ‘허깅페이스(Hugging Face)’에서 만나볼 수 있다. 개발자들의 편의를 위해 소스 코드는 파이썬, C++, 자바스크립트 등 8개 이상의 프로그래밍 언어로 지원된다.
관련기사
- 샵라이브, 라이브커머스 타겟팅 광고 ‘타겟애즈’ 정식 출시2025.11.20
- 롯데홈쇼핑, 최정상 트롯 가수 8명 총출동 '광클콘서트' 성료2025.11.20
- 신세계라이브쇼핑, 대한항공 마일리지 전용 여행 상품 판매2025.11.20
- 제8회 한국 데이터저널리즘 어워드 수상작 발표…8개 부문 선정2025.11.20
수퍼톤은 ‘수퍼톤(Supertone) API’를 통해 ‘소나 스피치 2t(Sona Speech 2t)’도 연내 선보일 계획이다. 소나 스피치 2t는 수퍼토닉과 마찬가지로 온디바이스 TTS 모델이지만, API(application Programming Interface) 형태로 제공된다는 차이가 있다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리다. 소나 스피치 2t는 영어, 한국어, 일본어, 스페인어, 포르투갈어에 대한 TTS가 가능한 형태로 서비스될 예정이다.
이교구 수퍼톤 대표는 “수퍼토닉 오픈소스 공개로 온디바이스 TTS 기술의 표준화와 경량화를 선도하고, 개발자 커뮤니티와의 협업을 확대할 계획”이라며 “인공지능 컨택센터(AICC), 음성 에이전트, 에듀테크나 이러닝 등 다양한 산업군에서의 음성 AI 기술 활용 범위를 넓혀갈 것”이라고 말했다.











