구글이 감정 표현과 제어 기능을 강화한 차세대 음성 합성 모델을 선보이며 인공지능(AI) 음성 시장 공략에 속도를 내고 있다. 텍스트 중심이던 생성형 AI 경쟁이 음성 인터페이스로 확장되는 흐름 속에서 기업용 수요를 겨냥한 기술 고도화가 본격화되는 양상이다.
17일 업계에 따르면 구글은 지난 15일(현지시간) 공식 블로그를 통해 차세대 텍스트 음성 변환(Text-to-Speech) 모델 '제미나이 3.1 플래시 TTS(Gemini 3.1 Flash TTS)'를 공개했다. 이번 모델은 개발자용 API와 기업용 버텍스(Vertex) AI, 협업 도구 등을 통해 순차적으로 제공된다.
이번 모델의 핵심은 음성 표현력과 제어 기능 강화다. 자연어 기반 '오디오 태그'를 통해 속도, 억양, 감정 등을 세밀하게 조정할 수 있다. '디렉터 모드'를 활용하면 장면 설정과 캐릭터 역할을 지정해 보다 정교한 음성 생성이 가능하다. 기존 TTS가 단순 낭독 중심이었다면, 이번 모델은 맥락에 맞는 감정 표현까지 반영하는 수준으로 진화했다.
여러 화자가 동시에 등장하는 대화를 한 번에 생성할 수 있는 '멀티 스피커' 기능도 적용됐다. 화자별로 개별 호출이 필요했던 기존 방식과 달리 자연스러운 대화 흐름을 구현할 수 있어 팟캐스트, 오디오 콘텐츠, AI 비서 등 다양한 분야에서 활용도가 높아질 것으로 보인다.
성능과 비용의 균형도 강조됐다. 구글은 블라인드 인간 평가 기반 TTS 벤치마크에서 높은 점수를 기록하는 동시에 '플래시' 계열 구조를 통해 연산 비용을 낮췄다. 이는 기업 고객이 대규모로 도입할 수 있는 환경을 고려한 설계다.
글로벌 확장성도 확보했다. 70개 이상의 언어와 방언을 지원하며 지역별 억양과 표현을 반영할 수 있도록 했다. 이를 통해 글로벌 서비스에서 현지화된 음성 경험 구현이 가능해질 것으로 기대된다.
아울러 생성 음성에는 신스ID(SynthID) 워터마킹을 적용했다. 사람이 인지하기 어려운 방식으로 식별 정보를 삽입해 AI 생성 여부를 판별할 수 있도록 한 것으로, 허위 정보 확산 등 부작용 대응을 고려한 조치로 풀이된다.
구글의 이 같은 움직임 속에 음성 인터페이스를 둘러싼 경쟁도 본격화되는 양상이다. 이미 오픈AI, 메타 등 주요 기업들도 음성 기반 기술 고도화에 속도를 내고 있다. 오픈AI는 대화형 AI에 실시간 음성 기능을 결합해 사람과 유사한 상호작용 구현에 집중하고 있으며, 메타는 AI 캐릭터와 음성 기반 소셜 경험을 결합하는 방향으로 투자를 확대하는 모습이다.
관련기사
- '제미나이' 사용자 3명 중 2명은 '챗GPT'서 갈아타…"기능 다양성 때문"2026.03.24
- 구글 제미나이, 날개 달았다…응답 속도 2.5배 향상2026.03.05
- 구글, AI 학습에 불법행위 있었나…EU, 조사 착수2025.12.10
- [챗GPT 빅뱅] 오픈AI, '챗GPT' 3주년 …"비용 폭증·경쟁 압박 견뎌야"2025.11.30
이 같은 기술 진화는 음성 콘텐츠 제작 방식에도 변화를 가져올 것으로 보인다. 감정 표현과 다중 화자 구현이 가능해지면서 광고, 더빙, 오디오북 등 기존 성우 중심으로 운영되던 영역 일부가 AI로 대체될 가능성이 거론된다. 다만 업계에선 고도화된 연기력과 창의성이 요구되는 영역에서 인간 성우의 역할이 당분간 유지되는 한편, 반복적·대량 제작 중심의 시장부터 구조 변화가 나타날 것으로 보고 있다.
업계 관계자는 "그동안 TTS는 정확하게 읽는 기술에 초점이 맞춰졌다면, 이제는 감정과 맥락을 얼마나 자연스럽게 구현하느냐가 경쟁력으로 바뀌고 있다"며 "표현력과 제어 기능이 결합되면서 음성 기반 콘텐츠와 AI 인터페이스 시장이 동시에 확대될 것"이라고 말했다.











