[AI는 지금] 성우 일자리 사라지나…구글, 연기하는 'AI 음성'으로 기업 시장 공략

구글이 감정 표현과 제어 기능을 강화한 차세대 음성 합성 모델을 선보이며 인공지능(AI) 음성 시장 공략에 속도를 내고 있다. 텍스트 중심이던 생성형 AI 경쟁이 음성 인터페이스로 확장되는 흐름 속에서 기업용 수요를 겨냥한 기술 고도화가 본격화되는 양상이다.

17일 업계에 따르면 구글은 지난 15일(현지시간) 공식 블로그를 통해 차세대 텍스트 음성 변환(Text-to-Speech) 모델 '제미나이 3.1 플래시 TTS(Gemini 3.1 Flash TTS)'를 공개했다. 이번 모델은 개발자용 API와 기업용 버텍스(Vertex) AI, 협업 도구 등을 통해 순차적으로 제공된다.

이번 모델의 핵심은 음성 표현력과 제어 기능 강화다. 자연어 기반 '오디오 태그'를 통해 속도, 억양, 감정 등을 세밀하게 조정할 수 있다. '디렉터 모드'를 활용하면 장면 설정과 캐릭터 역할을 지정해 보다 정교한 음성 생성이 가능하다. 기존 TTS가 단순 낭독 중심이었다면, 이번 모델은 맥락에 맞는 감정 표현까지 반영하는 수준으로 진화했다.

여러 화자가 동시에 등장하는 대화를 한 번에 생성할 수 있는 '멀티 스피커' 기능도 적용됐다. 화자별로 개별 호출이 필요했던 기존 방식과 달리 자연스러운 대화 흐름을 구현할 수 있어 팟캐스트, 오디오 콘텐츠, AI 비서 등 다양한 분야에서 활용도가 높아질 것으로 보인다.

성능과 비용의 균형도 강조됐다. 구글은 블라인드 인간 평가 기반 TTS 벤치마크에서 높은 점수를 기록하는 동시에 '플래시' 계열 구조를 통해 연산 비용을 낮췄다. 이는 기업 고객이 대규모로 도입할 수 있는 환경을 고려한 설계다.

글로벌 확장성도 확보했다. 70개 이상의 언어와 방언을 지원하며 지역별 억양과 표현을 반영할 수 있도록 했다. 이를 통해 글로벌 서비스에서 현지화된 음성 경험 구현이 가능해질 것으로 기대된다.

아울러 생성 음성에는 신스ID(SynthID) 워터마킹을 적용했다. 사람이 인지하기 어려운 방식으로 식별 정보를 삽입해 AI 생성 여부를 판별할 수 있도록 한 것으로, 허위 정보 확산 등 부작용 대응을 고려한 조치로 풀이된다.

구글의 이 같은 움직임 속에 음성 인터페이스를 둘러싼 경쟁도 본격화되는 양상이다. 이미 오픈AI, 메타 등 주요 기업들도 음성 기반 기술 고도화에 속도를 내고 있다. 오픈AI는 대화형 AI에 실시간 음성 기능을 결합해 사람과 유사한 상호작용 구현에 집중하고 있으며, 메타는 AI 캐릭터와 음성 기반 소셜 경험을 결합하는 방향으로 투자를 확대하는 모습이다.

[AI는 지금] 성우 일자리 사라지나…구글, 연기하는 'AI 음성'으로 기업 시장 공략

관련기사

지금 뜨는 기사

이시각 헤드라인

급한 불 끈 홈플러스...경영 정상화는 ‘산 넘어 산’

우버, 딜리버리히어로 22조원에 품는다…배민도 우버 산하로

글로벌 AI 시장, 미·중 모델 고집 여전...한국 현주소는

전국민에 ‘모두의 AI’ 보급...반도체·AIDC·피지컬AI 집중 육성

ZDNet Power Center