"목소리에 영혼 담겼다"…아마존, 음성 모델 '노바 소닉' 공개

사용자 말투·감정 변화까지 실시간 반영…음성 이해·생성 통합 모델

컴퓨팅입력 :2025/04/09 16:46    수정: 2025/04/09 16:54

아마존이 사용자 말투와 감정 변화까지 실시간 반영할 수 있는 음성 기반 인공지능(AI) 모델을 공개했다.

9일 아마존은 자사 AI 플랫폼 '아마존 베드록'을 통해 음성 이해와 생성을 통합한 모델 '노바 소닉(Nova Sonic)'을 공식 홈페이지를 통해 발표했다. 이 모델은 고객 서비스와 여행, 헬스케어, 교육 등 산업 분야에서 음성 기반 AI 서비스에 활용된다.

기존 음성 애플리케이션은 음성 인식과 텍스트 처리, 음성 생성 등 기능별로 나뉜 모델을 결합해 사용해야 했다. 이는 시스템 복잡성를 높이고 대화의 자연스러움과 맥락 유지에 한계가 생길 수 있다. 

앤디 제시 아마존 최고경영자(CEO). (사진=AWS)

노바 소닉은 음성의 맥락, 말투, 말하는 스타일까지 한 모델에서 반영할 수 있도록 설계됐다. 입력된 음성의 음향 정보를 인식하고, 그에 어울리는 응답을 실시간으로 생성하는 방식이다. 망설임이나 말 끊김, 어조 변화 등 대화의 미묘한 차이를 인지하고 반응할 수 있다.

예를 들어 노바 소닉 기반 여행용 AI 어시스턴트는 사용자의 감정 변화에 따라 목소리 톤과 응답 방식을 조정할 수 있다. 

노바 소닉은 텍스트 전사 기능도 갖췄다. 개발자는 이 기능을 통해 음성 입력 데이터 기반으로 외부 API를 호출하거나 여러 툴과 연계한 서비스를 만들 수 있다. 항공편 실시간 조회, 일정 예약, 고객 응대 자동화 등 고차원 작업이 가능한 셈이다. 

관련기사

아마존은 노바 소닉의 추론 속도가 빠르다고 강조했다. 거대언어모델(LLM)과 달리 실시간 응답성에 최적화됐다는 이유에서다. 이에 엔터프라이즈 환경에서도 손쉬운 도입이 가능하다고 강조했다. 

아마존은 "노바 소닉은 단일 모델로 음성의 이해와 생성을 모두 처리하는 최초의 시도 중 하나"라며 "향후 음성 기반 AI 기술의 방향성을 제시할 것"이라고 밝혔다.