영화 '007' 배우 목소리에 애교까지?…음성 AI 비서, 기술 경쟁 '격화'

오픈AI, 50개 언어 사용 개선한 '보이스 모드 어드밴스드' 출시…아마존, 내달 '알렉사' 개편

컴퓨팅입력 :2024/09/25 10:42    수정: 2024/09/25 19:31

음성 인공지능(AI) 비서 시장 경쟁이 점차 치열해지고 있는 가운데 오픈AI와 메타가 앞다퉈 차별화 된 서비스를 선보이며 주도권 선점에 나섰다. 일상 생활에 AI를 침투시켜 구독을 통한 유료화를 자연스럽게 유도함으로써 수익성 확보에도 속도를 내는 분위기다.

25일 업계에 따르면 오픈AI는 지난 24일 AI 음성 비서 업그레이드 버전인 '보이스 모드 어드밴스드'를 출시했다. 지난 7월 말 '보이스 모드 스탠더드'를 출시한 지 2개월 만이다.

이 서비스는 기존 챗GPT 유료 구독자들에게 제공된다. 한국어를 비롯해 영어 외에 50개 언어의 사용을 개선한 것이 특징으로, 어색한 말투도 현지인 발음에 가깝게 개선됐다. 또 전문 성우를 고용해 훈련시킨 새로운 음성 5종을 추가했다. 

재키 섀넌 오픈AI 챗GPT 멀티모달 총괄은 "새 버전은 더 자연스럽고 실시간 대화가 가능하다"며 "대화 도중에도 언제든지 끼어들 수 있고 사용자의 감정을 감지하고 반응할 수 있다"고 밝혔다.

미라 무라티 오픈AI 최고기술책임자(CTO)가 온라인 신제품 발표 행사에서 자사의 새 AI 모델 GPT-4o를 설명하고 있다. (사진=오픈AI)

오픈AI는 앞서 지난 23일 브리핑을 통해 향상된 챗GPT 음성 기능을 시연했다. 어드밴스드 음성모드는 "애교를 넣어 소개해 달라"는 요청에 "안녕, 나는 챗GPT야"라며 애교 섞인 목소리를 내 눈길을 끌었다. 또 "정중하게 인사해 달라"는 요청에는 "안녕하세요. 만나 뵙게 돼서 반갑습니다"라고 답했다. 

오픈AI에 따르면 이번 버전은 기존 버전과 비교해 한국어 사투리도 더 많이 이해하는 반면, 욕설은 하지 않도록 설계됐다. "욕해줘"라고 말하면 "제가 욕설을 하지 않지만, 대신 재미있는 대화는 할 수 있어요"라고 답변했다.

오픈AI는 챗GPT가 한국인 전문 성우와 회사 내 한국인 직원들로부터 피드백을 받고 한국어 능력을 향상시켰다. 이날부터 유료가입 서비스인 '챗GPT 플러스' 및 팀 단위나 작은 스타트업을 위한 서비스인 '챗GPT 팀'을 통해 사용할 수 있다. 기업용인 '챗GPT 엔터프라이즈'와 대학을 위한 '챗GPT 에듀'에서는 다음주부터 이용할 수 있다.

메타 플랫폼은 자사 AI 챗봇에 주디 덴치, 존 시나 등 유명 영화배우 5명의 목소리를 차용해 제공할 계획이다. 메타의 챗봇 비서는 현재 텍스트 채팅에 참여하고 사용자의 요구에 응답해 이미지를 생성할 수 있다.

주디 덴치는 영화 '007시리즈'에서 제임스본드의 상관인 'M'으로 나오는 영국의 유명 배우다. 존 시나는 프로레슬러 출신으로, 영화 '분노의 질주' 등에 출연했다. 목소리를 제공하기로 계약한 연예인은 이 외에도 크리스틴 벨, 아콰피나, 키건마이클 키 등이 있다. 연예인 목소리 외에 몇 가지 일반 음성 옵션도 제공된다.

유명 연예인 목소리 서비스는 이번 주 미국과 기타 영어권 시장에서 페이스북, 인스타그램, 왓츠앱을 포함한 메타의 앱 제품군을 통해 출시된다.

아르테미스1호에 적용되는 아마존의 AI비서 알렉사 (이미지=아마존)

이에 맞서 아마존은 올해로 출시 10년이 된 AI 음성 비서 '알렉사'를 오는 10월 중순께 전면 개편해 선보인다. 알렉사의 업그레이드는 2014년 출시 후 처음으로, 지난해 9월 대규모 개편을 발표한 지 13개월 만이다.

새로운 알렉사는 월 최대 10달러의 구독 서비스를 가입해야 이용할 수 있다. 기존에는 날씨 등 사용자의 간단한 질문에 음성으로 답하는 것에 그쳤으나, 앞으로는 대규모 언어 모델(LLM)을 기반으로 생성형 AI를 통합해 복잡한 질문에도 답할 수 있게 된다. 특히 이용자의 선호도에 따라 생성한 뉴스 요약이 매일 제공되는 '스마트 브리핑' 기능이 탑재될 것으로 보여 기대감을 키우고 있다.

삼성전자도 AI 비서 '빅스비'의 활용도를 높이기 위해 지난달 26일 업데이트를 실시했다. 자연어 기반으로 맥락을 이해하는 음성 명령으로 가전 제품을 쉽게 제어할 수 있도록 한 것이다.

이를 통해 ▲한 문장에 여러가지 명령을 담아 말해도 가전제품이 각 의도를 이해할 수 있고 ▲앞의 대화를 기억해 다음 명령까지 연결해 수행할 수 있으며 ▲기기 관련 궁금증과 답변을 말로 묻고 바로 확인할 수 있다.

구글도 지난달 13일 '메이드 바이 구글 2024'를 통해 자연스러운 대화가 가능한 AI 음성 비서 '제미나이 라이브'를 공개했다. 제미나이 라이브를 활용하면 개인 트레이너가 보낸 이메일을 바탕으로 운동 계획을 세워달라고 요청하거나, 유튜브 콘텐츠 내용과 관련해 궁금한 것을 옆사람과 대화하듯 물어볼 수 있다. 목소리도 10가지로 선택 가능하다.

월 구독료는 19.99달러(약 2만7천원)로, 구글 픽셀폰뿐 아니라 삼성전자 갤럭시폰에서도 이용할 수 있다. 구글은 수 주 안에 '아이폰'에도 이를 사용할 수 있도록 지원할 계획이다.

애플은 자체 개발한 AI 시스템 '애플 인텔리전스'를 탑재한 음성 비서 '시리'를 내년 1월께 출시할 것으로 알려졌다. '시리'는 애플이 지난 2011년 선보인 서비스로, 이용자 요청에 타이머나 알람 설정, 날씨 등을 음성으로 알려준다. 그러나 오픈AI의 GPT-4o처럼 깊이 있는 양방향 소통은 그간 불가능했다. 한국에서는 내년 3월경 애플 인텔리전스를 사용할 수 있을 것으로 보인다.

에릭 슈미트 구글 전 최고경영자(CEO) 등이 투자한 프랑스 비영리 AI 연구소 큐타이는 지난 7월 인간 감정을 이해하는 음성 비서 '모시'를 공개했다. 공개된 모델은 70가지 감정과 스타일로 인간처럼 대화할 수 있는 게 특징이다.

이처럼 생성형 AI를 활용한 음성 AI 비서 시장에서 빅테크들의 경쟁이 치열해지면서 관련 시장에 대한 전망도 긍정적이다. 실제 일본 시장조사기관 글로벌 인포메이션에 따르면 AI와 머신러닝(ML)을 사용하는 지능형 가상비서(IVA)의 올해 시장 규모는 147억7천만 달러(약 20조1천억원)로 추정된다. 2023~2030년 연평균 성장률(CAGR)은 26.2%로, 2030년 시장 규모는 474억 달러(약 64조6천억원)에 달할 것으로 전망된다.

관련기사

업계 관계자는 "생성형 AI 음성 비서가 앞으로 돈이 될 것으로 보고 빅테크들을 중심으로 앞 다퉈 서비스를 내놓고 있는 분위기"라며 "듣고 말하는 AI가 전 산업에 걸쳐 가져올 변화는 가늠하기 어려울 정도"라고 밝혔다.

그러면서 "다만 AI 비서 개발을 위해서는 개인정보와 편향성, 윤리적인 문제도 함께 고려돼야 할 것"이라고 덧붙였다.