[유미's 픽] "난 빅스비와 사랑에 빠질까?"…감정 읽는 AI 비서, 빅테크 新 격전지됐다

생성형 AI 덕에 10년 전 영화 '허' 현실로…오픈AI 주도 속 아마존·애플·삼성도 대응 분주

컴퓨팅입력 :2024/05/26 09:26    수정: 2024/05/26 20:45

"굿모닝, 테어도르. 5분 후에 회의야, 벌떡 좀 일어나 볼래요? 일어나!"

생성형 인공지능(AI)을 탑재한 'AI 비서'가 최근 우후죽순 쏟아지면서 AI와 사랑에 빠진 남성의 이야기를 다룬 영화 '허(Her)'가 10여년 만에 현실로 다가온 분위기다. AI의 휴대형, 개인화 현상이 짙어진 탓에 'AI 비서'와 관련된 기술들이 빠른 속도로 개발되며 시장의 새로운 성장동력이 되고 있다는 평가다.

25일 업계에 따르면 오픈AI와 아마존, 애플, 구글, 삼성전자 등 글로벌 기업들은 최근 생성형 AI를 탑재한 'AI 비서'로 시장 내 주도권 잡기 경쟁에 나섰다. 사람을 뛰어넘는 수준의 범용인공지능(AGI) 개발에 천문학적 돈을 쏟아 붓고 있는 이들은 'AI 비서'가 시장을 열어줄 마중물 역할을 할 것으로 기대하고 있다. 

호아킨 피닉스 주연의 영화 '그녀(Her)'의 한 장면. 호아킨 피닉스가 분한 주인공 테오도르와 화면 속 인격형 AI 사만다의 모습. (사진=워너브라더스)

'AI 비서' 시장에서 가장 주목 받는 곳은 '챗GPT'로 유명한 오픈AI다. 지난 13일 보고, 듣고, 사람과 실시간으로 대화할 수 있는 새 AI 거대언어모델(LLM) 'GPT-4o'를  공개한 덕분이다.  

GPT-4o는 텍스트를 통해 대화했던 기존 챗GPT와 달리 이용자와 실시간 음성 대화를 통해 질문을 받고 답변을 내놓는다. 텍스트·음성뿐 아니라 이미지 인식 기능까지 갖춘 멀티모달(Multimodal) 모델로, 사람이 말하는 내용이나 보여주는 이미지를 즉각 이해하고 그에 걸맞은 답을 할 수 있다. 새 모델명의 'o'는 '옴니(Omni·모든 것)'라는 의미에서 따왔다.

특히 빠른 응답 시간은 GPT-4o의 강점으로 꼽힌다. GPT-4o의 평균 응답 시간은 0.32초로, 0.25초가 소요되는 인간의 응답시간과 비슷하다. 사람과 대화하듯 실시간으로 농담을 주고받고 대화를 할 수 있다는 뜻이다. 사용자가 중간에 말을 끊고 다른 말을 하는 것을 이해하는 것도 가능하다. 오픈AI는 이르면 6월에 음성 AI 비서 서비스를 내놓을 예정이다.

미라 무라티 오픈AI 최고기술책임자(CTO)가 지난 13일(현지시간) 온라인 신제품 발표 행사에서 자사의 새 AI 모델 GPT-4o를 설명하고 있다. (사진=오픈AI)

'GPT-4o' 공개 하루 뒤 경쟁사인 구글도 연례 개발자 회의(I/O)를 통해 새로운 생성형 AI 비서 '프로젝트 아스트라'를 내놨다. 아스트라는 텍스트뿐만 아니라 이미지, 영상, 음성 등을 한 번에 처리할 수 있는 미래형 AI 비서 서비스로, 인간처럼 보고 듣고 배울 수 있다. 구글은 제미나이와 자연스럽게 대화할 수 있는 '제미나이 라이브'도 출시할 예정이다.

마이크로소프트(MS)도 이에 맞서 대화형은 아니지만 'AI 비서' 기능을 연례 개발자 회의 '빌드'를 통해 공개했다. MS의 모든 제품에 탑재된 '코파일럿'을 이용할 경우 별다른 명령 없이 사용자의 이메일을 모니터링하고, 프로젝트의 다음 단계를 수행하기 위해 필요한 데이터나 연락망들을 빠르게 이용할 수 있도록 한 것이 특징이다.

또 MS는 오픈AI의 GPT-4o를 클라우드 서비스 애저 AI 이용자들이 이용할 수 있도록 가장 빨리 적용해 부족함을 채웠다. 샘 올트먼 오픈AI 최고경영자(CEO)는 '빌드' 행사에 깜짝 등장해 "기술이 이렇게 의미있는 방식으로 빠르게 채택되는 것을 본 적이 없다"며 "(AI)모델들이 앞으로 점점 더 똑똑해질 것"이라고 말했다.

빅테크들의 이 같은 움직임에 기존 음성 비서 서비스를 제공하던 업체들의 움직임도 바빠졌다. 10년간 음성 비서 '알렉사'를 운영했던 아마존은 올해 말께 생성형 AI를 적용해 새롭게 선보일 예정이다. 이를 위해 자체 개발한 LLM '타이탄'을 적용할 것으로 알려졌다. 기술개발 비용을 상쇄하기 위해 월 구독료를 부과할 예정으로, 금액은 아직 확정되지 않았다. 

자사 기기에 AI 기능 탑재를 추진 중인 애플도 내달 열리는 연례 세계개발자회의(WWDC)에서 생성형 AI를 탑재한 '시리'를 공개할 것으로 전해졌다. '시리'는 애플이 지난 2011년 선보인 서비스로, 이용자 요청에 타이머나 알람 설정, 날씨 등을 음성으로 알려준다. 오픈AI의 GPT-4o처럼 깊이 있는 양방향 소통은 불가능하다.

삼성전자 음성 비서 '빅스비'도 오는 7월 LLM 기반의 생성형 AI를 접목해 변화를 시도한다. '빅스비'는 지난 2017년 '갤럭시 S8' 스마트폰부터 적용했고 이후 스마트폰, TV, 가전 등에 탑재됐지만, 최근 출시된 음성 AI 비서들과 비교하면 기능이 다소 뒤처진다. 이에 삼성전자는 'DS 어시스턴트', '가우스포털' 등 자사가 만든 생성형 AI를 사내에서 사용 중으로, 이를 손질해 '빅스비'에 적용시켜 조만간 가전, 스마트폰에도 접목해 선보일 계획이다. 

업계 관계자는 "알렉사, 시리, 빅스비 등 기존 음성 비서 서비스들은 음성을 텍스트로 바꿔서 인식하고 답변도 텍스트로 먼저 만든 다음 음성으로 합성하는 식이었다"며 "이제는 음성을 음성 그 자체로 인식해 처리 과정이 빨라진 데다 목소리에 담긴 감정이나 배경이 섞인 소리도 알아차릴 수 있게 됐다는 점에서 상당한 기술 차이가 있다"고 설명했다.

갤럭시폰에서 빅스비를 실행하는 모습 (사진=씨넷)

이처럼 생성형 AI를 활용한 음성 비서 시장에 빅테크들이 잇따라 뛰어들면서 관련 시장에 대한 전망도 긍정적이다. 실제 일본 시장조사기관 글로벌 인포메이션에 따르면 AI와 머신러닝(ML)을 사용하는 지능형 가상비서(IVA)의 올해 시장 규모는 147억7천만 달러(약 20조1천억원)로 추정된다. 2023~2030년 연평균 성장률(CAGR)은 26.2%로 2030년 시장 규모는 474억 달러(약 64조6천억원)에 달할 것으로 전망된다.

관련기사

업계 관계자는 "생성형 AI 음성 비서가 앞으로 돈이 될 것으로 보고 빅테크들을 중심으로 앞 다퉈 서비스를 내놓고 있는 분위기"라며 "듣고 말하는 AI가 전 산업에 걸쳐 가져올 변화는 가늠하기 어려울 정도"라고 밝혔다.

이어 "향후 서비스가 고도화되고 규모의 경제가 1위 업체에 몰릴 경우 2등 이하는 업계에서 생존조차 가늠할 수 없을 것으로 보여 빅테크들의 초반 주도권 잡기 경쟁은 더 치열해지고 있다"며 "다만 AI비서 개발을 위해서는 개인정보와 편향성, 윤리적인 문제도 함께 고려돼야 할 것"이라고 덧붙였다.