고객이 전화 끊는 진짜 이유는 대기시간이 아니라 AI 목소리였다

컴퓨팅입력 :2026/05/26 17:06

고객이 상담 전화를 끊게 만드는 의외의 이유는 긴 대기시간만이 아니다. 첫마디를 듣는 순간 "아, 이건 기계구나" 하고 느끼게 만드는 어색한 AI 목소리다. 글로벌 고객경험 전문 매체 CX 네트워크(CX Network)가 음성 AI 기업 일레븐랩스(ElevenLabs)와 함께 2026년 5월 11일 공개한 보고서 '보이스 블루프린트(The Voice Blueprint)'는, 이제 AI 음성을 고르는 일이 단순한 기술 선택이 아니라 브랜드 정체성을 정하는 결정, 즉 AI 음성 브랜드 전략의 핵심이라고 말한다. 매일 수천 통의 통화가 이 목소리 하나로 시작된다면, 어떤 목소리를 고르느냐가 곧 회사의 첫인상이 되기 때문이다.

그림1. 일레븐랩스 보이스 블루프린트 보고서 표지 (출처: CX Network·ElevenLabs)

AI 음성 브랜드 전략이 바꾸는 고객 첫인상

CX 네트워크와 일레븐랩스가 공개한 '보이스 블루프린트' 보고서에 따르면, AI 음성은 이제 고객경험(CX)의 핵심 통로이자 브랜드 정체성을 좌우하는 요소다. AI 음성 브랜드 전략이란 회사가 고객과 통화할 때 어떤 목소리로 말할지를 로고나 색상처럼 하나의 브랜드 자산으로 설계하는 일을 말한다. 예전에는 음성을 "잘 들리기만 하면 되는 기능"으로 봤지만, 보고서는 잘못 고른 목소리가 측정 가능한 손해, 즉 고객 이탈과 신뢰 하락, 통화 성과 저하로 이어진다고 지적한다.

이 차이는 누구나 일상에서 겪는다. 같은 카드사에 전화를 걸어도 차분하고 또렷한 중저음이 맞아주면 안심하고 용건을 말하게 되지만, 톤이 들쭉날쭉하고 끊기는 기계음이 나오면 "상담원 연결" 버튼부터 찾게 된다. 보고서가 던지는 질문은 단순하다. 우리 회사 전화기 너머의 목소리는 고객을 머물게 하는 쪽인가, 끊게 만드는 쪽인가.

음성 만드는 네 가지 방식, 라이브러리부터 리믹싱까지

일레븐랩스가 제시한 브랜드 음성 제작 방식은 크게 네 가지다. 보이스 라이브러리, 보이스 클로닝, 보이스 디자인, 보이스 리믹싱이며, 각 방식은 속도와 독창성, 비용에서 서로 다른 장단점을 가진다.

보이스 라이브러리(Voice Library)란 이미 만들어진 1만 개 이상의 목소리 중에서 마음에 드는 것을 골라 바로 쓰는 방식이다. 가장 빠르고 손쉽지만, 누구나 같은 목소리를 쓸 수 있어 우리 브랜드만의 색이 옅어질 수 있다. 보이스 클로닝(Voice Cloning)은 실제 사람의 목소리를 복제하는 방식으로, 짧은 샘플만으로 즉시 복제하는 방법과 긴 녹음으로 정밀하게 복제하는 방법이 있다. 회사 전속 성우의 목소리를 24시간 쉬지 않고 쓸 수 있는 셈이다. 보이스 디자인(Voice Design)은 "30대 여성, 따뜻하고 신뢰감 있는 톤, 약간 낮은 목소리"처럼 글로 특징을 적으면 세상에 없던 새 목소리를 만들어 주는 방식이다. 마지막으로 보이스 리믹싱(Voice Remixing)은 이미 가진 목소리를 "조금 더 젊게", "더 부드럽게"처럼 말로 지시해 손보는 방식이다.

규모가 작은 가게라면 라이브러리에서 어울리는 목소리를 골라 바로 시작하는 편이 합리적이고, 고유한 브랜드 음성을 자산으로 키우려는 큰 기업이라면 디자인이나 클로닝으로 전용 목소리를 만들어 모든 채널에서 똑같이 쓰는 쪽이 유리하다. 자기 회사가 어느 쪽에 가까운지 떠올려 보면 선택의 방향이 보인다.

음질, 지연속도, 표현력을 동시에 가질 수는 없다

일레븐랩스에 따르면 실시간으로 고객과 대화하는 음성 에이전트를 만들 때는 음질, 지연속도(latency), 표현력 세 가지를 동시에 최고로 끌어올릴 수 없고, 용도에 맞게 우선순위를 정해야 한다. 여기서 지연속도란 고객이 말을 끝낸 뒤 AI가 대답을 내놓기까지 걸리는 시간을 뜻한다. 사람끼리 대화할 때 답이 즉시 돌아오듯, 이 시간이 길어지면 "여보세요?"를 반복하게 되고 대화가 어색해진다.

이 트레이드오프는 일레븐랩스가 공개한 모델별 사양에서 분명하게 드러난다. 실시간 상담에는 가장 빠른 모델인 플래시 v2.5(Flash v2.5)가 권장되는데, 응답까지 걸리는 시간이 약 75밀리초, 즉 0.075초에 불과하다. 눈 한 번 깜빡이는 시간이 보통 0.1초가 넘으니, 사람이 끊김을 거의 느끼지 못하는 속도다. 이 빠름이 통화마다 쌓이면 수천 건의 상담에서 "기다리지 않아도 되는 대화"라는 경험 차이를 만들어 낸다.

반면 감정 표현이 가장 풍부한 모델인 v3는 웃음이나 속삭임 같은 미묘한 감정까지 표현하고 70개가 넘는 언어를 다루지만, 첫 응답이 나오기까지 시간이 더 걸려 실시간 통화보다는 광고 내레이션이나 오디오북처럼 미리 녹음하는 콘텐츠에 어울린다. 결국 빠른 응답이 생명인 콜센터냐, 풍부한 감정이 생명인 녹음 콘텐츠냐에 따라 정답이 갈린다.

IVR 대체와 다국어 콜센터, 통신·금융·헬스케어의 선택

보고서는 통신, 금융, 소매, 헬스케어 기업들이 낡은 IVR(자동응답시스템)을 사람처럼 들리는 AI 음성 에이전트로 바꿔 처리 시간을 줄이고, 직원을 늘리지 않고도 상담 규모를 키웠다고 소개한다. IVR이란 "○○는 1번, △△는 2번을 누르세요"처럼 버튼을 눌러 단계를 넘어가는 기존의 기계식 자동응답을 말하는데, 고객 입장에서는 답답하고 느리다는 불만이 컸다.

음성 에이전트는 화가 난 고객을 차분히 달래거나 환불 처리와 배송 조회 같은 실제 업무까지 통화 중에 바로 끝내는 데 쓰인다. 일레븐랩스가 별도로 공개한 사례를 보면 도이치텔레콤(Deutsche Telekom), 클라르나(Klarna) 같은 기업이 이런 방식으로 대량의 통화를 처리한다. 다국어 응대도 강점이다. 사람 상담원을 언어별로 따로 두지 않아도 하나의 음성 시스템이 여러 언어를 자연스럽게 오가며 응대할 수 있다. 작은 사업자도 예약 접수나 단순 문의 응대처럼 반복이 많은 통화부터 적용해 볼 수 있다는 점에서, 이 변화는 대기업만의 이야기가 아니다.

목소리가 곧 신뢰가 되는 시대의 과제

AI 음성이 사람과 구분하기 어려울 만큼 자연스러워지면서, 통화 상대가 사람인지 AI인지 알리는 고지(告知) 문제가 새로운 과제로 떠오를 가능성이 있다. 자연스러움이 신뢰를 높이는 동시에, 고객이 속았다고 느끼는 순간 오히려 신뢰가 무너질 수 있기 때문이다.

보고서는 사람 같은 음성이 통화 성과를 높인다는 데이터에 초점을 맞추고 있을 뿐, 이런 투명성 문제의 정답까지 제시하지는 않는다. 기술이 빠르게 자연스러워지는 만큼, 어디까지 알리고 어떻게 신뢰를 지킬지는 기업마다 다른 답을 내며 두고 볼 필요가 있다. 분명한 것은 이제 목소리가 고객이 브랜드를 처음 만나는 접점이자 신뢰의 출발점이 됐다는 사실이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI 음성 에이전트는 기존 ARS(자동응답)와 무엇이 다른가요?

기존 ARS는 정해진 번호를 눌러야 다음 단계로 넘어가는 기계식 안내인 반면, AI 음성 에이전트는 사람처럼 자연스럽게 듣고 답하며 환불이나 배송 조회 같은 실제 업무까지 통화 중에 처리합니다. 그래서 대기와 단계 이동이 줄어 통화가 한결 빠르고 편안해집니다.

Q. 우리 회사만의 AI 목소리를 만들려면 꼭 비용이 많이 드나요?

꼭 그렇지는 않습니다. 1만 개가 넘는 기성 목소리를 모아둔 보이스 라이브러리에서 어울리는 목소리를 골라 바로 시작할 수도 있고, 예산과 목표에 따라 전용 목소리를 새로 디자인하거나 실제 성우 목소리를 복제하는 방식을 선택할 수도 있습니다.

Q. AI 상담원 목소리가 사람과 구분이 안 되면 문제가 되지 않나요?

자연스러운 목소리는 고객 만족과 신뢰를 높이지만, 상대가 AI라는 사실을 숨기면 오히려 신뢰가 깨질 수 있습니다. 그래서 많은 기업이 통화 상대가 AI임을 적절히 알리는 방안을 함께 고민하고 있으며, 이는 앞으로 더 중요한 과제가 될 전망입니다.

기사에 인용된 리포트 원문은 CX 네트워크(CX Network)에서 확인할 수 있다.

리포트명: Designing the ideal AI voice for your brand (The Voice Blueprint), CX Network·ElevenLabs, 2026년 5월 11일

관련기사

이미지 출처: AI 생성 콘텐츠, CX Network·ElevenLabs 보고서 표지

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)