"그녀 목소리 빠졌네?"…오픈AI, 논란 많던 'GPT-4o' 음성 기능 제한적 공개

지난 5월 데모 공개 후 약 2개월만…스칼렛 요한슨 문제 삼았던 '스카이' 음성 빠져

컴퓨팅입력 :2024/07/31 15:09    수정: 2024/07/31 17:26

인공지능(AI) 스타트업 오픈AI가 챗GPT 제품의 음성 비서를 출시했다. 지난 5월 GPT-4o 음성 모드 데모를 선보인 이후 약 2개월 만이다.

31일 블룸버그, 포브스 등 외신에 따르면 오픈AI는 챗GPT 플러스 구독자 중 일부를 대상으로 GPT-4o의 오디오 응답을 제공하기 시작했다.

오픈AI는 이번 GPT-4o의 고급 음성 모드가 실제 대화처럼 즉각적인 응답을 주고 받을 수 있다고 설명했다. 기존 솔루션은 ▲음성 텍스트 변환 작업 ▲GPT-4의 프롬프트 처리 ▲챗GPT 텍스트 음성 변환의 과정을 거쳐야 했으나 GPT-4o는 멀티 모달이기 때문이다.

미라 무라티 오픈AI 최고기술책임자(CTO)가 13일(현지시간) 온라인 신제품 발표 행사에서 자사의 새 AI 모델 GPT-4o를 설명하고 있다. (사진=오픈AI)

오픈AI 측은 "이번 업데이트로 GPT-4o가 인간의 슬픔, 흥분을 포함한 감정적 억양을 감지할 수 있다"고 발표했다.

다만 지난 5월 영화배우 스칼렛 요한슨이 문제 삼았던 '스카이' 음성은 삭제됐다. 당시 스칼렛 요한슨은 "샘 올트먼 오픈AI 최고경영자(CEO)가 지난해 9월 GPT-4o에 목소리를 빌려줄 의향이 있는지 물었지만 이를 거절했다"며 "GPT-4o에 내장된 스카이 성우의 데모를 들었을 때 오픈AI가 내 목소리와 아주 비슷한 음성을 사용한단 사실에 큰 분노를 느꼈다"고 감정을 표출했다.

이에 오픈AI 린지 맥컬럼 대변인은 "챗GPT는 개인과 공인을 포함한 다른 사람의 음성을 가장할 수 없다"며 "400개가 넘는 음성 중 최종 4개 옵션이 선택됐다"고 밝혔다. 

관련기사

일단 오픈AI는 45개 언어를 구사하는 100명 이상의 외부 인원과 함께 GPT-4o의 음성 기능을 시험했다고 주장했다. 또 음성 기능을 가을쯤 정식 공개할 예정이라고 밝혔다. 더불어 지난 5월 시연했던 비디오 및 화면 공유 기능은 여전히 개발 중으로, 해당 기능 출시일은 아직 정해지지 않았다.

오픈AI 측은 "준비 중인 기능들을 점진적으로 출시할 것"이라며 "실제 피드백을 바탕으로 사용량을 면밀히 모니터링하고 모델의 기능과 안전성을 지속적으로 개선할 것"이라고 말했다.