오픈AI, 목소리 복제하는 '보이스 엔진' 미리보기 공개

15초짜리 음성파일 입력하면 목소리 생성…소수 파트너사만 우선 제공

컴퓨팅입력 :2024/03/31 10:34

오픈AI가 음성을 복제할 수 있는 인공지능(AI) 모델을 공개했다. 현재 소수 테스터들만 해당 모델에 접근할 수 있다. 

29일 벤처비트는 오픈AI가 AI 음성 모델 '보이스 엔진'을 미리보기 버전으로 공개했다고 보도했다. 모델 개발 기간은 약 2년 걸렸다.

그동안 보이스 모델은 챗GPT의 음성 기능에 탑재됐다. 사용자 음성을 인식하고, 답변을 음성으로 제공하는 역할에 그쳤다. 이번에 공개된 모델은 음성 복제까지 가능하다. 사용자가 15초 분량의 음성 클립을 넣으면, 해당 목소리와 매우 유사한 음성을 생성하는 식이다.

오픈AI가 음성을 복제할 수 있는 인공지능(AI) 모델을 공개했다. 현재 소수 테스터들만 해당 모델에 접근할 수 있다. (사진=오픈AI 홈페이지 캡처)

오픈AI 측은 공식 블로그에서 해당 모델을 소수 파트너 그룹에만 우선 제공한다고 밝혔다. 각국 선거를 앞둔 상황에서 악영향을 미칠 수 있다는 우려에서다. 실제 올해 초 일레븐랩스의 음성 복제 기술을 사용해 조 바이든 미국 대통령의 목소리를 복제한 사건이 발생해 연방 정부가 조사에 나선 바 있다.

관련기사

회사는 "해당 모델은 언어 장애인이나 학생들에게 유용할 것"이라며 "신뢰할 수 있는 소규모 파트너 그룹에게만 제공한 상태"라고 밝혔다. 현재 교육 업체 에이지 오브 러닝, 비디오 번역 업체 헤이젠, 의료용 도구 업체 디마지, 언어 장애용 장치 업체 리복스, 의료 및 교육 장치 업체 라이프스판 등이 보이스 엔진을 받았다. 

블로그 내용에 따르면, 파트너사는 무단 사칭을 금지하고 음성 제공자의 사전 동의를 요구하는 사용 정책을 지켜야 한다. 생성된 복제 음성에는 귀에 들리지 않는 워터마크도 넣어야 한다.