엔비디아, 오디오 생성·수정하는 모델 개발…"출시는 아직"

음악·영화·비디오 게임 제작자 주요 사용자…"저작권·윤리적 부담으로 당장 공개 안 해"

컴퓨팅입력 :2024/11/26 09:21

메타, 오픈AI에 이어 엔비디아도 오디오와 음성을 생성할 수 있는 생성형 인공지능(AI) 모델을 공개한다. 

26일 CNBC 등 외신에 따르면 엔비디아는 새 AI 모델 '푸가토(Fugatto)'를 출시할 계획이다. 해당 모델은 주로 음악, 영화, 비디오 게임 제작자 대상으로 개발됐다. 오픈소스 음성 데이터로 학습했다. 

사용법은 간단하다. 사용자가 푸가토에게 원하는 음향 효과나 음악을 문자로 입력하기만 하면 된다. 푸가토는 앞서 공개된 메타, 오픈AI의 모델처럼 오디오를 생성할 뿐 아니라 수정까지가능하다. 예를 들어 피아노로 연주된 선율을 사람 목소리로 변환하거나, 음성에 사용된 톤이나 감정을 바꿀 수도 있다. 

메타, 오픈AI에 이어 엔비디아도 오디오와 음성을 생성할 수 있는 생성형 인공지능(AI) 모델을 공개한다. (사진=오픈AI)

엔비디아 브라이언 카탄자로 응용딥러닝 연구부사장은 "지난 50년 동안 합성 오디오를 생각해 보면 음악 품질이 성장했다"며 "생성형 AI는 음악과 비디어 게임, 창작자들에게 새 능력을 제공할 것"이라고 강조했다. 

관련기사

엔비디아는 푸가토 출시 계획에 대해선 구체적으로 밝히지 않았다. 사람 음성이나 음향을 생성·수정하는 기능을 갖춘 만큼 윤리적 부담감이 크기 때문이다. 앞서 오픈AI와 메타도 오디오나 비디오를 생성하는 모델을 소개한 바 있다. 엔비디아처럼 이를 출시하지는 않은 상태다. 

엔비디아 브라이언 카탄자로 응용딥러닝 연구부사장은 "모든 AI 기술은 예상치 못한 것을 만들 수 있는 위험이 있다"며 "이에 대해 신중히 생각하기 위해 당장 출시하지는 않을 것"이라고 외신에 밝혔다.