메타 AI 뮤직젠, 텍스트와 멜로디로 신곡 만든다

컴퓨팅입력 :2023/06/13 09:40

최근 디코더 등 외신에 따르면 메타의 오디오크래프트 연구팀은 뮤직젠(MusicGen)이라는 새로운 오픈 소스 딥러닝 언어 모델을 출시했다.

뮤직젠은 텍스트 프롬프트를 기반으로 새로운 음악을 생성할 수 있는 오픈소스 딥 러닝 언어 모델이다.

뮤직젠은 AI를 이용해 간단하게 음악을 만들 수 있는 AI로 텍스트와 음악 프롬프트를 모두 처리할 수 있는 기능이 특징이다. 텍스트로 음악 스타일을 설명하고 보다 자세한 예시를 위해 선택적으로 기존의 곡을 일부 추가하는 것 만으로 AI가 새로운 음악을 생성한다.

사진=씨넷

메타는 허깅페이스 AI 사이트를 통해 뮤직젠을 직접 체험해 볼 수 있도록 최대 12초 길이의 음악을 만들 수 있는 데모를 제공하고 있다. 효과적인 체험을 위해 여러 음악 함께 샘플도 함께 지원한다.

뮤직젠은 챗GPT 등 많은 언어모델처럼 트랜스포머 기반으로 언어 모델이 문장의 다음 문자를 예측하는 것처럼 음악의 다음 섹션을 예측한다. 다만 간단하고 제어 가능한 음악생성을 목적으로 개발된 단일 언어 모델(LM)이다.

연구팀은 AI 훈련을 위해 2만 시간 규모의 라이선스가 있는 음악을 사용했으며, 데이터셋에는 1만 개의 고품질 음악 트랙과 셔터스톡과 셔터스톡과 폰드5의 사운드도 포함됐다.

연구자들은 메타의 엔코덱 오디오 토크나이저를 사용해 오디오 데이터를 더 작은 구성 요소로 분해하고, 토큰을 병렬로 처리하는 구조를 구축해 빠르고 효율인 생성 환경을 만들었다.

메타 연구팀은 3억 개, 15억 개, 33억 개 등 매개변수를 달리한 3대 버전의 AI를 개발해 테스트를 실행했다고 밝혔다. 그 결과 매개변수가 높아질수록 더 좋은 음악품질이 제공됐지만 사람들에게 가장 높은 평가를 받은 것은 15억개였다.

관련기사

이러한 이유는 높은 매개변수의 경우 외부소음까지 녹음에 포함되면서 오히려 부정적인 경험을 사용자에게 준 것으로 분석된다.  텍스트 입력과 오디오 출력의 타이밍을 정확하게 일치시키기에도 33억 개수가 가장 좋은 것으로 나타났다.

메타는 뮤직젠을 깃허브를 통해 코드와 모델을 오픈소스로 공개했으며 상업적 사용이 허용된다고 밝혔다.