메타, 연구용 AI 모델 3종 오픈소스로 공개

메타가 연구전용 인공지능(AI) 모델을 전 세계 커뮤니티에 오픈소스로 공개했다. 이를 통해 개방형 AI 모델 발전과 연구 활성화를 도울 방침이다.

18일(현지시간) 메타는 자사 기초AI연구팀(FAIR)이 텍스트와 이미지 음악 생성이 가능하고, 다중 토큰 예측과 음성을 감지할 수 있는 모델을 출시했다고 공식 블로그를 통해 밝혔다.

이번에 소개된 '카멜레온'은 이미지와 텍스트를 이해하고 처리할 수 있는 멀티모달 모델이다. 사람처럼 이미지와 텍스트를 동시에 처리할 수 있는 게 특장점이다.

카멜레온 모델은 이미지와 텍스트를 이해하고 처리할 수 있는 멀티모달 모델이다. (사진=메타)

보통 AI 모델은 텍스트를 이미지로 변환하거나, 이미지를 텍스트로 바꿀 수는 있어도 이를 동시에 진행할 수는 없다. FAIR는 "카멜레온은 이미지에 대한 창의적 캡션을 생성하거나, 프롬프트와 이미지를 혼합해 새로운 장면을 만들 수 있는 모델"이라고 설명했다.

텍스트를 음악으로 바꿔주는 모델 '제스코'도 소개됐다. 문자뿐 아니라 코드나 비트 등 다양한 입력으로 음악을 생성할 수도 있다. 기존 음악 생성 모델 '뮤직 젠'처럼 텍스트에만 의존하는 것을 넘어선 셈이다.

AI의 음성을 탐지하는 모델 '오디오씰'도 나왔다. 첫 오디오 워터마킹 기술이기도 하다. 사용자는 이 모델로 오디오 스니펫 내에서 AI가 생성한 부분을 정확히 찾아낼 수 있다. FAIR는 기존 방식보다 탐지 속도를 최대 485배 올렸다고 밝혔다. 대규모 및 실시간 앱에 적용할 수 있다. 현재 연구용뿐 아니라 상업용으로도 이용 가능하다.