메타, 멀티모달 이미지 생성AI ‘카멜레온’ 공개

메타가 이미지 생성과 분석을 모두 지원하는 멀티모달 이미지 생성AI 모델 ‘카멜레온(CM3leon)’을 소개했다.

14일(현지시간) 테크크런치 등 외신에 따르면 메타는 단일 멀티모달 생성AI를 구현한 논문을 아카이브를 통해 공개했다고 밝혔다.

메타에 따르면 카멜레온은 텍스트를 이미지로 구현하고, 이미지를 텍스트로 설명하는 기능을 동시에 지원하는 AI모델이다.

토큰 기반 자동회귀 모델이라는 새로운 학습 방법을 적용해 5분의 1 수준의 적은 데이터로 학습했지만 기존 AI모델보다 보다 높은 수준의 성능을 기록했다.

카멜레온은 약 30억 개 수준의 소규모 텍스트 토큰으로 구성된 데이터 세트로 학습이 이뤄졌다. 그럼에도 시각적 질문에 대한 답변 및 자막 작업 등 다양한 비전 언어 작업을 무리 없이 수행했다.

메타는 이를 통해 추론 효율성을 유지하면서 학습비용을 낮출 수 있는 만큼 AI모델의 다양성과 효율성을 확대할 수 있을 것으로 기대했다.

이 밖에도 카멜레온은 사용자가 원하는 정확한 이미지와 텍스트 생성을 위한 기능이 추가됐다.

이미지 생성 과정에서는 텍스트의 다양한 요구 조건 분석해 일관된 이미지를 구현할 수 있도록 대규모 멀티태스킹 튜닝 기능이 적용됐다. 이미지 생성 이후에도 수정 사항을 텍스트로 설명하면 자연스럽게 반영할 수 있다. 색상 팔레트를 변경하거나 구성을 조정하고 새로운 요소를 도입할 수도 있다.

또한 기존 이미지 생성AI에서 구현이 어려웠던 손이나 글자 등을 자연스럽게 표현하는 기능이 추가됐으며, 고해상도 이미지를 표현하기 위해 별도로 학습된 단계도 제공한다.