메타가 이미지 생성과 분석을 모두 지원하는 멀티모달 이미지 생성AI 모델 ‘카멜레온(CM3leon)’을 소개했다.
14일(현지시간) 테크크런치 등 외신에 따르면 메타는 단일 멀티모달 생성AI를 구현한 논문을 아카이브를 통해 공개했다고 밝혔다.
메타에 따르면 카멜레온은 텍스트를 이미지로 구현하고, 이미지를 텍스트로 설명하는 기능을 동시에 지원하는 AI모델이다.
토큰 기반 자동회귀 모델이라는 새로운 학습 방법을 적용해 5분의 1 수준의 적은 데이터로 학습했지만 기존 AI모델보다 보다 높은 수준의 성능을 기록했다.
카멜레온은 약 30억 개 수준의 소규모 텍스트 토큰으로 구성된 데이터 세트로 학습이 이뤄졌다. 그럼에도 시각적 질문에 대한 답변 및 자막 작업 등 다양한 비전 언어 작업을 무리 없이 수행했다.
메타는 이를 통해 추론 효율성을 유지하면서 학습비용을 낮출 수 있는 만큼 AI모델의 다양성과 효율성을 확대할 수 있을 것으로 기대했다.
이 밖에도 카멜레온은 사용자가 원하는 정확한 이미지와 텍스트 생성을 위한 기능이 추가됐다.
이미지 생성 과정에서는 텍스트의 다양한 요구 조건 분석해 일관된 이미지를 구현할 수 있도록 대규모 멀티태스킹 튜닝 기능이 적용됐다. 이미지 생성 이후에도 수정 사항을 텍스트로 설명하면 자연스럽게 반영할 수 있다. 색상 팔레트를 변경하거나 구성을 조정하고 새로운 요소를 도입할 수도 있다.
또한 기존 이미지 생성AI에서 구현이 어려웠던 손이나 글자 등을 자연스럽게 표현하는 기능이 추가됐으며, 고해상도 이미지를 표현하기 위해 별도로 학습된 단계도 제공한다.
관련기사
- '챗GPT' 오픈AI, AP 기사로 AI 훈련시킨다2023.07.14
- LG CNS, 코드 생성AI ‘AI 코딩’ 공개2023.06.28
- ‘1억명 가입’ 스레드 "메시지 기능, 곧 추가"2023.07.15
- LG CNS, 'AI 오케스트레이션'으로 생성 AI 접근성 확대2023.06.18
이미지 분석 기능은 이미지에 표시된 사물을 구조적으로 나누어 레이아웃 정보 등을 분석해 텍스트를 정리한다. 이후 사용자의 질문에 따라 적합한 답을 제공한다.
메타의 아르멘 아가잔얀 연구 과학자는 "카멜레온은 이전 AI모델과는 매우 다른 데이터 분포로 강력한 성능을 낼 수 있다는 것을 보여줬다"며 "카멜레온과 같은 시도가 다중 모달 언어 모델의 경계를 탐색하고 더 발전된 AI 모델을 개발하는데 도움을 줄 것"이라고 말했다.