미스트랄AI, 텍스트·이미지 한번에 처리하는 멀티모달 AI 선보여

픽스트랄 12B 공개, 비전 어댑터 활용해 웹상 URL 이미지도 인식·처리 가능

컴퓨팅입력 :2024/09/12 09:49

프랑스 스타트업 미스트랄AI가 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 인공지능(AI)을 선보였다.

12일 외신에 따르면 미스트랄은 미국 샌프란시스코에서 개최한 AI 서밋 행사에서 멀티모달 AI ‘픽스트랄(Pixtral)12B’을 공개했다.

픽스트랄 12B는 기존에 출시한 언어모델 네모(Nemo) 12B를 기반으로 4억 개의 매개변수 비전 어댑터가 추가된 것이 특징이다.

미스트랄AI의 첫 멀티모달 AI '픽스트랄 12B'(미스트랄AI)

비전 어댑터는 AI 모델에 이미지 처리 기능을 추가하는 구성 요소다. 텍스트 기반 모델에 추가되어, 이미지를 입력으로 받아들이고 분석할 수 있도록 지원한다.

픽스트랄 12B는 비전 어댑터를 통해 이미지를 인식하고 자동으로 자막을 작성하는 등의 시각적 작업을 수행할 수 있다. 또한 웹상의 URL 이미지를 불러오거나 이미지를 텍스트 형식으로 변환해 처리가능 하다.

픽스트랄 12B는 오픈소스로 AI 개발 커뮤니티 허깅페이스와 깃허브, 토렌트 등을 통해 공개되고 있으며 전체 파일 크기는 약 24GB에 달한다. 라이선스는 원저작권 정보와 라이선스 고지를 유지하는 대신 소프트웨어(SW)와 소스 코드를 자유롭게 사용, 수정, 배포할 수 있는 아파치 2.0을 기반으로 한다.

관련기사

이를 통해 기업이나 개인 개발자 모두 픽스트랄 12B를 활용해 자유롭게 각자의 목적에 맞춰 AI를 학습시키고 업무에 적용하거나 서비스에 활용 가능하다.

미스트랄의 소피아 양 개발자 관계 책임자는 “픽스트랄 12B는 미스트랄에서 선보이는 첫 멀티모달 AI로 약 120억 개의 매개변수를 사용했다”며 “AI챗봇인 르챗(Le Chat)과 AI 개발 플랫폼 르플랫폼(Le Platforme)에서도 곧 테스트용으로 제공할 것”이라고 소셜메시지 서비스 엑스(X)를 통해 밝혔다.