트웰브랩스, 영상 글로 설명하는 AI '페가수스' 공개

800억 파라미터 규모…질의응답도 가능

컴퓨팅입력 :2023/11/09 10:02

트웰브랩스(대표 이재성)가 인공지능(AI) 영상언어 모델 '페가수스'를 9일 공개했다.

페가수스 모델은 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델이다. 영상을 텍스트로 요약할 수 있다. 영상에 대한 질의응답도 가능하다. 트웰브랩스는 자체적으로 구축한 3억 개 이상, 세계 최대 규모의 영상-텍스트 페어로 구성된 데이터셋 중 약 10% 규모인 3천500만 개 분량을 이번 모델 개발을 위해 활용했다.

페가수스 모델은 기존 영상언어모델 대비 최대 61%의 성능 우위를 갖췄다. 개발자용 API 형태로 이뤄져 즉시 도입 가능하다. 나아가 최근 오픈AI가 발표한 GPT4-V에서 볼 수 있었던 텍스트-투-텍스트 혹은 이미지-투-텍스트를 넘어선 긴 영상에 대한 요약, 영상 내 주제별 챕터 및 하이라이트 기능, 질의응답 기능 등 비디오-투-텍스트를 가능하게 한다는 점에서 차별성을 보인다.

(사진=트웰브랩스)

이번 페가수스 모델 공개로 트웰브랩스는 영상 콘텐츠의 이해와 활용에 있어 새로운 장이 열릴 것으로 기대하고 있다. 페가수스 모델은 현재 트웰브랩스 홈페이지 내 대기자 명단 등록을 통해 순차적으로 사용 가능하며, 내년 1분기부터는 대중에 공개될 예정이다.

관련기사

트웰브랩스는 이미 스포츠, 미디어, 엔터테인먼트, 교육, 물리보안 등 다양한 산업 분야별 글로벌 선도 기업들과 긴밀한 협업 관계를 구축하고 있다. 최근에는 국내에서도 세종특별자치시, 과학기술정보통신부, 한국인터넷진흥원과 함께 차세대 지능형 영상 관제 실증 사업을 진행하는 등 핵심 활용 사례들을 중심으로 빠르게 사업 영역을 넓혀나가고 있다.

이재성 대표는 "트웰브랩스는 2021년부터 인간과 유사한 수준의 영상이해 기술 구현을 위해 꾸준히 노력해왔다"며 "페가수스 모델이 물리보안 영상들에 대한 자동 리포트 생성, 스포츠 영상 하이라이트 생성 등 다양한 산업계에서 오랫동안 해결하지 못했던 문제들의 솔루션이 되길 바란다"고 밝혔다.