MS, 영상 자동캡션 지원하는 비전AI 공개

마이크로소프트가 영상에서 인물과 사물을 자동으로 구별하고 캡션까지 추가하는 컴퓨터 비전 인공지능(AI)모델을 공개했다.

테크크런치 등 외신에 따르면 마이크로소프트는 애저 코그니티브 서비스의 신규 미리보기 기능으로 플로렌스를 추가했다고 공식 애저 블로그를 통해 밝혔다.

2년 전 처음 공개된 프로렌스는 이미지와 함께 언어를 이해하는 것을 목표로 개발된 AI모델이다. 이를 위해 수십억 개의 이미지와 텍스트 쌍으로 이뤄진 데이터셋 기반 교육을 거쳤다.

영상 속 치타와 사람을 자동으로 구분하고 캡션을 추가하는 마이크로소프트의 AI서비스(이미지=마이크로소프트)

마이크로소프트는 새로운 AI서비스를 자동 캡션 추가, 배경제거, 이미지 검색 등에 활용할 수 있다고 밝혔다.

대규모 언어 데이터를 바탕으로 이미지나 영상에 가장 적합한 단어로 캡션을 추가할 수 있으며, 기미지에서 각 객체를 구분할 수 있어 배경에서 사람과 물체를 분할 후 다른 배경 등으로 전환할 수도 있다.

이미지와 텍스트 간의 유사성을 기반으로 이미지 검색도 지원한다. 실제로 함께 공개된 영상에서는 초원의 언덕에 앉아 있는 치타와 뒤로 지나가는 차량을 비롯해 차 안에 앉아 있는 2명의 여성을 실시간으로 분석하고 적합하게 캡션이 적용 되는 모습을 확인할 수 있다.

마이크로소프트는 이 기술을 활용하면 이미지와 텍스트 간의 유사성 등을 분석해 검색 추천 및 광고 등의 비즈니스를 개선할 수도 있다고 설명했다.

플로렌스는 사용자 커뮤니티 레딧에 우선 적용된다. 레딧에 저장된 수억 장에 달하는 이미지를 AI이용해 자동으로 분류하고 캡션을 추가해 활용성을 높이기 위함이다.

레딧의 티파니 옹 제품관리자는 “마이크로소프트의 비전 서비스를 활용해 사용자가 콘텐츠를 쉽게 찾고 이해할 수 있도록 개선하고 있다”며 “이미지에 생성된 캡션은 사용자가 더 쉽게 레딧에 접근하고 이미지를 탐색하며, 대화에 참석할 수 있도록 돕는 등 결과적으로 더 연결된 커뮤니티를 형성할 수 있는 기회를 제공할 것”이라고 설명했다.