마이크로소프트가 영상에서 인물과 사물을 자동으로 구별하고 캡션까지 추가하는 컴퓨터 비전 인공지능(AI)모델을 공개했다.
테크크런치 등 외신에 따르면 마이크로소프트는 애저 코그니티브 서비스의 신규 미리보기 기능으로 플로렌스를 추가했다고 공식 애저 블로그를 통해 밝혔다.
2년 전 처음 공개된 프로렌스는 이미지와 함께 언어를 이해하는 것을 목표로 개발된 AI모델이다. 이를 위해 수십억 개의 이미지와 텍스트 쌍으로 이뤄진 데이터셋 기반 교육을 거쳤다.
마이크로소프트는 새로운 AI서비스를 자동 캡션 추가, 배경제거, 이미지 검색 등에 활용할 수 있다고 밝혔다.
대규모 언어 데이터를 바탕으로 이미지나 영상에 가장 적합한 단어로 캡션을 추가할 수 있으며, 기미지에서 각 객체를 구분할 수 있어 배경에서 사람과 물체를 분할 후 다른 배경 등으로 전환할 수도 있다.
이미지와 텍스트 간의 유사성을 기반으로 이미지 검색도 지원한다. 실제로 함께 공개된 영상에서는 초원의 언덕에 앉아 있는 치타와 뒤로 지나가는 차량을 비롯해 차 안에 앉아 있는 2명의 여성을 실시간으로 분석하고 적합하게 캡션이 적용 되는 모습을 확인할 수 있다.
마이크로소프트는 이 기술을 활용하면 이미지와 텍스트 간의 유사성 등을 분석해 검색 추천 및 광고 등의 비즈니스를 개선할 수도 있다고 설명했다.
플로렌스는 사용자 커뮤니티 레딧에 우선 적용된다. 레딧에 저장된 수억 장에 달하는 이미지를 AI이용해 자동으로 분류하고 캡션을 추가해 활용성을 높이기 위함이다.
레딧의 티파니 옹 제품관리자는 “마이크로소프트의 비전 서비스를 활용해 사용자가 콘텐츠를 쉽게 찾고 이해할 수 있도록 개선하고 있다”며 “이미지에 생성된 캡션은 사용자가 더 쉽게 레딧에 접근하고 이미지를 탐색하며, 대화에 참석할 수 있도록 돕는 등 결과적으로 더 연결된 커뮤니티를 형성할 수 있는 기회를 제공할 것”이라고 설명했다.
관련기사
- 마이크로소프트, 맥용 아웃룩 앱 무료화2023.03.07
- 마이크로소프트, 다이나믹스365에도 대화형 AI 추가2023.03.07
- 마이크로소프트 "챗GPT로 로봇 조종할 수 있다"2023.03.06
- 마이크로소프트, 타입스크립트5 RC버전 공개2023.03.03
마이크로소프트는 팀즈, 파워포인트, 아웃룩, 워드, 원드라이브 등 마이크로소프트 365 앱 에서도 플로렌스 기능을 제공한다.
파워포인트와, 아웃룩, 워드는 자동 대체 텍스트에 이미지 캡션을 활용해 접근성을 개선하며, MS디자이너와 원드라이브는 향상된 이미지 태그 지정, 이미지 검색 및 배경 생성을 사용해 이미지 검색 및 편집을 단순화한다. 또한 마이크로소프트 데이터센터는 보안 및 인프라 안정성을 강화에 향상된 컴퓨터 비전 서비스를 적용했다.