"AI혁신 선보일까" 애플, 자체 멀티모달 AI '4M' 공개

텍스트·이미지·비디오 등 한번에 학습 및 분석 지원

컴퓨팅입력 :2024/07/02 10:16

애플이 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 인식하고 변환할 수 있는 멀티모달 인공지능(AI)모델을 공개했다.

1일(현지시간) 벤처비트 등 외신에 따르면 애플은 멀티모달 AI '4M'의 공개 데모 버전을 허깅페이스 스페이스 플랫폼을 통해 선보였다.

4M은 대규모 멀티모달 마스크 모델링(Massively Multimodal Masked Modeling)의 약자로 다양한 모달리티의 콘텐츠를 처리하고 생성할 수 있는 AI 모델이다.

멀티모달 AI '4M'을 활용해 마스킹한 애플 로고(이미지=허깅페이스)

애플은 지난해 12월 스위스 연방 공과대학 로잔(EPFL)과 협력해 4M에 대한 개념을 소개하는 논문을 공개한 바 있다. 이후 7개월 만에 실제 AI모델이 오픈소스로 공개한 것이다.

허깅페이스 스페이스 플랫폼에 공개된 데모 버전은 4M에 활용된 멀티모달 마스킹 기법을 소개하기 위해 마련됐다.

멀티모달 마스킹은 여러 유형의 데이터에서 중요한 정보만 추출하기 위해 그 외의 정보를 의도적으로 숨기는 기법이다.

4M 데모버전에서는 이미지를 업로드하면 RPG, 심도, 메타데이터, 캡션 등 모달리티의 특성에 따라 마스킹 된 14종의 데이터를 확인할 수 있다.

개발자는 마스킹된 데이터 중 필요한 내용만 선택해 이미지에서 객체를 지정하거나 음성을 텍스트로 전환하는 등 다양한 멀티모달 AI 작업을 보다 간단하게 수행할 수 있다.

애플에 따르면 4M 정식 버전은 텍스트, 이미지, 비디오, 음성 등 다양한 멀티모달을 인식하기 위해 수십종의 마스킹 도구가 마련돼 있으며 해당 데이터 유형을 동시에 처리할 수 있도록 지원한다.

하나의 모델에서 서로 다른 데이터 소스 간의 관계를 학습할 수 있는 만큼 각 데이터 유형의 정보를 상호 보완해 보다 정확하고 신뢰성 있는 예측을 제공할 수 있는 것이 특징이다.

또한 여러 유형의 데이터를 통합적으로 분석하는 과정에서 새로운 패턴이나 관계를 발견할 기회도 제공할 수 있다.

관련기사

특히 애플의 경우 아이폰과 아이패드를 비롯해 혼합현실(XR)서비스를 제공하는 비전프로를 선보이는 만큼 4M을 활용해 더욱 다채로운 사용자경험을 제공할 수 있을 전망이다.

애플의 데이비드 미즈라히 연구과학자 등 연구개발팀 “현재 컴퓨터비전을 위한 기계학습 모델은 매우 전문화된 대신 단일 모달리티와 작업에 한정돼 있다”며 “하지만 최근 대규모언어모델(LLM)은 다재다능한 모델의 가능성을 시사하고 있는 만큼 4M을 통해 이런 잠재력을 보여주는 것을 넘어 비전 외에 다양한 분야에서 멀티모달이 활용될 수 있는 기반을 마련하려 한다”고 논문을 통해 밝혔다.