"AI혁신 선보일까" 애플, 자체 멀티모달 AI '4M' 공개

애플이 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 인식하고 변환할 수 있는 멀티모달 인공지능(AI)모델을 공개했다.

1일(현지시간) 벤처비트 등 외신에 따르면 애플은 멀티모달 AI '4M'의 공개 데모 버전을 허깅페이스 스페이스 플랫폼을 통해 선보였다.

4M은 대규모 멀티모달 마스크 모델링(Massively Multimodal Masked Modeling)의 약자로 다양한 모달리티의 콘텐츠를 처리하고 생성할 수 있는 AI 모델이다.

애플은 지난해 12월 스위스 연방 공과대학 로잔(EPFL)과 협력해 4M에 대한 개념을 소개하는 논문을 공개한 바 있다. 이후 7개월 만에 실제 AI모델이 오픈소스로 공개한 것이다.

허깅페이스 스페이스 플랫폼에 공개된 데모 버전은 4M에 활용된 멀티모달 마스킹 기법을 소개하기 위해 마련됐다.

멀티모달 마스킹은 여러 유형의 데이터에서 중요한 정보만 추출하기 위해 그 외의 정보를 의도적으로 숨기는 기법이다.

4M 데모버전에서는 이미지를 업로드하면 RPG, 심도, 메타데이터, 캡션 등 모달리티의 특성에 따라 마스킹 된 14종의 데이터를 확인할 수 있다.

개발자는 마스킹된 데이터 중 필요한 내용만 선택해 이미지에서 객체를 지정하거나 음성을 텍스트로 전환하는 등 다양한 멀티모달 AI 작업을 보다 간단하게 수행할 수 있다.

애플에 따르면 4M 정식 버전은 텍스트, 이미지, 비디오, 음성 등 다양한 멀티모달을 인식하기 위해 수십종의 마스킹 도구가 마련돼 있으며 해당 데이터 유형을 동시에 처리할 수 있도록 지원한다.

하나의 모델에서 서로 다른 데이터 소스 간의 관계를 학습할 수 있는 만큼 각 데이터 유형의 정보를 상호 보완해 보다 정확하고 신뢰성 있는 예측을 제공할 수 있는 것이 특징이다.

또한 여러 유형의 데이터를 통합적으로 분석하는 과정에서 새로운 패턴이나 관계를 발견할 기회도 제공할 수 있다.

관련기사