"GPT-4 넘었다"…전기차 버린 애플, 생성형 AI 주도권 잡을 新무기 공개

대형멀티모달 MM1, VQA서 '제미나이' 추월…업계 "벤치마크 결과 무의미, 상용화 일러"

컴퓨팅입력 :2024/03/17 11:22    수정: 2024/03/17 16:06

애플이 최고 성능의 이미지-텍스트 멀티모달 모델을 깜짝 공개했다. 최근 마이크로소프트(MS), 구글 등 다른 빅테크에 비해 생성형 인공지능(AI) 경쟁에서 뒤처졌다는 평가를 받고 있는 만큼 이번 일로 실력을 얼마나 향상시킬 수 있을지 주목된다.

17일 업계에 따르면 애플 연구진은 최근 정교한 사전 훈련 과정을 거친 최대 매개변수 300억 개의 대형멀티모달(LMM) 'MM1'을 미국 코넬대 논문 저장 사이트 '아카이브(arXiv)'에 공개했다. 

이 모델은 이미지를 생성하지는 않지만, 300억 매개변수 모델로 이미지를 읽고 자연어로 설명하는 능력(VQA)에서 오픈AI 'GPT-4V'와 구글 '제미나이 울트라'를 일부 추월한 것으로 알려졌다.

팀 쿡 애플 CEO (사진=폭스뉴스 유튜브 영상 캡쳐)

연구진이 발표한 논문의 제목은 'MM1: 멀티모달 LLM 사전 교육의 방법, 분석 및 통찰력'이다. 연구진들은 고성능 LMM을 구축하기 위해 다양한 아키텍처의 구성과 학습용 데이터셋 선별 등을 집중 실험했다고 주장했다.

이를 통해 단일 모델이 아닌 사전 훈련을 통해 상황별로 SOTA(State-of-the-art, 현 최고 수준)를 기록한 모델 여럿을 구축하고, 이를 '전문가 혼합(MoE)' 방식으로 조합했다. 이를 통해 매개변수 30억 개(3B), 70억 개(7B), 300억 개(30B) 등 제품군을 구성했다.

연구진은 이미지 인코더와 비전-언어 커넥터, 다양한 사전 훈련 데이터 등을 채택하고 골라내는 과정에서 몇 가지 중요한 설계 교훈을 발견했다고 밝혔다.

연구진은 "이미지 해상도 및 이미지 토큰 수와 함께 이미지 인코더 선택이 상당히 중요한 반면, 비전 언어 커넥터 설계는 상대적으로 중요하지 않다는 것을 발견했다"며 "이미지 캡션, 인터리브 이미지 텍스트 및 텍스트 전용 데이터 등을 혼합하는 것도 벤치마크 최고 성능을 달성한 중요한 이유가 됐다"고 말했다.

아카이브에 애플 연구진이 올려 놓은 논문에서 MM1이 이미지를 읽고 답하는 내용 (사진=아카이브)

연구진은 이런 대규모 멀티모달 사전 훈련 덕분에 MM1이 컨텍스트 러닝(in-context learning), 다중 이미지 추론(multi-image reasoning), 퓨샷 CoT 프롬프트(few-shot chain-of-thought prompting) 등을 활용해 이미지를 이해하고 답하는 데 우수한 성능을 보인다고 설명했다.

예를 들면 ▲이미지 속에 등장하는 개체를 구분하고 각각의 숫자를 셀 수 있고 ▲이미지 속 간판이나 표시 등 텍스트를 정확하게 읽어낼 수 있을 뿐 아니라 ▲이미지 속 냉장고의 무게 등과 같은 사물에 대한 지식을 설명할 수 있으며 ▲이미지를 통한 기본적인 계산이 가능하다. 즉 단순 이미지 설명을 넘어 언어 기반의 이해와 생성이 필요한 복잡하고 개방형 문제를 해결할 수 있다는 의미다.

벤치마크에서는 MM1 3B와 7B 모델이 동급의 '라바(LLaVA)'나 '제미나이 나노', '큐원', 'GPT-4' 등 멀티모달 모델의 성능을 대부분 앞질렀다. 30B 모델은 매개변수가 각각 1조5천600억 개(1천560B)와 1조7천600억 개(1천760B)로 알려진 제미나이 울트라와 GPT-4와 맞먹거나 앞서는 성능을 보였다.

다만 일각에선 애플의 MM1 벤치마크 결과에 대해 회의적인 평가를 내놨다. 일부만 테스트해 발표된 논문이란 점에서 상용화되기엔 이르다는 판단이다.

업계 관계자는 "MM1의 VQA 벤치마크 결과는 무의미하다"며 "논문에서야 검증용으로 (벤치마크 결과가) 필요할 수 있으나, 실제 모델에 적용할 경우 결과값이 제대로 나타나지 않아 품질이 보장되지 않을 때가 많기 때문"이라고 지적했다.

또 다른 관계자는 "아카이브에 논문이 등재됐다는 것으로 상용화 시점을 가늠하기엔 어렵다"며 "LMM 벤치마크 데이터셋은 아직 LLM 대비 목적성이 아주 명확하지 못해 수치만 보고 성능을 가늠하기 더 어렵기도 한 만큼, 실제 어떤 서비스에 들어가는지가 더 중요할 듯 하다"고 밝혔다.

김동환 포티투마루 대표는 "일부 분절된 태스크(Task)만 평가돼 벤치마크 결과가 상용화 수준을 보여주지 못했다"며 "검색증강생성(RAG) 기술을 포함해 엔드-투-엔드(end-2-end)에 대한 평가가 더 필요할 듯 하다"고 말했다.

아카이브에 애플 연구진이 올려 놓은 논문에서 MM1이 이미지를 읽고 답하는 내용 (사진=아카이브)

해외에선 이번 연구를 두고 AI에 대한 애플의 발전을 보여주는 중요한 사례라고 평가했다. 또 애플이 생성형 AI 시장에서 뒤처졌다는 평가를 받고 있는 만큼 경쟁력을 얼마나 끌어올릴 수 있을지도 관심사다.

앞서 애플은 지난해 말부터 본격적으로 AI 연구 개발에 나서며 전용 칩에서 온디바이스 AI를 구축하는 프레임워크와 칩에서 AI를 구동하는 데 최적화한 기술을 선보인 바 있다. 또 지난해 10월 7B·13B 멀티모달 모델 '페렛'을 오픈 소스를 시작으로 최근까지 혁신적인 AI 논문을 계속 발표하고 있다.

애플은 올해 10억 달러(약 1조3천300억원)를 투자, 제품 전 라인업에 생성형 AI 도입을 시도하고 있다. 최근에는 기술력 보강을 위해 캐나다 AI 스타트업 다윈AI를 인수했다. 또 지난 10년간 추진해온 자율주행 전기차 프로젝트 '애플카'를 포기하고 2천 명에 달하는 직원을 AI 부서로 재배치한 것으로 전해졌다.

지난해 12월에는 애플의 AI 연구진이 생성형 AI에 관한 연구 논문 두 편을 발표하며 AI 추격전에 나섰다는 외신 보도가 나오기도 했다. 애플 연구진의 논문에 따르면 애플은 아이폰에서 구동되는 생성형 AI를 개발하는 데 초점을 맞춘 것으로 전해졌다.

관련기사

업계 관계자는 "애플의 MM1은 챗GPT, 라마처럼 최근 출시된 다른 AI 모델과 유사하긴 하지만, AI에 인간의 지각과 유사한 듯한 복잡성을 인식시켰다는 점에서 눈길을 끈다"며 "애플이 MM1을 공개하는 과정도 개방적 문화를 조성할 뿐 아니라 AI 연구의 협력적 발전을 위한 새로운 표준을 수립하는 것으로, 비밀주의를 유지했던 애플의 움직임에서 이번에 변화가 감지됐다는 점이 놀랍다"고 평가했다.

팀 쿡 애플 최고경영자(CEO)는 지난 2월 주주총회에서 "생성형 AI가 놀라운 돌파구가 될 수 있다"며 "여기에 상당한 투자를 진행 중으로, 연내 생성형 AI 관련 계획을 밝히겠다"고 말했다.