구글, '젬마 4 12B' 출시…"음성·이미지 처리 간소화"

구글이 이미지·음성 같은 멀티모달 작업을 노트북에서 처리할 수 있는 경량 인공지능(AI) 모델을 내놨다.

구글은 3일(현지시간) 최신 모델 '젬마 4 12B'를 공식 홈페이지를 통해 공개했다. 이 모델은 엣지 친화형 모델과 고성능 전문가 혼합 모델 사이 간극을 메우기 위해 설계됐다.

젬마 4 12B는 표준 벤치마크에서 전문가 혼합 모델에 가까운 성능을 낸 것으로 나타났다. 메모리 사용량을 절반 이하로 줄여 16GB급 그래픽메모리(VRAM)나 통합 메모리를 갖춘 일반 노트북에서도 기기 안에서 실행할 수 있도록 했다.

해당 모델은 다단계 추론과 에이전틱 워크플로도 지원한다. 구글은 이를 통해 사용자가 자신의 기기에서 강력한 멀티모달과 에이전틱 경험을 구현할 수 있다고 강조했다.

구글은 젬마 4 12B가 기존 멀티모달 AI의 복잡한 처리 과정을 줄였다고 설명했다. 기존 모델은 이미지나 음성을 먼저 별도 인코더로 해석한 뒤 언어 모델에 넘겼지만, 젬마 4 12B는 이 중간 단계를 생략한 구조로 이뤄져서다.

이미지 처리 방식도 단순화했다. 기존처럼 무거운 비전 인코더가 이미지를 따로 분석하는 대신 가벼운 변환 장치만 거쳐 언어 모델 본체가 시각 정보를 직접 처리하도록 했다.

음성 처리 방식은 더 간단하다. 구글은 별도 오디오 인코더를 없애고, 음성 신호를 언어 모델이 다룰 수 있는 형태로 바로 바꿔 입력하도록 설계했다고 설명했다.

젬마 4 12B는 아파치 2.0 라이선스로 공개됐다. 개발자 생태계 전반의 지원을 받을 수 있도록 했으며 지연 시간을 줄이기 위한 멀티토큰 예측 드래프터도 탑재했다.

관련기사