알리바바, AI 경량 모델 오픈소스 공개…에이전트 사업 확장

음성·영상·텍스트 통합 처리…엣지 디바이스 최적화로 실용성 높여

컴퓨팅입력 :2025/03/31 14:43

김미정 기자 기자 페이지 구독 기자의 다른기사 보기

알리바바그룹이 새 멀티모달 인공지능(AI) 모델을 출시해 통합형 AI 에이전트 사업 확장에 나섰다.

알리바바클라우드는 자사 큐원 시리즈의 통합 엔드투엔드 멀티모달 모델인 '큐원2.5-옴니-7B'를 오픈소스로 공개했다고 31일 밝혔다. 이 모델은 70억 파라미터로 구성된 경량형 모델이지만 성능 저하 없이 다양한 작업을 수행할 수 있다는 평가를 받고 있다.

큐원2.5-옴니-7B는 실시간 음성 생성을 비롯한 명령어 이행, 영상 분석 등에서 산업별 AI 활용 사례를 확장할 수 있는 기반을 제공한다. 예를 들어 시각 장애인을 위한 음성 내비게이션, 영상 기반 요리 가이드, 지능형 고객응대 시스템 등에 적용 가능하다.

알리바바클라우드는 자사 큐원 시리즈의 통합 엔드투엔드 멀티모달 모델인 '큐원2.5-옴니-7B'를 오픈소스로 공개했다. (사진=알리바바그룹)

해당 모델은 텍스트 생성과 음성 합성을 분리한 '싱커-토커 아키텍처'와 모달 간 동기화를 위한 시간 정렬 멀티모달 로프 임베딩(TMRoPE), 저지연 스트리밍 응답을 위한 블록와이즈 처리 구조로 이뤄졌다.

모델은 이미지-텍스트, 영상-음성, 음성-텍스트 등 여러 조합의 데이터셋 기반으로 사전학습돼 멀티모달 태스크가 가능하다. 알리바바클라우드는 이 모델이 텍스트 기반 성능에 근접하는 수준의 정밀도를 유지하면서도 다양한 모달을 통합해 해석할 수 있다고 주장했다.

또 상황 기반 음성 이해 능력을 강화한 인컨텍스트 러닝을 통해 자연스러운 응답 흐름을 구현했다. 강화학습 기반 최적화 과정에서 발음 오류, 음성 중단 등 문제를 최소화했다.

관련기사

알리바바클라우드는 이 모델을 허깅페이스와 깃허브, 모델스코프 등에 공개했다. 큐원챗에도 모델을 통합한 상태다.

알리바바클라우드는 "큐원2.5-옴니는 단일 모달 모델과 비교해도 뒤처지지 않는 성능을 보인다"며 "특히 윰니벤치 평가에서는 최고 수준의 결과를 기록했다"고 강조했다.

김미정 기자notyetkim@zdnet.co.kr

기자의 다른 기사 보기

알리바바 알리바바클라우드 큐원 AI 인공지능 오픈소스

지금 뜨는 기사

이시각 헤드라인

마이크론, 메모리 장기계약 비중 확대...삼성·SK도 성장 구도 바뀐다

삼성전자 "3년 안에 AI 모듈러 홈 1만채 판매 목표"

퀄컴, AI 데이터센터 청사진 공개..."전용 CPU 2028년 출시"

"전남광주 반도체 패키징, '유리급 기판'도 선택지"

ZDNet Power Center