알리바바, AI 영상 생성 모델 시리즈 '완 2.2' 공개

텍스트·이미지·하이브리드 모델 구성…허깅페이스·깃허브·모델스코프 배포

컴퓨팅입력 :2025/07/30 09:53

알리바바가 영상 콘텐츠를 정교하고 효율적으로 제작할 수 있는 모델 시리즈를 공개했다. 

알리바바클라우드는 혼합 전문가(MoE) 구조를 적용한 오픈소스 시네마틱 영상 생성 모델 시리즈 '완 2.2를 출시했다고 30일 밝혔다. 텍스트·이미지 입력을 통합 지원하는 영상 생성 프레임워크다. 

이번 시리즈는 텍스트 기반 '완 2.2-T2V-A14B', 이미지 기반 '완 2.2-I2V-A14B', 하이브리드형 '완 2.2-TI2V-5B'까지 총 세 가지 모델로 구성됐다. 

알리바바가 영상 콘텐츠를 정교하고 효율적으로 제작할 수 있는 모델 시리즈를 공개했다. (사진=이미지투데이)

특히 완 2.2-T2V-A14B와 I2V-A14B 모델은 MoE 아키텍처와 미적 데이터를 기반으로 조명, 색조, 구도, 카메라 앵글 등 다양한 시각 요소를 세밀하게 제어할 수 있도록 설계됐다. 인물의 표정과 손 동작, 스포츠 동작 등 복잡한 움직임을 사실적으로 묘사하며, 물리 법칙을 반영한 장면 구성까지 가능하다.

알리바바클라우드는 영상 생성 시 발생하는 연산 부담을 줄이기 위해 '고노이즈 전문가'와 '저노이즈 전문가' 구조를 두 모델에 도입했다. 각 스텝에서 270억 개 중 140억 개 파라미터만 활성화돼 연산량을 최대 50%까지 절감할 수 있다.  

완 2.2는 시네마틱 프롬프트 시스템을 도입해 조명, 구도, 색감 같은 요소를 조정할 수 있다. 완 2.1 대비 이미지 학습 데이터는 65.6%, 영상 데이터는 83.2% 이상 확대돼 복잡한 장면에도 강한 표현력을 보인다는 평을 받았다.

관련기사

하이브리드 모델 완 2.2-TI2V-5B는 3차원 변분 오토인코더(VAE) 구조를 적용해 시간과 공간 정보를 고압축해 전체 압축률 64배를 구현했다. 이를 통해 일반 소비자용 그래픽카드 환경에서도 수 분 이내에 5초 분량의 720p 영상 생성이 가능하다.

해당 모델은 현재 허깅페이스와 깃허브, 모델스코프 등 글로벌 오픈소스 커뮤니티를 통해 무료 배포되고 있다. 누구나 다운로드해 활용할 수 있다.