알리바바, AI 영상 생성 모델 시리즈 '완 2.2' 공개

알리바바가 영상 콘텐츠를 정교하고 효율적으로 제작할 수 있는 모델 시리즈를 공개했다.

알리바바클라우드는 혼합 전문가(MoE) 구조를 적용한 오픈소스 시네마틱 영상 생성 모델 시리즈 '완 2.2를 출시했다고 30일 밝혔다. 텍스트·이미지 입력을 통합 지원하는 영상 생성 프레임워크다.

이번 시리즈는 텍스트 기반 '완 2.2-T2V-A14B', 이미지 기반 '완 2.2-I2V-A14B', 하이브리드형 '완 2.2-TI2V-5B'까지 총 세 가지 모델로 구성됐다.

알리바바가 영상 콘텐츠를 정교하고 효율적으로 제작할 수 있는 모델 시리즈를 공개했다. (사진=이미지투데이)

특히 완 2.2-T2V-A14B와 I2V-A14B 모델은 MoE 아키텍처와 미적 데이터를 기반으로 조명, 색조, 구도, 카메라 앵글 등 다양한 시각 요소를 세밀하게 제어할 수 있도록 설계됐다. 인물의 표정과 손 동작, 스포츠 동작 등 복잡한 움직임을 사실적으로 묘사하며, 물리 법칙을 반영한 장면 구성까지 가능하다.

알리바바클라우드는 영상 생성 시 발생하는 연산 부담을 줄이기 위해 '고노이즈 전문가'와 '저노이즈 전문가' 구조를 두 모델에 도입했다. 각 스텝에서 270억 개 중 140억 개 파라미터만 활성화돼 연산량을 최대 50%까지 절감할 수 있다.

완 2.2는 시네마틱 프롬프트 시스템을 도입해 조명, 구도, 색감 같은 요소를 조정할 수 있다. 완 2.1 대비 이미지 학습 데이터는 65.6%, 영상 데이터는 83.2% 이상 확대돼 복잡한 장면에도 강한 표현력을 보인다는 평을 받았다.