알리바바, 오픈소스 '완2.1' 출시…글로벌 AI 영상 시장 '공략'

V벤치 리더보드 1위 기록…고품질 영상 모델 공개로 AI 시장 주도권 확보

컴퓨팅입력 :2025/02/27 17:03

알리바바 클라우드가 인공지능(AI) 영상 생성 모델을 오픈소스로 공개해 기술 개방성을 강화한다. 브랜드 이미지를 제고하는 동시에 자사 클라우드 플랫폼의 글로벌 활용을 확대하려는 조치다.

알리바바 클라우드는 비디오 파운데이션 모델 '통이 완샹(Tongyi Wanxiang)'의 최신 버전인 '완2.1(Wan2.1)'의 140억 및 13억 패러미터 모델 4종을 출시했다고 27일 밝혔다. 해당 모델은 AI 모델 커뮤니티인 '모델스코프(ModelScope)'와 프랑스의 오픈소스 AI 플랫폼 '허깅페이스(Hugging Face)'에서 다운로드할 수 있다.

이번에 공개된 모델은 ▲T2V-14B ▲T2V-1.3B ▲I2V-14B-720P ▲I2V-14B-480P 등 4종으로 텍스트와 이미지 입력을 기반으로 고품질의 영상과 이미지를 생성하도록 설계됐다. 특히 'T2V-14B' 모델은 복잡한 동작이 포함된 고품질 영상 생성에 특화돼 있으며 'T2V-1.3B' 모델은 연산 효율성과 생성 품질의 균형을 맞춰 연구 및 개발을 위한 최적의 솔루션을 제공한다.

알리바바 '큐원'으로 생성된 AI 이미지 (사진=알리바바 클라우드)

'Wan2.1' 시리즈는 텍스트 효과를 지원하는 최초의 AI 영상 생성 모델로, 픽셀 품질을 향상시키고 물리적 원칙을 준수하며 명령 수행 정확도를 최적화하는 데 강점을 지닌다. 이러한 성능을 바탕으로 영상 생성 AI 모델의 종합 벤치마크인 'V벤치' 리더보드에서 종합 점수 86.22%를 기록하며 1위를 차지했다. 또 허깅페이스의 'V벤치' 리더보드 상위 5개 모델 중 유일한 오픈소스 모델로 자리매김했다.

'T2V-1.3B' 모델은 일반적인 개인용 노트북에서도 480p 해상도의 5초 길이 영상을 약 4분 만에 생성할 수 있다. 이를 통해 연구자 및 개발자들이 보다 쉽고 효율적으로 AI 영상 생성 모델을 활용할 수 있는 환경이 조성될 것으로 기대된다.

또 'I2V-14B-720P' 및 'I2V-14B-480P' 모델은 이미지 기반 영상 생성 기능까지 지원한다. 사용자는 한 장의 이미지와 간단한 텍스트 설명만 입력하면 역동적인 영상 콘텐츠를 제작할 수 있으며 특정 크기 제한 없이 다양한 해상도의 이미지를 정상적으로 처리할 수 있다.

관련기사

알리바바 클라우드는 AI 모델을 오픈소스로 공개한 최초의 글로벌 테크 기업 중 하나다. 지난해 8월에는 자체 개발한 대규모 AI 모델 '큐원(Qwen-7B)'을 첫 공개했으며 이후 허깅페이스의 오픈 LLM 리더보드에서 지속적으로 상위권을 유지하고 있다. 현재까지 큐원을 기반으로 개발된 파생 모델이 10만 개를 넘어서며, 세계 최대 규모의 AI 모델군 중 하나로 자리 잡았다.

알리바바 클라우드 관계자는 "영상 생성 AI 모델을 훈련에는 막대한 컴퓨팅 자원과 대량의 고품질 학습 데이터가 요구된다"며 "이번 모델의 오픈소스 개방은 AI 활용의 장벽을 낮추어 보다 효율적이고 경제적으로 고품질 영상 콘텐츠를 제작을 가능하게 할 것으로 기대된다"고 밝혔다.