알리바바가 사용자 모습·목소리로 영화까지 만들 수 있는 생성형 인공지능(AI) 모델을 내놔 비주얼 콘텐츠 생태계를 넓혔다.
알리바바클라우드는 비주얼 생성 모델의 최신 버전인 '완 2.6' 시리즈를 공개했다고 17일 밝혔다. 이번 시리즈는 크리에이터가 자신의 외형과 음성을 AI 영상에 직접 반영하고, 다중 장면을 연결해 유연한 스토리텔링을 할 수 있도록 지원하는 점이 특징이다.
이번 모델 핵심은 '완2.6-참조 기반 영상 생성(R2V)'모델이다. 사용자가 캐릭터의 외모와 목소리가 담긴 참조 영상을 올리고 텍스트 명령어를 입력하면, 해당 캐릭터가 주인공으로 등장하는 새로운 장면을 생동감 있게 만드는 식이다.
이는 중국 첫 R2V 모델로, 단일 인물뿐 아니라 동물이나 사물 등 복수 주체도 동시 구현 가능하다. 특히 원본 영상의 고유한 시각적 특징과 음성을 일관되게 유지해 숏폼 드라마 제작 등 콘텐츠 창작의 효율성을 크게 높였다는 평가도 받고 있다.
완 2.6은 영상 출력 시간은 최대 15초로 늘어나 서사를 더 확장된 구조로 전개할 수 있다. 지능형 멀티샷 기능을 통해 영상 전반의 시각적 통일성을 해치지 않으면서도 오디오와 시각적 요소가 정교하게 동기화된 사실적인 장면 연출을 지원한다.
관련기사
- AWS-세일즈포스, AI 동맹 강화…'에이전트포스 360 포 AWS' 공개2025.12.17
- 한싹, 군수지원 'AI 소요산정' 완성…전군 최초 육군 적용2025.12.17
- [신간] AI 시대의 생존 게임 주권인가 종속인가2025.12.17
- "대전에 2028년까지 고성능 AI GPU 거점센터 구축"2025.12.17
해당 모델은 이미지 생성 영역에서도 텍스트와 이미지를 교차 출력하는 고급 논리 추론 기술을 갖췄다. 이에 복잡한 언어의 뉘앙스를 반영할 수 있다. 사용자는 알리바바클라우드의 '모델스튜디오'와 공식 웹사이트를 통해 해당 모델을 이용할 수 있다. 향후 알리바바의 AI 앱 '큐원'에도 탑재될 예정이다.
알리바바클라우드는 "올해 초 처음 공개된 완 시리즈는 지속적인 업그레이드를 거쳐왔다"며 "이번 2.6 버전은 AI 기반 멀티미디어 기술 분야에서의 리더십과 혁신 역량을 보여주는 사례"라고 설명했다.











