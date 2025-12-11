"현재 인터넷에서 생성되는 콘텐츠의 약 50%를 인공지능(AI)이 만들고 있습니다. 알리바바클라우드는 영상 생성 AI 모델 '완 2.5'를 통해 누구나 합리적인 비용으로 고품질의 비디오와 이미지를 제작할 수 있는 환경을 지원합니다."

알리바바클라우드 임종진 테크 리드는 11일 서울 중구 신라호텔에서 열린 'AI & 클라우드 컨퍼런스 2025(ACC 2025)'에서 자사의 최신 AI 영상 모델(VLM)인 '완 2.5 프리뷰(Wan 2.5-Preview)'를 소개하며 이같이 강조했다.

알리바바클라우드 임종진 테크 리드. (사진=진성우 기자)

임 리드는 이번 발표에 앞서 알리바바그룹의 대규모 투자를 언급했다. 그는 "에디 우 알리바바클라우드 회장이 올해 초 향후 3년 간 AI와 인프라 리소스에 75조원을 투자하겠다고 밝혔다"며 "이 중심에 비디오 파운데이션 모델 '통이(Tongyi)'가 있다"고 설명했다. 이어 "통이 2.6 모델은 이르면 차주 중 공개될 것으로 예상한다"고 덧붙였다.

임 리드는 이날 발표의 핵심인 '완 2.5 프리뷰' 모델의 강력한 멀티모달 기능을 시연했다. 그는 "완 2.5는 텍스트·이미지·오디오·비디오 등의 입·출력을 모두 지원하는 네이티브 다중 모델 프레임워크"라며 "모델 학습 단계에서는 인간 피드백 기반 강화 학습(RLHF)라는 아키텍처를 채택해 자연스러운 결과물을 만들어낸다"고 소개했다.

임 리드가 '완 2.5 프리뷰'로 제작한 영상을 선보이고 있다. (영상=진성우 기자)

특히 영상과 음향의 정교한 동기화 기능이 주목받았다. 임 리드는 "탁구공이 튀는 소리나 스키를 탈 때 얼음이 갈리는 소리까지 영상과 거의 정확히 일치시킬 수 있다"며 "한국어 립싱크 또한 어색함 없이 구현 가능하다"고 설명했다.

기존 이미지 생성 AI의 고질적인 문제였던 '텍스트 렌더링' 능력도 대폭 개선됐다. 임 리드는 "한글이나 영어 텍스트가 깨지지 않고 정확하게 생성된다"며 "복잡한 시스템 아키텍처 다이어그램이나 플로우 차트까지 전문가급으로 그려낼 수 있어 업무 활용도가 높다"고 강조했다.

임 리드는 경쟁사 대비 압도적인 '가성비'를 완 모델의 최대 강점으로 꼽았다. 그는 "720p 해상도의 10초 영상을 생성할 때 경쟁사 모델들은 약 3~5달러가 소요되지만, 완 2.5는 단 1달러면 충분하다"며 "대량의 콘텐츠를 발주하면 추가 할인이 제공될 수 있어 비용 절감에 크게 도움될 것"이라고 자신했다.

임 리드가 자사 AI 모델에 대해 설명하고 있다. (사진=진성우 기자)

기업 실무자를 위한 구체적인 활용 팁도 제시했다. 임 리드는 "단순한 명령어보다는 조명·카메라 구도·렌즈 종류 등 구체적인 '힌트'를 프롬프트에 포함해야 고품질의 결과물을 얻을 수 있다"고 조언했다.

관련기사

아울러 자사에서 완 모델로 제작한 영상과 이에 활용된 프롬프트를 예시로 정리한 자료도 공유했다.

임 리드는 "완 2.5 프리뷰는 현재 웹사이트와 API를 통해 바로 사용할 수 있다"며 "알리바바클라우드의 AI 솔루션을 통해 기업들이 비즈니스 혁신을 이루길 바란다"고 밝혔다.