中 콰이서우, 오픈AI '소라' 대적할 AI 영상 생성 기술 출시

'텍스트투이미지' 등 다양한 이미지 생성 기능 서비스

인터넷입력 :2024/06/07 09:08

중국 동영상 플랫폼 콰이서우가 미국 오픈AI의 '소라'에 대적하겠다며 초거대 인공지능(AI) 모델을 기반 이미지 생성 기술을 발표했다. 소라는 명령어를 입력하면 1분 분량의 영상을 만들어주는 AI 서비스다.

6일 중국 언론 IT즈자에 따르면 콰이서우는 '텍스트투이미지', '이미지투이미지' 기능을 제공하는 AI 초거대 모델 '칼라스(KOLORS, 중국어명 可灵)'를 발표하고 공식 홈페이지와 위챗 등을 통해 서비스한다고 밝혔다.

칼라스는 텍스트 입력을 통해 1080P의 2분 길이(30fps) 영상을 생성할 수 있으며 화면 비율을 자유롭게 조정할 수 있다.

칼라스 홈페이지 (사진=콰이서우)
칼라스 생성 영상 이미지 (사진=콰이서우 영상, IT즈자)

유화, 컴퓨터그래픽, 핸드페인팅, 중국 판화, 3D 등 다양한 이미지 스타일 제작과, 8K의 고화질 이미지 생성을 지원한다는 게 콰이서우의 설명이다.

주요 기능은 '텍스트투이미지' 기능으로, 텍스트를 입력하면 다양한 스타일과 높은 화질을 갖춘 이미지를 생성한다. 입력된 테스트를 토대로 다양한 스타일의 이미지를 생성해주며 사용자가 참조 이미지를 업로드할 수도 있다. 이미지의 스타일, 테마, 세부 사항을 기반으로 새 작품을 생성한다.

'AI 이미지 커스터마이징' 기능은, 사용자가 인물 사진을 업로드하면 다양한 가상 이미지로 만들어주는 것이다. 일명 '인물 보존 기술'을 이용해 인물의 자연스러운 특성을 유지하면서 다양한 스타일의 인물 이미지를 생성해주는 것이다.

콰이서우는 "칼라스 초거대 모델은, 콰이서우의 AI팀이 자체 개발했으며, 소라와 유사한 기술 노선을 채택하면서 여러 자체 개발 기술 혁신을 결합해 소라에 맞대결 할 것"이라고 전했다.

콰이서우에 따르면, 칼라스의 초거대 모델 매개변수 규모는 10억 개 수준으로, 오픈소스 커뮤니티 소스 및 자체 AI 기술을 더했다. 텍스트투이미지 기능의 긴 텍스트와 복잡한 의미의 텍스트 입력을 위해 강화학습보상모델기술(RLHF)도 적용했다.

관련기사

매체에 따르면 콰이서우는 칼라스 초거대 모델에 더 많은 기능이 구현하고, 표정과 신체 움직임이 동시에 구현되는 새로운 'AI 노래와 춤' 서비스도 출시할 예정이다. 한 장의 사진만 있으면, 노래하고 춤추는 영상을 얻을 수 있는 기능이다.

콰이서우는 지난해 연말 기준 평균 월 활성 사용자 수가 7억 명을 넘어선 중국의 주요 영상 플랫폼이다.