AI로 영상을 만들 때 이제는 복잡한 설명 대신 간단하게 할 수 있다. 화면에 선을 그어서 움직임을 보여주고, 넣고 싶은 사람이나 동물 사진을 넣고, "공 잡는다" 같은 짧은 설명만 쓰면 된다. 중국 앤트그룹과 홍콩과기대 연구팀이 만든 '월드캔버스(WorldCanvas)'는 사용자가 원하는 영상을 직접 제어할 수 있는 새로운 AI 프레임워크다.

말로만 하면 AI가 헷갈린다... 그림·사진·글 함께 써야

기존 이미지-투-비디오 생성 모델들은 "자동차가 급정거한다"처럼 글로만 설명을 받았다. 하지만 정확히 언제, 어디서, 얼마나 빨리 멈추는지는 글만으로는 알려주기 어렵다.

월드캔버스는 세 가지 방법을 조합해서 이 문제를 해결했다. 첫째, 궤적으로 '언제'와 '어디서'를 정한다. 선 위의 점 위치는 움직이는 길을, 점 간격은 속도를, 점이 보이고 안 보이는 정보는 가려지거나 화면 밖으로 나가고 들어오는 것을 나타낸다. 둘째, 참조 이미지로 '누가' 나올지 정해서 나오는 대상의 생김새와 정체성을 시각적으로 정의한다. 셋째, 텍스트로 '무엇을' 하는지 설명해서 상호작용, 목표, 인과 구조 같은 이벤트의 이야기를 제공한다.

연구팀은 기존 방식의 세 가지 문제를 지적했다. 전체 영상을 설명하는 하나의 글로는 여러 대상이 각자 다른 행동을 할 때 특정 설명을 특정 궤적과 연결할 방법이 없다. 궤적을 단순한 좌표 나열로만 처리해서 타이밍, 속도, 가시성 정보를 잃어버린다. 참조 이미지를 직관적으로 영상에 통합하는 강력한 메커니즘이 부족하다.

28만 개 영상으로 연습... 색깔로 누가 뭘 하는지 구분

연구팀은 AI를 가르치기 위해 28만 개의 특별한 영상 자료를 만들었다. 공개된 영상들을 모은 다음, 장면이 바뀌는 부분마다 잘라서 분석했다. 영상에서 사람이나 물건을 자동으로 찾아내고, 영상 전체에서 어떻게 움직이는지 따라갔다. 영상을 임의로 잘라내서 물건이 화면 밖에 있다가 갑자기 들어오는 상황도 만들어서 연습시켰다.

중요한 건 움직임을 설명하는 글을 만드는 방법이다. 움직이는 것마다 다른 색깔 선으로 표시한 영상을 만들었다. 같은 물건의 모든 선은 같은 색으로 칠했다. 이 색깔 영상을 최신 AI에게 보여주고 각 색깔 선이 뭘 하는지 자세히 설명하라고 했다. 색깔이 영상과 글 사이의 다리 역할을 해서 누가 뭘 하는지 명확하게 구분할 수 있었다. 사진은 첫 장면에 나오는 사람이나 물건을 조금 돌리거나 크기를 바꾼 버전들을 여러 개 만들었다. 나중에 사용자가 사진을 자유롭게 조절할 수 있게 하려고 이렇게 했다.

여러 명 동시에 움직여도 안 헷갈리는 기술

월드캔버스의 핵심은 화면의 특정 부분과 그 부분을 설명하는 글을 정확히 연결해주는 기술이다. 예를 들어 "앞 소녀가 운다"와 "뒤 소녀가 앉는다" 두 가지 설명이 있을 때, AI는 화면 앞쪽에서 우는 장면과 "앞 소녀가 운다"를 연결하고, 뒤쪽에서 앉는 장면과 "뒤 소녀가 앉는다"를 연결해야 한다. 월드캔버스는 각 선이 지나가는 화면 영역과 그 선을 설명하는 글의 연결을 약 30배 강하게 만든다. 그래서 헷갈리지 않고 정확히 누가 뭘 하는지 만들어낼 수 있다.

기존 AI보다 훨씬 정확해졌다

연구팀은 100개 테스트로 성능을 비교했다. 월드캔버스는 사용자가 그린 선과 AI가 만든 영상의 움직임이 가장 비슷했다. 나와야 할 타이밍에 정확히 나타나는 비율도 85.17%로 가장 높았다. 실제 만든 영상을 보면 더 확실하다. 노인이 자동차를 보고 뒤로 물러나고 차가 급정거하는 장면, 남자가 문 열고 나와서 인사하고 불 끄는 장면, 남자가 북극곰 타고 가는데 하늘에서 금색 용이 날아가는 장면을 정확하게 만들었다.

앞 소녀가 울면서 눈물 닦고, 뒤 소녀가 쪼그려 앉아 손 드는 복잡한 장면도 정확했다. 고양이가 들어와 골대로 가고, 개가 들어와 골대로 가는 장면도 각각 구분해서 만들었다. 기존 AI들은 이런 복잡한 장면에서 행동이 뒤바뀌거나 한 개체만 만들거나 설명을 제대로 반영하지 못했다.

화면 밖 나갔다 와도 똑같은 모습 유지

월드캔버스는 특별한 능력이 있다. 무언가가 화면 밖으로 나갔다가 다시 들어와도 똑같은 모습을 유지한다. 농구공이 튀다가 화면 밖으로 나갔다가 다시 들어올 때, 여자가 웃다가 화면 밖으로 나갔다가 다시 들어올 때, 강아지가 카메라 쪽으로 와서 안 보이다가 카메라가 아래로 내려가서 다시 보일 때 모두 똑같다.

더 신기한 건 원인과 결과를 이해한다는 것이다. 도미노 하나를 쓰러뜨리면 옆의 도미노들이 차례대로 쓰러진다. 불붙은 횃불을 종이에 대면 종이가 탄다. 음료병을 넘어뜨리면 액체가 흘러나온다. 책을 당기면 위에 놓인 컵이 함께 움직인다. 이런 걸 모두 제대로 만들어냈다. 현실에서는 불가능한 장면도 만들 수 있다. 상어가 모래에서 점프하고 들어가고 다시 나오는 장면, 강아지가 날개가 생겨 하늘로 날아가는 장면도 만들었다.

사람들이 직접 평가한 결과도 1등

15명(연구자, 예술가, 일반인)에게 여러 AI가 만든 영상을 보여주고 투표하게 했다. 월드캔버스가 모든 항목에서 1위를 했다. "그린 선대로 움직이나요?" 75.33%, "설명한 대로 만들어지나요?" 73.67%, "여러 명이 동시에 움직일 때 각자 행동을 구분하나요?" 89.00%, "넣은 사진과 똑같이 생겼나요?" 92.67%, "영상 품질이 좋나요?" 69.33%로 모두 압도적 1위였다. 다른 AI들은 대부분 10% 이하였다. 핵심 기술을 빼고 테스트하면 점수가 떨어졌다. 실제로 여러 명이 각자 다른 행동을 할 때 누가 뭘 하는지 뒤바뀌거나 일부가 빠지는 문제가 생겼다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 월드캔버스는 어떻게 사용하나요?

A: 화면에 선을 그어서 어떻게 움직일지 보여주고, 나오게 하고 싶은 사람이나 동물 사진을 넣고, "공 잡는다" 같은 짧은 설명을 쓰면 됩니다. 선을 촘촘하게 그으면 천천히, 듬성듬성 그으면 빠르게 움직입니다.

Q2. 기존 AI 영상 제작과 뭐가 다른가요?

A: 기존에는 "강아지가 공을 잡는다"라고 글로만 썼다면, 월드캔버스는 강아지가 움직일 길을 선으로 직접 그어주고, 원하는 강아지 사진을 넣고, "점프해서 공 잡는다"고 설명합니다. 훨씬 정확하게 원하는 대로 만들 수 있습니다.

Q3. 어디에 쓸 수 있나요?

A: 영화나 드라마 만들 때 미리 장면을 만들어보거나, 게임 만들기, 교육용 영상, 광고 영상 등에 쓸 수 있습니다. 복잡한 장비 없이 컴퓨터로 바로 만들 수 있어서 시간과 돈을 아낄 수 있습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)