구글 딥마인드가 동영상 만드는 인공지능(AI) 모델 '비오(Veo) 2'를 발표한 가운데 복잡한 영상 생성 기능 미흡과 저작권 문제 해결이 시급하다는 지적을 받고 있다.
17일 테크크런치 등 외신에 따르면 구글 딥마인드는 기존 AI 기반 영상 생성 모델 비오 차기 모델을 출시했다. 현재 비오 2는 구글 영상 제작 플랫폼에 탑재됐다. 내년 개발자 플랫폼 버텍스 AI에도 공급될 예정이다.
비오 2는 최대 4K 해상도로 2분 이상 분량의 영상을 생성할 수 있다. 이는 오픈AI 영상 모델인 '소라'보다 우수한 기능이다. 소라는 해상도 1천80p와 20초 분량이 최대다.
다만 외신은 비오 2가 해당 분량의 영상을 생성할 수 있을지 의문이라고 했다. 현재 비오 2를 탑재한 구글 영상 제작툴 '비디오FX'는 해상도 720p로 8초 분량 동영상까지 만들 수 있어서다.
비오 2는 이전 모델과 마찬가지로 텍스트 프롬프트 또는 텍스트와 참조 이미지로 동영상을 생성한다. 딥마인드는 비오 2가 카메라 제어에 대한 이해도가 향상돼 더 선명한 영상을 생성한다고 밝혔다. 특히 움직임 많은 장면에서 텍스처와 이미지가 더 뚜렷해졌다는 설명이다.
이 외에도 비오 2는 동영상에서 가상 카메라를 더욱 정밀하게 조작할 수 있어 객체와 사람을 다양한 각도에서 인식할 수 있는 것으로 전해졌다. 움직임, 유체 동역학, 빛의 특성을 기존보다 사실적으로 재현할 수 있다는 평가다. 다양한 렌즈 효과와 영화적 기법, 미세한 인간 표정까지 구현 가능한 상태다.
외신 "비오 2 직접 이용해 보니…복잡한 영상 생성 미흡"
외신은 비오 2가 굴절이나 복잡한 액체 표현 등 까다로운 시각적 효과 생성에 강점을 보였다고 보도했다. 특히 픽사 스타일의 애니메이션 표현이 우수하다는 평가다. 그러나 모델 개선이 필요해 보인다고 입을 모았다.
테크크런치는 "강아지 캐릭터 눈이 지나치게 생기 없어 보이거나, 영상 속 도로가 비현실적으로 미끄러워 보이는 장면이 등장했다"며 "배경 속 보행자와 건물이 서로 섞이거나 물리적으로 불가능한 구조를 보이는 경우도 있었다"고 지적했다.
이에 딥마인드 엘린 콜린스 제품 부사장은 "비오 2는 몇 분 동안 프롬프트에 따라 일관된 동영상을 생성할 수 있지만, 복잡한 프롬프트를 긴 시간 동안 유지하는 데 한계가 있다"며 "캐릭터 일관성과 디테일, 복잡한 동작 생성 등에서 더 발전해야 한다"고 밝혔다.
"데이터 학습·저작권 문제 우려"…이마젠 3 업그레이드
외신은 비오 2의 학습 데이터 출처·저작권 문제 우려 가능성도 언급했다.
딥마인드는 구체적으로 어디서 영상 데이터를 가져왔는지 밝히지 않은 상태다. 다수 외신은 유튜브가 주요 데이터 출처일 가능성 있다고 분석했다. 현재 구글이 유튜브를 소유하고 있다는 이유에서다.
외신은 저작권 문제 우려도 여전하다고 평가했다. 앞서 딥마인드는 공개 데이터를 학습하는 것이 공정 이용(fair use)에 해당한다고 주장한 바 있다. 데이터 소유자 허가를 받지 않고 학습해도 된다는 설명이다. 그러나 창작자들은 이에 동의하지 않는다는 입장을 취하고 있다.
딥마인드는 딥페이크 방지를 위해 자체 워터마킹 기술인 신스(Synth)ID를 비오 2에 적용했다. 신스ID는 생성된 동영상 프레임에 보이지 않는 마커를 삽입하는 기술이다. AI가 생성한 콘텐츠를 추적할 수 있다. 다만 다른 워터마킹 기술처럼 완벽한 방지가 어렵다는 지적도 이어지고 있다.
이날 딥마인드는 이미지 생성 모델 '이마젠 3' 업그레이드 버전도 발표했다. 새 이마젠 3 모델은 구글의 이미지 생성 도구인 '이미지FX'를 통해 제공된다.
관련기사
- 워크데이, 내년 상반기 HR 관리자용 '일루미네이트' 공개2024.12.16
- 삼성전자, 전경훈 사장 등 5명 美 IEEE 펠로우 선정..."5G·AI 선도"2024.12.17
- "中 폴더블폰 시장 내년 8% 성장…AI폰 비중 40%"2024.12.17
- 中 BYD, 초거대 모델 등 AI 개발 센터 설립2024.12.17
이마젠 3는 포토리얼리즘과 인상주의, 애니메이션 스타일 등 다양한 스타일로 더 밝고 잘 구성된 이미지를 생성할 수 있다. 디테일과 텍스처를 풍부하게 표현할 수 있는 것으로 평가받고 있다.
딥마인드는 "이번 업그레이드 모델은 프롬프트 입력 시 칩렛를 통해 주요 키워드를 강조하고 연관된 단어를 자동 제안함으로써 사용자 편의성을 높였다"고 강조했다.