포바이포-롯데홈쇼핑, 대역 없는 ‘진짜 가상인간’ 만든다

대역 모델 없이 자동으로 생성되는 얼굴과 목소리, 실제 사람 같은 움직임, 챗GPT 기반으로 인간 개입 없이 대화까지 가능한 '진짜' 가상인간이 제작된다.

비주얼 테크 솔루션 기업 포바이포(대표 윤준호)는 롯데홈쇼핑과 픽셀 AI기반 버추얼휴먼(가상인간) 실감화 프로젝트를 위한 계약을 체결했다고 6일 밝혔다. 이번 계약은 포바이포가 지난 2021년부터 롯데홈쇼핑과 함께 제작, 운영해온 버추얼휴먼 '루시'를 더욱 정교하고 자연스럽게 진화시키기 위한 계획의 일환이다.

루시는 현재 수만장의 데이터를 딥러닝 AI로 학습, 이를 컴퓨터 그래픽으로 정교하게 합성하는 방식으로 구현되고 있다. 지속적으로 팬들과 소통하며 실시간으로 라이브 커머스 방송을 진행하는 버추얼휴먼 중 한 명이다.

이번 계약은 '100% 자동화된 루시' 만들기의 첫 번째 단계로 '루시의 자연스러운 목소리, 말과 어울리는 얼굴 표정 합성 및 변환 솔루션 개발'을 골자로 하고 있다. 해당 프로젝트는 포바이포의 자체 영상 화질 고도화 AI솔루션 '픽셀'을 연구, 개발한 '픽셀 사업부문'에서 담당하게 된다.

픽셀 사업부문은 영상 개선 AI 픽셀을 개발하고 고도화하는 과정에서 쌓은 노하우를 기반으로 목소리와 말에 어울리는 표정을 자연스럽게 합성하고 변환하는 AI 솔루션을 개발해 적용한다. 특히 버추얼휴먼이 목소리를 표현하는 순간 가장 어색함을 느낄 수 있는 '입 모양 싱크'와 '단어에 어울리지 않는 얼굴 표정' 등을 기존 보유하고 있는 영상 고도화 AI를 활용해 더욱 정교하게 표현, 개선할 수 있을 것으로 기대하고 있다.

루시의 목소리 솔루션 개발이 완료되면 '글자를 입력하여 말하게 하는 방식(TTS, Text to Speech)', '실시간으로 들리는 말소리를 루시 목소리로 바꾸는 방식(Real time-STS, speech to speech)등이 모두 가능해진다. 어떤 상황에서도 루시의 음성 정체성을 일정하게 유지할 수 있게 될 뿐만 아니라 대역 모델 변경 리스크 등으로부터 자유로워질 수 있게 된다.

또 이번 프로젝트는 조만간 대역 모델 없이 '몸의 움직임'을 구현하는 단계까지 확장될 예정이다. 루시의 수많은 움직임을 모션 캡처 방식으로 미리 촬영해두고 이 움직임을 AI가 학습하게 하면 어떤 상황이든 그에 어울리는 동작을 취할 수 있도록 프로그램화 할 수 있다. 이 같은 방식은 버추얼휴먼 콘텐츠를 별도 촬영 없이 실시간으로 그리고 대량으로 만들어 낼 수 있어 더 효율적인 콘텐츠 기획 및 제작이 가능해질 것으로 내다보고 있다.