미국 컬럼비아 공과대학 연구진이 사람 얼굴을 한 로봇에 온라인 영상을 학습시켜 음성과 노래에 맞춰 립싱크를 구현하는 데 성공했다고 IT매체 디지털트렌드가 15일(현지시간) 보도했다.

이 로봇의 이름은 ‘이모(Emo)’로, 완전한 인간형 로봇이 아니라 인간의 소통 방식을 탐구하기 위해 특별히 제작된 사람 얼굴 형태의 로봇이다. 이모의 얼굴은 실리콘 피부로 덮여 있으며, 입술과 턱, 뺨을 움직이는 독립 제어형 얼굴 모터 26개로 구동된다.

연구진은 이모가 음성과 노래에 맞춰 정교하게 립싱크하도록 훈련시키는 데 성공했다. 이는 로봇이 복잡한 인간 행동을 단순히 관찰하고 따라 하는 방식으로도 학습할 수 있음을 보여주는 사례로 평가된다.

영상을 학습해 인간의 입 모양을 그대로 따라하는 사람 모양 로봇이 등장했다. (영상=컬럼비아 공과대학)

이모는 모터를 통해 24개의 자음과 16개의 모음을 표현할 수 있을 만큼 정교한 입 모양을 만들 수 있다. 이는 자연스러운 말하기와 노래를 구현하는 데 핵심 요소다. 연구진의 목표는 로봇이 인간과 매우 비슷해 보이지만 얼굴 움직임이 목소리와 맞지 않아 불쾌감을 주는 이른바 ‘불쾌한 골짜기(uncanny valley)’ 현상을 줄이는 데 있었다.

어떻게 립싱크 학습했나

학습 과정은 단계적으로 진행됐다. 먼저 이모는 거울에 비친 자신의 모습을 보면서 모터를 움직여 자신의 얼굴을 탐색했다. 이를 통해 로봇 시스템은 모터 명령이 얼굴 형태를 어떻게 변화시키는지 스스로 학습할 수 있었다.

이후 연구진은 소리와 움직임을 연결하는 학습 파이프라인을 도입했다. 이모는 사람들이 말하고 노래하는 유튜브 영상을 수 시간 동안 시청했고, 인공지능(AI) 모델은 소리와 눈에 보이는 입술 움직임 사이의 관계를 분석했다.

사진=컬럼비아 공과대학

이 시스템은 언어나 의미에 초점을 맞추기보다 말소리 자체의 원초적인 음향 특성을 학습했다. 이어 ‘얼굴 동작 변환기(facial action transformer)’가 학습된 패턴을 실시간 모터 제어 명령으로 변환하면서, 이모는 음성과 노래에 맞춰 입 모양을 자연스럽게 움직일 수 있게 됐다.

이러한 방식 덕분에 이모는 영어뿐 아니라 프랑스어, 아랍어, 중국어 등 이전에 학습한 적 없는 언어에서도 립싱크를 수행할 수 있었다. 또한 모음을 길게 늘이거나 리듬 변화가 큰 노래에서도 동일한 방식이 적용됐다.

연구진은 미래의 로봇이 사람과 함께 일하고 생활하기 위해서는 자연스러운 의사소통 능력이 필수적이라며, 이번 기술의 발전이 의미 있는 진전이라고 강조했다.

향후 인간과 같은 감각을 구현하는 인공 피부 기술과 사실적인 입술 움직임이 결합될 경우, 로봇이 단순한 기계가 아닌 사회적 동반자로 느껴질 수 있다고 해당 매체는 전했다. 이모 로봇은 아직 연구 프로젝트 단계지만, 로봇이 인간의 방식을 ‘보고 듣는 것’만으로 학습할 수 있는 가능성을 보여줬다고 디지털트렌드는 평했다.