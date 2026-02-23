관객이 영화속 주인공이 보는 것과 똑같이 사물을 인식하는 인공지능(AI) 모델이 개발됐다.

KAIST는 주재걸 김재철AI대학원 석좌교수 연구팀이 영상 속 인물이 실제 보고 있었을 장면을 정밀하게 생성하는 AI 모델 ‘에고엑스(EgoX)’를 개발했다고 23일 밝혔다.

이는 단순히 화면을 회전시키는 수준을 넘어, 인물 위치와 자세, 주변 공간의 3차원(3D) 구조를 종합적으로 이해한 뒤 이를 기반으로 1인칭 시점 영상을 재구성할 수 있다.

영화 '더 다크 나이트' 일부분을 등장인물 조커 관점으로 변환한 예시.(사진=KAIST)

기존 기술로 영상을 1인칭 시점으로 변환하기 위해서는 정지 이미지 또는 4대 이상 카메라가 촬영한 영상이 필요했다. 또 빛 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제도 있었다.

반면, '에고엑스'는 단 하나의 3인칭 시점 영상만으로도 고품질 1인칭 영상을 생성한다. 특히 인물 머리 움직임과 실제 시야 사이 상관관계를 정밀하게 모델링함으로써, 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현할 수 있다.

주재걸 석좌교수는 "특정 환경에 국한되지 않고 요리, 운동, 작업 등 다양한 일상 상황에서도 안정적인 성능을 나타냈다"며 "이를 통해 별도 웨어러블 장치를 착용하지 않고도 기존에 축적된 영상으로부터 고품질 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 연 셈"이라고 자평했다.

'에고엑스'는 또 AR·VR 및 메타버스 분야에서 일반 영상을 사용자가 직접 체험하는 듯한 몰입형 콘텐츠로 전환 가능하다. 로봇이 사람 행동을 보고 학습하는 모방 학습 핵심 데이터로 활용될 수도 있다. 스포츠 중계나 브이로그를 선수나 주인공 시점으로 전환도 가능하다.

주 석좌교수는 “앞으로는 기존 영상만으로도 누구나 몰입형 콘텐츠를 제작하고 경험할 수 있는 환경이 열릴 것"으로 기대했다.

관련기사

강태웅, 김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제 1저자로 연구에 참여했다.

연구성과는 지난해 12월 무료논문저장사이트 '아카이브(arXiv)에 1차 공개됐다. 정식 발표는 오는 6월 3일 미국 콜로라도에서 열리는 국제 학술대회 '시브이피알(CVPR)'에서 이루어질 예정이다.