텍스트 입력만으로 3차원 영상 분할·편집 가능해져

건국대학교 공과대학 김원준 교수(전기전자공학부) 연구팀이 개발한 ‘고성능 개방형 어휘 3차원 영상 분할 알고리즘’이 컴퓨터 비전·인공지능(AI) 분야 세계 최고 권위 학술대회 중 하나인 국제 컴퓨터 비전학회(ICCV 2025)에서 공개된다고 9일 밝혔다.

연구팀은 텍스트 입력만으로 3차원 영상 내에서 사용자가 원하는 객체를 정밀하게 분할하고 편집할 수 있는 개방형 어휘 기반 3차원 영상 분할 기술을 구현했다. 논문은 오는 10월 미국 하와이에서 열리는 ‘ICCV 2025’에서 소개될 예정이다.

건국대 연구팀이 제안한 방법대로 새로운 시점으로 렌더링 된 이미지에서 텍스트 입력을 기반으로 객체를 분할한 예.

이번 연구는 서로 다른 시점에 존재하는 객체에 대한 언어 임베딩의 일관성을 유지하면서, 새로운 시점의 이미지를 생성할 수 있도록 언어 임베딩과 가우시안 스플래팅 파라미터를 동시에 학습하는 전략을 새롭게 제안한 것이 핵심이다. 또 대조적 학습 기법을 접목해 새로운 시점 이미지 내 객체 검출 성능을 향상시켰다.

텍스트 입력만으로 3차원 영상 분할·편집 가능해져

관련기사

지금 뜨는 기사

이시각 헤드라인

마이크론, 메모리 장기계약 비중 확대...삼성·SK도 성장 구도 바뀐다

삼성전자 "3년 안에 AI 모듈러 홈 1만채 판매 목표"

퀄컴, AI 데이터센터 청사진 공개..."전용 CPU 2028년 출시"

"전남광주 반도체 패키징, '유리급 기판'도 선택지"

ZDNet Power Center