KAIST-MIT-마이크로소프트 "비전 알고리즘 구글 대비 성능 20% 개선"

GPU 메모리 효율 16배 개선 '업샘플 애니띵' 공개…"시각 학습도 필요없어"

과학입력 :2026/06/17 08:49    수정: 2026/06/17 08:50

저해상 시각정보를 제한된 GPU 메모리만으로 고해상도로 손쉽게 복원하는 기술이 개발됐다. 구글이 최근 내놓은 컴퓨터 비전 알고리즘보다 최소 20%이상 성능이 우수하다는 것이 연구진 설명이다.

연구는 김창익 KAIST 전기및전자공학부 교수 연구팀이 미국 MIT 및 마이크로소프트 연구진과 공동으로 제한된 GPU 메모리만으로도 AI의 시각 성능을 원본대비 90%이상 높일 수 있는 ‘업샘플 애니띵(Upsample Anything)’을 개발했다고 17일 밝혔다.

미국 덴버서 열린 'CVPR 2026' 포스터 세션 전광판 앞에서 논문 제1저자인 서민석 박사과정생이 포즈를 취했다. 오른쪽 위는 왼쪽부터 마크 해밀턴 마이크로소프트 연구원과 김창익 KAIST 교수.(사진=KAIST)

연구결과는 인공지능 및 컴퓨터 비전 분야 세계 최고 학회인 ‘CVPR 2026’에서 계산 자원의 효율적 활용을 인정받아 ‘CVPR 컴퓨트 골드 스타(CVPR Compute Gold Star)’를 수상했다. 골드스타는 전체 논문 가운데 최고를 의미한다. 이와함께 연구 과정 투명성과 재현 가능성 부문 ‘트랜스패런시 챔피언(Transparency Champion)’에도 선정됐다.

논문 제1저자인 서민석 KAIST 전기및전자공학부 박사과정생은 전화통화에서 "휴머노이드는 대부분 수입 제품을 쓰는데, 비전 분야에서 이미지는 보통 16배 압축해 쓰기 때문에 해상도가 많이 떨어지는데다, 유니트리 등 각 회사들이 자체 기준에 따라 제품을 출시하기 때문에 복원 이미지 품질이 제각각"이라며 "이를 연구 목적에 맞게 바꾸는 추가 작업이 많이 번거롭다"고 설명했다.

서민석 박사과정생은 "예를 들어 자율주행을 하면서 글자를 읽거나 제조공정에서 흠집 등을 제대로 잡지 못하는 어려움이 있다. 이를 해결하기 위해서는 픽셀 100만개의 경우 최소 256회의 연산이 필요하다"며 "이 문제를 해결하기 위해 이 기술을 개발했다"고 말했다.

연구팀은 우선 학습이 필요없는 테스트 시점 최적화(TTO) 기반 업샘플링 프레임워크를 설계했다. 먼저 고해상도 이미지를 저해상도 이미지로 다운샘플링한 뒤, 다시 원본 이미지를 가장 잘 복원할 수 있도록 픽셀별 적응형 가우시안 커널을 최적화한다.

이를 통해 각 픽셀은 주변 영역 공간적 거리와 색상 유사도를 동시에 고려하는 엣지-어웨어(edge-aware) 복원 방식을 학습하게 되며, 이미지 경계와 구조를 유지하면서 고해상도 복원을 수행할 수 있다.

업샘플링 애니띵 전체 개요도. 고해상도 이미지가 주어지면, 이를 저해상도 이미지로 다운샘플링한 뒤, 테스트 시점 최적화(TTO)를 통해 원본에 가깝게 복원한다. (그림=KAIST)

연구팀은 "이 과정은 새로운 값을 생성하는 생성형 방식이 아니라, 기존 특징 정보를 공간적으로 재배치하고 혼합하는 방식이기 때문에 모델 구조나 도메인에 관계없이 높은 범용성을 가진다"고 설명했다.

성능 시험 결과 224×224 해상도 기준 약 0.4초, 1,000×1,000 해상도 기준 3초 수준의 경량 최적화만으로 동작한다. 기존 테스트 시점 최적화 기반 기법 대비 메모리 사용량도 16분의 1에 불과하다는 것.

관련기사

연구팀은 또 기존 업샘플링 구조인 JBU와 GS 장점을 결합해, 경계 보존 능력과 연속적 공간 표현 능력을 동시에 활용할 수 있는 업샘플링 구조를 제안했다. 이는 픽셀별 방향성과 공간 구조를 반영하는 적응형 업샘플링이라고 연구팀은 부연 설명했다.

김창익 교수는 “적은 메모리 자원으로도 인공지능 시각 정밀도를 크게 높일 수 있는 알고리즘"이라며 "휴머노이드 로봇과 온디바이스 AI 실용화를 앞당길 것"으로 기대했다.