KAIST-MIT-마이크로소프트 "비전 알고리즘 구글 대비 성능 20% 개선"

저해상 시각정보를 제한된 GPU 메모리만으로 고해상도로 손쉽게 복원하는 기술이 개발됐다. 구글이 최근 내놓은 컴퓨터 비전 알고리즘보다 최소 20%이상 성능이 우수하다는 것이 연구진 설명이다.

연구는 김창익 KAIST 전기및전자공학부 교수 연구팀이 미국 MIT 및 마이크로소프트 연구진과 공동으로 제한된 GPU 메모리만으로도 AI의 시각 성능을 원본대비 90%이상 높일 수 있는 ‘업샘플 애니띵(Upsample Anything)’을 개발했다고 17일 밝혔다.

미국 덴버서 열린 'CVPR 2026' 포스터 세션 전광판 앞에서 논문 제1저자인 서민석 박사과정생이 포즈를 취했다. 오른쪽 위는 왼쪽부터 마크 해밀턴 마이크로소프트 연구원과 김창익 KAIST 교수.(사진=KAIST)

연구결과는 인공지능 및 컴퓨터 비전 분야 세계 최고 학회인 ‘CVPR 2026’에서 계산 자원의 효율적 활용을 인정받아 ‘CVPR 컴퓨트 골드 스타(CVPR Compute Gold Star)’를 수상했다. 골드스타는 전체 논문 가운데 최고를 의미한다. 이와함께 연구 과정 투명성과 재현 가능성 부문 ‘트랜스패런시 챔피언(Transparency Champion)’에도 선정됐다.

논문 제1저자인 서민석 KAIST 전기및전자공학부 박사과정생은 전화통화에서 "휴머노이드는 대부분 수입 제품을 쓰는데, 비전 분야에서 이미지는 보통 16배 압축해 쓰기 때문에 해상도가 많이 떨어지는데다, 유니트리 등 각 회사들이 자체 기준에 따라 제품을 출시하기 때문에 복원 이미지 품질이 제각각"이라며 "이를 연구 목적에 맞게 바꾸는 추가 작업이 많이 번거롭다"고 설명했다.

서민석 박사과정생은 "예를 들어 자율주행을 하면서 글자를 읽거나 제조공정에서 흠집 등을 제대로 잡지 못하는 어려움이 있다. 이를 해결하기 위해서는 픽셀 100만개의 경우 최소 256회의 연산이 필요하다"며 "이 문제를 해결하기 위해 이 기술을 개발했다"고 말했다.

연구팀은 우선 학습이 필요없는 테스트 시점 최적화(TTO) 기반 업샘플링 프레임워크를 설계했다. 먼저 고해상도 이미지를 저해상도 이미지로 다운샘플링한 뒤, 다시 원본 이미지를 가장 잘 복원할 수 있도록 픽셀별 적응형 가우시안 커널을 최적화한다.

이를 통해 각 픽셀은 주변 영역 공간적 거리와 색상 유사도를 동시에 고려하는 엣지-어웨어(edge-aware) 복원 방식을 학습하게 되며, 이미지 경계와 구조를 유지하면서 고해상도 복원을 수행할 수 있다.