네이버 딥러닝 기반 이미지 변환 기술 어디까지 왔나?

최윤제 클로바 AI 리서치 연구과학자, 라인 데브데이서 ‘이미지 변환과 응용’ 발표

인터넷입력 :2020/11/26 00:47    수정: 2020/11/26 13:44

인공지능(AI) 기술의 발전으로 이미지 변환 기술력 또한 효율적인 방법으로 진화해 나가는 가운데, 딥러닝 기반의 이미지 생성 기술과 네이버의 발전된 이미지 변환 기술이 소개돼 주목을 받았다.

네이버 일본 자회사 라인은 25일 개발자 컨퍼런스 행사인 ‘라인 디벨로퍼 데이 2020’을 진행했다.

이 자리에서 네이버 최윤제 AI 리서치 연구 과학자는 ‘이미지 변환과 응용’이란 주제로, GAN(Generative Adversarial Network)을 이용한 다양한 이미지 기술과 각각의 한계 및 특장점 등을 소개했다.

GAN의 학습 과정 도식화.

최윤제 발표자는 네이버 클로바 AI 리서치의 연구과학자로, 고려대학교에서 추재걸 교수의 지도 하에 컴퓨터공학 학사 및 석사 학위를 취득했다. 주요 관심 연구분야는 컴퓨터 비전과 머신 러닝이 교차하는 분야로, 특히 생성 모델링(Generative modeling)과 자율 학습(Unsupervised learning)에 전문성을 갖고 있다.

이날 최윤제 과학자는 ▲pix2pix ▲pix2pix HD ▲SPADE ▲StarGAN ▲StarGAN v2 ▲COCO-FUNIT 등 모델링에 따라 이미지 변환 결과가 달라지는 다양한 기술들을 소개했다.

크로스 도메인 모델(왼쪽), StarGAN 모델.

GAN은 상반되는 목적을 가진 두 모듈(판별망, 생성망)이 대결하는 구조를 통해 이미지 생성을 학습하는 이미지 생성 기술의 한 종류다.

이 중 판별망(Discriminator)은 주어진 이미지가 실제인지, 거짓인지 판별하는 법을 학습한다. 이를 통해 실제와 거짓 이미지를 잘 구분해 내는 것이 궁극적인 목표다. 반면 생성망(Generator)은 판별망을 속여 실제와 구분이 가지 않을 정도의 진짜 같은 이미지를 생성하도록 학습해 실제에 가까운 이미지를 만들어내는 것이 목적이다.

이중 최윤제 과학자가 속한 팀이 개발한 StarGAN은 도메인의 개수에 상관없이 하나의 모델만으로 모든 도메인을 처리할 수 있다. 이를 ‘멀티 도메인’이라 부르는데, 이처럼 여러 도메인을 동시에 변환하는 기술은 그간 GAN 관련 기술들이 해결하지 못했던 부분을 한방에 해결한 것이다. 기존의 GAN 방식들은 모든 이미지 도메인 쌍마다 독립적으로 서로 다른 모델들이 구축돼야 하기 때문에 여러 도메인들을 처리하기 위한 확장성이 제한돼 있었다.

StarGAN v2
StarGAN v2

하지만 StarGAN도 특정 도메인에 대해 다양한 아웃풋을 제공하지 못하는 단점을 지녔다. 이에 클로바 AI 리서치팀은 멀티 도메인(Mulit Domain)과 멀티 모달(Multi Modal)을 모두 만족하는 이미지 전환 모델 ‘StarGAN v2’를 제시했다.

StarGAN v2는 멀티 도메인에 대해 다양한 스타일의 이미지를 생성할 수 있다. 이 모델은 네이버 스노우 팀과 함께 협업해 셀피 카메라 앱 B612에 적용되는 등 실제 서비스에 구현될 정도로 높은 완성도를 입증했다.

관련기사

셀피앱 B612에 적용된 StarGAN v2

마지막으로 최윤제 과학자는 이미지 변환을 이용한 여러 앱을 소개했다. 이미지 변환을 동영상 변환으로 확장한 앱 ‘vid2vid’, 또 이미지 변환을 활용해서 스케치 이미지를 사진으로 바꿔주는 서비스 ‘Deep Face Drawing’을 살펴봤다.

최윤제 과학자는 “오늘 강연을 통해 다양한 이미지 전환 모델과 앱을 살펴봤다”면서 “관심 있는 분들은 논문과 코드가 모두 공개 돼 있으니 참고하길 바란다”고 말했다.