아자르는 어떻게 동영상서 인물만 추출할까?

"머신러닝 인물 추출 기술로 초당 30프레임 구현"

인터넷입력 :2018/10/11 18:49

'Ii =αiFi+(1?αi)Bi'. 사진에서 전경과 배경을 분리하는 ‘인물 추출’ 기술의 함수식이다. 복잡한 실제 배경을 가리고 인물 뒤로 필터를 삽입할 때 이 기술을 필수로 사용하게 된다. 최근 모바일로 필터를 사용해 사진이나 동영상을 찍는 이들이 부쩍 늘어나 기계학습(머신러닝)을 이용해 자동으로 인물 추출 기술을 사용하는 수준까지 왔다. 위 함수식을 무한히 돌림으로써 머신러닝 인물 추출 기술을 구현한다.

글로벌 동영상 채팅 앱 아자르에서도 머신러닝 인물 추출 기술이 사용된다. 영상 속 인물 뒤로 보이는 배경을 흐리게 할 때 이 기술이 쓰인다. 아자르를 서비스하는 하이퍼커넥트의 머신러닝 팀은 이 인물 추출 기술을 머신러닝으로 활용하는 방법에 대해 연구해왔다. 아자르는 중동지방에서 많은 이용자를 보유했는데, 해당 지역의 이용자들의 스마트폰 사양이 낮아 고사양의 스펙을 필요로 하는 인물 추출 머신러닝이 제대로 작동하기 어렵다.

서석준 하이퍼커넥트 개발자는 11일 서울 삼성동 코엑스에서 열린 네이버 개발자 행사 ‘데뷰 2018’에서 저 스펙 기기에서도 원활히 가동되는 인물 추출 머신러닝 기술에 대해 소개했다.

서석준 하이퍼커넥트 개발자

동영상 서비스에서 인물 추출 머신러닝 기술이 원활히 작동하기 위해서는 이 기술이 적어도 초당 30프레임의 속도를 따라갈 수 있어야 한다.

서석준 개발자는 “인물 추출 기술에 이미지를 주면 이미지에서 사람 부분만 따내야 하는데, 이를 동영상 서비스에서 실행하고자 하면 초당 30프레임에 맞춰 이미지가 처리돼야 한다”며 “하지만 아직 이러한 머신러닝 기술들이 그만큼 실시간으로 돌아가는 게 많지 않다”고 설명했다.

서 개발자는 기존 인물 추출 기술로는 동영상 서비스에 적용하기 어려워, 관련 논문들을 찾아 성능을 끌어올릴 수 있는 방법을 고안했다.

먼저 인물 추출 기술에 투입할 이미지 모델에 ▲경량화 작업 ▲모델 양자화(Quantization) 작업 ▲데이터 정제 작업(Distillation) 과정을 거친다. 이후 복잡한 연산에 특화된 구글의 ‘텐서플로우 라이트’ 제품으로 엔지니어링 작업을 하면 일반 텐서플로 제품에서보다 빠른 처리가 가능하다.

관련기사

인물 추출 기술

서 개발자는 “구글에서 검색되는 최신 인물 추출 방법론은 올 3월 건데, 이거보다는 30~40배 빨라야 동영상 서비스에 적용 가능하다”며 “하이퍼커넥트 개발팀이 구현한 머신러닝 인물 추출 기술이 초당 30프레임의 동영상 서비스에서 작동되는 걸로 보아 최신 방법론보다 우수한 것으로 볼 수 있다”고 말했다.

이어 “회사 내에선 머신러닝 인물 추출 기술을 쉽게 하이퍼컷이라고 부르고 있는데, 현재는 인물 뒤 배경을 흐리게 만들어 편리하게 영상 채팅을 할 수 있도록 하고 있다”면서 “향후엔 여러 가지 필터로 배경을 꾸밀 수 있는 서비스도 계획 중이다”고 덧붙였다.