구글포토는 어떻게 사물을 구별하나

인터넷입력 :2017/03/22 12:14    수정: 2017/03/22 12:14

손경호 기자

구글계정만 있으면 쓸 수 있는 구글포토는 내가 찍은 사진을 알아서 자동으로 분류해주고, 검색어를 입력하면 내 사진들 중 해당 키워드에 맞는 사진들을 내가 찾는 것보다 빠르게 찾아준다.

이런 기능들은 인공지능(AI) 연구 분야 중 하나인 컴퓨터 비전 기술이 비약적으로 발전해왔기 때문에 가능한 일이다.

22일 서울 역삼동 구글 코리아 본사에서 개최된 '구글AI포럼'에는 구글 소프트웨어 엔지니어 겸 컴퓨터 비전 리서처로 활동하고 있는 닐 알드린 연구원이 화상 세미나를 통해 머신러닝 알고리즘이 적용된 구글의 기술과 앞으로 비전에 대해 소개했다.

알드린 연구원에 따르면 컴퓨터가 이미지를 분간해내는 기술을 말하는 컴퓨터 비전에 대한 연구는 크게 2가지로 나뉜다.

먼저 기존 클래식 컴퓨터 비전은 수많은 이미지를 구성하는 최소 단위인 픽셀을 분석해 평균값을 내서 이미지를 분간해 냈다. 이런 방식은 이미지가 개인지 고양이인지 등을 단순 구분하는 수준에 그쳤다.

구글 딥 컴퓨터 비전은 딥러닝 기술을 활용해 사전에 학습한 데이터들로 마련된 여러 필터를 거쳐가게 하는 방법으로 이미지가 어떤 내용을 담고 있는지를 보다 정교하게 파악해낸다.

여기서 발전한 딥 컴퓨터 비전은 딥러닝 기술을 활용해 이미지가 가진 색상, 질감, 형태 등 보다 다양한 요소를 구분해 낸다. 이를 통해 고양이가 어떤 행동을 하고 있는지에서 더 나아가 어떤 종류의 고양이인지까지 식별할 수 있는 수준으로 발전해 나가고 있는 것이다.

알드린 연구원은 "클래식 컴퓨터 비전은 이미지에서 픽셀을 쪼갠 다음 학습을 거쳐 해당 이미지가 어떤 의미를 가졌는지 라벨(일종의 태그)을 붙이는 작업이 별개로 이뤄졌다면 딥 컴퓨터 비전은 이런 과정이 하나의 프로세스를 통해 이뤄진다"고 설명했다. 그만큼 이미지를 분석해 학습하고, 식별한 내용을 붙여놓는 분류해내는 작업 시간이 짧아졌다는 것이다.

구글포토와 같은 서비스가 내가 찍은 사진을 자동으로 인식해 분류해내기까지 구글이 가진 딥 컴퓨터 비전은 수많은 학습과정을 거친다. 이러한 이미지 데이터는 어디서 오는 것일까?

알드린 연구원에 따르면 구글은 검색DB를 구축하면서 확보해 온 방대한 이미지 데이터들과 함께 '오픈 이미지 데이터셋'이라는 컴퓨터 비전 연구 전용 데이터셋을 사용한다. 이 데이터셋은 구글과 카네기맬론대, 코넬대가 공동으로 구축한 것으로 900만개 넘는 이미지들로 구성됐다. 이중 10만개는 사람이 직접 해당 이미지가 어떤 내용을 담고 있는지를 입력해 놓는 라벨링 작업을 거쳤다.

이러한 이미지로 학습하는 과정에는 날짜나 시간, 장소, 주위 랜드마크, 로고, 이미지 내 텍스트 등을 종합적으로 학습해 이미지가 어떤 이벤트를 말하고 있는지까지 파악할 수 있도록 했다. 휴일이나 생일 등을 포함한 여러 이벤트를 구분해낸다.

구글포토에 사용된 개인들의 이미지까지 연구에 직접 활용한다면 보다 높은 성능을 가진 컴퓨터 비전을 개발, 서비스할 수 있을 것으로 예상된다. 그러나 이와 관련 알드린 연구원은 "학습을 위해 구글포토에 올라온 개인 이미지를 쓰지는 않는다"고 강조했다.

앞으로 구글이 꿈꾸는 컴퓨터 비전의 미래는 뭘까?

관련기사

그는 우선 딥 컴퓨터 비전이 단순히 고양이라는 사실 뿐만 아니라 고양이가 어떤 품종인지 등까지 인식할 수 있게 개선해 나간다는 계획이다. 사람의 일반 상식을 뛰어 넘어 이미지에 대한 보다 전문적인, 상세한 지식까지 알려주겠다는 점에서 이를 두고 '슈퍼 휴먼 이미지 인식'이라고 불렀다.

또한 이미지 내 대상, 장소, 배경 간에 상관관계에 대해서까지 정확하게 알려줄 계획이다. 소가 나온 이미지에 대해 소가 산 앞 초원에서 풀을 먹고 있다는 수준까지 맥락을 이해할 수 있게 한다는 생각이다. 이미 이런 기술은 페이스북 등에서도 시각장애인들을 위한 이미지 묘사 등 분야에 쓰이는 중이다. 이와 함께 이 회사는 유튜브 등으로부터 확보한 동영상 속에서도 이미지를 구분해내는 기술을 정교하게 만들어 갈 계획이다.

구글은 앞으로 사람 이상으로 이미지에 대한 정보를 알아내면서 이미지 속 장면을 묘사해내는 수준까지 기술을 개선해 나갈 생각이다.