“자전거 핸들 위에 앉아 있는 저게 뭐야?” “새입니다."
영화 아이언맨의 인공지능 비서 자비스 같이 실시간으로 이미지를 보면서 사람과 대화할 수 있는 컴퓨터가 곧 현실화 될 것으로 보인다. 마이크로소프트(MS), 구글 등 IT기업들이 이미지를 탐지하고 사람이 물어보는 질문에 답할 수 있도록 컴퓨터를 훈련시키고 있다.
25일(현지시간) 미국 지디넷은 최근 MS가 주어진 이미지에 대해 자연어로 질문하면 자동으로 답변을 내놓는 '이미지-퀘스쳔 앤서링(image-question answering)’ 분야에 초점을 맞춰 인공지능 툴을 개발하고 있다고 소개했다.
예컨대 자전거 바구니 안에 강아지가 앉아 있는 이미지를 보고 사람이 “자전거 바구니에 앉아 있는 게 뭐야?”라고 컴퓨터에게 물어보면 자동으로 “강아지입니다”라고 대답해주는 기술이다. 이 기술은 MS연구소와 카네기멜론대학교가 공동으로 연구를 진행하고 있다.
MS연구소와 카네기멜론 대학 연구원들에 따르면 컴퓨터가 이렇게 자동으로 답변을 내 놓기 위해선 여러단계의 논리적 추론 과정을 거쳐야 한다. 시스템이 우선 "자전거, 바구니" 등 이미지 속의 객체를 인식해야 하고 질문에서 언급된 “앉아 있다”는 개념을 이해해야 한다. 그다음 점진적으로 관련이 없는 객체를 제외해 나가면서 답을 추론하는 것이다. MS연구소는 “딥 뉴럴 네트워크를 통해 이미지에서 질문과 관계가 적은 부분을 버리고 관계가 높은 부분을 결정하는 것”이라고 설명했다.
컴퓨터가 이미지를 인식하는 비전 기술과 사람이 말하는 방식을 이해하는 자연어처리 기술을 기반으로 이 분야 연구는 발전해 나가고 있다. 구글도 최근 인공 신경망 네트워크를 사용해 관련 분야에서 향상된 결과를 얻었다고 성과를 공개하기도 했다.(☞관련연구 링크)
관련기사
- 구글, 머신러닝 보물 왜 공짜로 풀었나2015.11.27
- 애플은 왜 이제야 머신러닝에 투자하나?2015.11.27
- 바이두, 머신러닝 성능 부풀렸다 들통2015.11.27
- 완전 공짜 구글포토가 찜찜한 이유2015.11.27
MS는 이미지에 캡션을 넣거나 기계 번역 문제를 해결하는데 사용돼 왔던 '어텐션 메카니즘'을 여러 레이어드에 적용한 '스택 어텐션 네트워크(Stack Attention Networks)’라는 방식을 사용했다. (☞관련연구 링크)
MS는 이런 기술이 사람의 요구를 예측하거나 실시간 추천을 요구하는 애플리케이션에 적용되면 큰 진보를 가져올 수 있을 것으로 기대하고 있다. 예를 들어 카메라를 장착한 자전거 헬멧에 이런 시스템이 결합돼 있으면 위험 요소가 감지됐을 때 경고를 해 줄수 있는 서비스가 가능해진다. 또 이 시스템은 스스로 계속해서 “내 뒤에 왼쪽에는 무엇이 있지?” “왼측에 나를 지나쳐가는 다른 자전거는 없나?” 등의 질문을 해 사용자가 필요로 할 만한 정보를 미리 제공할 수 있다는 설명이다.