AI 학습용 데이터, 어떻게 만들어 지나

원시데이터 수집, 정제, 검수, 배포 4가지 단계 거쳐

컴퓨팅입력 :2020/12/11 17:47

특별취재팀

디지털 뉴딜 등으로 인공지능(AI)의 핵심 자원인 AI 학습 데이터가 주목 받고 있다. 관련 업계에선 AI의 발전과 함께 AI 학습용 데이터 시장도 급증할 것으로 예상하고 있다.

AI학습 데이터에 관심이 있는 기업을 위해 씨에스피아이 문동준 이사는 11일 서울 코엑스에서 진행 중인 '대한민국 4차 산업혁명 페스티벌 2021'에서 해양침적쓰레기 이미지 AI 데이터 사업을 바탕으로 AI학습용 데이터 구축 과정을 소개했다.

해양침적쓰레기 이미지 AI 데이터 사업은 한국지능정보사회진흥원(NIA)에서 주관하는 사업 중 하나다. 환경부와 지자체에서 해양에 쌓인 쓰레기를 제거하기 위한 방안을 설계하기에 앞서 해양 쓰레기 발생량과 분포도를 파악하는 것을 목표로 한다.

씨에스피아이 문동준 이사

AI 학습용 데이터 구축 과정은 원시 데이터 확보, 데이터 정제, 검수, 배포 4가지 단계로 구성된다.

학습용 데이터의 기반이 되는 원시데이터는 소나 장비로 촬영한 이미지와 스쿠버다이버가 직접 촬영한 이미지를 사용했다.

문동준 이사는 “소나 이미지는 해저에 쌓인 쓰레기 분포를 파악하기 위해 사용한다. 정밀한 조사가 필요하거나 촬영이 어려운 협소한 해역 지역은 스쿠버다이버가 촬영한 이미지가 쓰였다”고 설명했다.

수거한 원시데이터는 AI학습데이터로 활용할 수 있도록 정제 과정을 거친다. 먼저 동일한 규격으로 이미지를 표준화하고 중복 데이터를 걸러낸다.

이어서 소나 촬영 이미지와 수중 촬영 이미지 2가지 카테고리고 나누고, 쓰레기 중 가장 많은 비중을 차지하는 어망, 타이어, 로프, 목재 등으로 분류작업을 실시한다.

데이터를 분류한 후엔 전체 이미지에서 쓰레기의 객체 범위를 지정하고 표시한 객체가 무엇인지 라벨링 작업을 거친다. 라벨링 작업 중에는 객체가 명확히 드러나도록 선명도를 높이는 등 화질 개선 작업도 실시한다.

검수 작업에선 라벨링 작업자 간의 격차를 줄이기 위해 2번에 걸쳐 상호 교차 검사를 실시한다. 이어서 보다 정확도를 높이기 위해 AI전문가 및 도메인전문가가 추가 검수를 실시한다. 이미지 라벨링과 2차에 걸진 검수 작업은 모두 수작업으로 진행한다.

검수를 마친 후엔 완성된 데이터가 실제로 작업에 활용될 수 있는지 파악하기 위해 AI 학습을 실시한다. 데이터의 신뢰도를 높이기 위한 작업인 만큼 기존에 인증을 받은 AI 모델을 활용한다.

관련기사

문동준 이사는 “관리자는 학습한 AI 결과를 바탕으로 학습데이터에 부족한 부분이 있는지 파악하고 이미지를 추가하는 반복작업을 거친다”고 설명했다.

완성된 AI학습 데이터는 AI허브를 통해 공개된다. AI와 함께 사용자가 사용자가 정확하게 사용할수 있도록 공통된 기준 및 속성치, 데이터 구축될 당시의 특수성 등이 포함된 가이드와 매뉴얼도 함께 제공한다.