데이터 라벨링, IT·제조업서 활발…프로젝트당 라벨링 수는 ‘공공기관’이 많아

크라우드웍스 ‘2020 산업별 데이터 활용 수요 현황 분석 보고서’ 발간

인터넷입력 :2020/10/06 09:58

인공지능 기술 고도화를 목적으로 데이터 라벨링을 진행한 국내 IT기업들은 프로젝트 당 평균 8만5천개의 데이터를 수집 또는 가공한 것으로 나타났다.

크라우드소싱 기반 인공지능 데이터 수집×가공 플랫폼 기업 크라우드웍스(대표 박민우)는 6일  ‘2020 산업별 데이터 활용 수요 현황 분석 보고서'를 발간하고 이같이 밝혔다.

보고서는 올해 1월1일부터 8월31일까지 크라우드웍스에서 진행된 271건의 데이터 라벨링 프로젝트를 분석해 4차산업혁명 시대를 맞아 IT, 제조, 의료, 유통, 금융, 공공, 연구 등 다양한 산업군의 데이터 활용 수요 현황을 담고 있다.

라우드웍스, 2020 산업별 데이터 활용 현황 수요 보고서 발간

데이터 라벨링은 인공지능(AI) 기술 고도화에 필요한 데이터를 수집하고 가공하는 작업을 뜻한다.

조사결과 데이터 라벨링에 가장 적극적인 산업군은 IT였다. 전체 프로젝트의 68.3%에 해당하는 185건이 IT관련 산업이었으며, 수집 또는 가공된 데이터량만 1천576만개 이상으로 집계됐다. IT산업군 중에서도 가장 많은 데이터 라벨링을 진행한 분야는 AI로 전체 프로젝트의 44.9%(83건)을 차지했다.

IT산업군의 데이터 수요는 수집보다 가공이 더 높은 것으로 나타났다. 전체 프로젝트의 절반이 넘는 56.2%(104건)이 데이터 가공이었으며, 나머지 43.8%(81건)이 데이터 수집으로 조사됐다.

또한 프로젝트별 데이터 유형에서는 전체 49.7%(92건)을 차지한 이미지가 가장 높았으며, 이어 텍스트 19.5%(36건), 음성 15.7%(29건), 동영상 9.2%(17건), 설문조사 5.4%(10건), 기타 0.5%(1건) 순으로 집계됐다.

비IT산업군에서 가장 많은 데이터 라벨링을 진행한 분야는 제조업이었다. 전체 58건의 프로젝트 가운데 32.8%(19건)를 기록했으며, 이어 의료 29.3%(17건), 유통 19%(11건), 스포츠 6.9%(4건), 금융 5.2%(3건) 등이 뒤를 이었다.

프로젝트 당 데이터 라벨링 수치가 가장 높은 곳은 공공기관으로 나타났다. 공공기관은 프로젝트 당 평균 20만개 이상의 데이터를 수집 또는 가공하며 국내 산업의 전체 평균치인 8만7천500개보다 134% 높은 수치를 기록했다. 정부가 적극 추진하고 있는 인공지능 학습용 데이터 구축 사업의 결과가 반영된 것으로 보인다.

관련기사

박민우 크라우드웍스 대표는 “데이터의 가치와 활용도를 높이기 위해서는 어떻게 수집하고 어떠한 방법으로 가공하느냐가 중요하다"며 “크라우드웍스는 16만 데이터 라벨러와 함께 데이터의 새로운 가치를 창출하고 디지털 뉴딜 시대를 선도할 수 있는 기반 마련에 최선의 노력을 다해 나가겠다"고 말했다.

크라우드웍스의 ‘2020 산업별 데이터 활용 수요 현황 분석 보고서'는 홈페이지에서 다운로드 할 수 있다.