AI 시대, ‘데이터 품질’ 중요도↑..."데이터 라벨링 뜬다"

크라우드웍스, 고품질 데이터 빠르고 효율적 구축해 AI 모델 고도화 제고

인터넷입력 :2022/08/31 10:30

IT분야 정보 기술 연구 및 자문 회사인 가트너는 매년 발간하는 하이프 사이클 리포트를 통해 인공지능 데이터 구축 서비스 시장의 안정적인 성장을 전망하고 있다.

보고서에 따르면 인공지능 데이터 라벨링·가공 서비스는 2020년 '기대의 정점(Innovation Trigger)' 단계, 2021년 리포트에서 '환멸의 도래(Trough of Disillusionment)' 단계, 2022년 '이해의 확산(Slope of Enlightenment)' 단계에 자리하며 매년 안정적으로 성장 중이다.

가트너는 데이터 라벨링 시장의 주요 성장 요인으로 ▲AI 관련 투자 증가로 인한 데이터 파이프라인 확장 ▲언어 자동화 제품의 성장 ▲사용 사례 다양성 증가 및 전략적 제품으로의 전환을 꼽았다.

인공지능 자료 사진(제공=이미지투데이)

인공지능을 응용하는 산업은 기존 IT 산업에서 자율주행·헬스케어·제조·금융 등으로 수평적 확장되고 있다. 기업에서 데이터 라벨링 서비스를 사용해 데이터과학자(Data Scientist)가 데이터를 분류하고 가공하는 작업의 부담을 줄이고 수요 급증에 대응해야 한다는 목소리가 나오는 이유다.

국내외 데이터 라벨링 산업의 중심에는 아마존(Amazon Mechanical Turk), 에펜(Appen), Scale AI, 크라우드웍스 등과 같은 인공지능 학습 데이터 플랫폼이 있다. 이들은 가트너가 선정한 데이터 라벨링 및 가공 부문 샘플 벤더다. 플랫폼과 그들의 크라우드워커를 통해 기업은 데이터 수집 및 가공, 데이터 유효성 검증 및 정리, 정보 수집 등의 작업 지원을 받을 수 있고, 기업이 직접 작업 품질을 관리할 수 있도록 템플릿과 관리기능을 제공한다.

국내 기업 중에서는 유일하게 샘플 벤더로 선정된 크라우드웍스는 2017년 설립돼 데이터 라벨링 프로젝트에 일반 대중을 참여시키는 크라우드소싱 방식을 도입해 눈길을 끌었다. 이 회사는 AI 학습용 데이터 수요기업과 데이터 라벨러를 연결해 디지털 환경에 최적화된 플랫폼 워크를 제시, 고품질의 데이터를 빠르고 효율적으로 구축하기 위한 노력을 지속 기울이고 있다.

크라우드웍스

세계 4대 AI 석학으로 꼽히는 앤드류 응(Andrew Ng) 스탠퍼드 교수와 구글 등 여러 AI 전문 기업 및 기관들도 “인공지능 데이터의 품질이 AI 모델의 성능에 가장 큰 영향을 미친다”는 연구 결과를 발표해 인공지능 데이터 구축의 중요성은 더욱 부각되고 있다. 이는 학습용 데이터의 중요성이 커지는 가운데 모델 중심에서 데이터 중심(data-centric)으로 개발 트렌드가 이동하는 것을 보여준다. 이에 크라우드웍스의 시장 지속가능성을 위한 다양한 활동은 다양한 산업의 발전과 혁신에 도움을 가져올 것으로 기대된다.

업계에서는 데이터 라벨링 시장과 서비스는 계속 늘어날 것으로 보고 있다. 글로벌 시장연구기관 그랜드 뷰 리서치(Grand View Research) 조사에 따르면 2020년 약 8조원이었던 글로벌 인공지능 데이터 시장은 연평균 24%의 성장률을 보이며 2028년에는 46조원에 달할 것으로 예상된다.

이런 증가에 앞서 AI 기술의 고도화를 위해서는 학습에 필요한 정교하고 정확한 데이터를 수집·가공하는 데이터 라벨러의 전문성 강화가 매우 중요할 수밖에 없다. 인공지능의 품질은 데이터 학습량 및 프로세스와 밀접하게 연관돼 있으며, 그 핵심은 결국 가공을 하는 사람이기 때문이다.

관련기사

크라우드웍스는 데이터 라벨러 전문 교육 서비스 '크라우드 아카데미'를 운영 중이다. (제공=이미지투데이)

이에 크라우드웍스는 지속가능한 데이터 서비스 제공과 생산성 및 품질 향상을 위해 데이터 라벨러 전문 교육 서비스인 '크라우드 아카데미'를 운영 중이다. 한국인공지능협회와 함께하는 데이터 라벨링 민간 자격증 프로그램 운영과 서울시지체장애인협회와의 '장애인 AI 데이터 라벨러 양성사업'은 더 많은 크라우드 워커가 늘어난 시장의 수요에 맞춰 고숙련 기술 인력으로 성장할 수 있도록 지원한다.

업계 관계자는 "인공지능과 데이터 라벨링 시장의 활성화는 AI 모델 고도화에 있어 인공지능 데이터 품질의 중요성에 대한 경각심을 불러일으켰다"며 "나아가 시장의 수요를 지속가능한 방법으로 제공하기 위해 사회적 취약계층의 전문 교육 및 일자리 창출 등의 긍정적인 소셜임팩트 확산의 수단으로 활용되고 있다"고 말했다.