셀렉트스타, AI 학습데이터 구축 트렌드 보고서 발표

자연어 처리, 자연어 이해 등 동향 담아...블로그에 공개 다운 제공

중기/스타트업입력 :2022/08/09 15:12

셀렉트스타(공동대표 김세엽, 신호욱)는 인공지능(AI) 학습데이터 구축 트렌드를 담은 '셀렉트스타 인공지능 인사이트’를 9일 발표했다고 밝혔다.

셀렉트스타는 인공지능 학습데이터 플랫폼인 회사다. 2018년부터 올해 상반기까지 약 5년간 14개 분야의 데이터를 수집·가공했다. 프로젝트 금액이 큰 순으로 보면 ▲언어(40.2%) 분야가 가장 크고 ▲뷰티(6.4%) ▲예술(5.6%) ▲사람(5.3%) ▲건강(4.4%) ▲동물(4%) ▲자동차(3.8%) ▲식품(3.7%) 순이었다.

셀렉트스타가 발표한 이번 인사이트 자료에 따르면, 언어 데이터는 주로 자연어 처리(NLP)나 자연어 이해(NLU)에 활용됐다. NLP와 NLU는 스마트 어시스턴트, 음성 인식, 검색 결과, 언어 번역, 텍스트 분석, 키워드 분석 등 활용 범위가 넓은 것이 특징이다. 특히 초기 AI가 단순히 문구나 문서를 인식했다면, 이제는 사람 감정이나 특징(사투리, 악플 등)까지 파악이 가능하다고 셀렉트스타는 설명했다. 음성 AI도 초기에는 단순히 언어를 인식하는 것에서 출발했지만, 이제는 인식에서 나아가 사람의 감정을 읽거나 표현하는 단계로 진화하고 있다고 덧붙였다.

보고서에 따르면, 2020년 전후 AI 기반 초개인화 기술 연구개발도 활발해졌다. 시장 중심이 판매자에서 구매자로 옮겨갔고, 온라인 구매가 증가하면서 추천과 고급 검색, 채굴, 매칭 알고리즘 등 초개인화 AI 개발과 고도화를 위한 학습용 데이터 수집과 가공 필요성이 커졌기 때문이다.

특히 AI 기술 기반으로 시장에 뛰어든 스타트업이 늘면서 다양한 분야의 학습데이터가 구축되고 있다. 예컨대 셀렉트스타는 ▲개인 취향 맞춤 의류 추천 AI를 위한 의류 및 패션 이미지 태깅 데이터셋 ▲소비자 만족도 분석 AI를 위한 상품 리뷰 데이터셋 ▲음악 리뷰에 대한 감정 태깅 데이터셋 ▲건강 관리 AI를 위한 홍채 이미지 라벨링 데이터셋 ▲코로나19 시대 안면 인식을 위한 마스크 착용 사진 수집 및 라벨링 데이터셋 등을 구축했다. 현재까지 국내 시장은 PoC(기술검증) 형태가 중심인데, 이는 서비스나 사업 성공에서 ‘AI 성능’ 보다는 다른 요인의 영향이 비교적 크기 때문이라는 게 셀렉트스타 분석이다.

신호욱 셀렉트스타 대표는 "셀렉트스타는 인공지능을 개발하는데 필수적인 ‘정확하고 일관된 학습데이터’를 생산하는 회사"라며 "200개 이상 타사와 협업을 통해 어떤 회사에서 어떤 인공지능을 만드는지 파악할 수 있기 때문에 이번 인사이트 자료를 발표할 수 있었다”고 설명했다. 이어 "AI 성능 향상은 데이터의 생산 및 관리 수준 규모와 비례한다”며 “AI 트랜스포메이션이 세계적 트렌드인 만큼 국내 AI 시장의 잠재력도 높다"고 강조했다. 셀렉트스타 인공지능 인사이트에 대한 자세한 내용과 파일 다운로드는 셀렉트스타 공식 블로그에서 가능하다.