인공지능(AI) 시대를 맞아 각국 IT 기업들의 ‘소리 없는 총성’이 이어지고 있다. 우수한 개발인력을 확보해 한발 앞선 AI 기술력을 갖추려는 ‘쩐의 전쟁’도 치열하다.
AI 강자가 되려는 모든 기업들의 공통적인 활동은 바로 양질의 ‘데이터’ 모으기다. 똑똑한 AI가 되기 위해서는 학습에 필요한 다량의 데이터가 반드시 필요하기 때문이다. 예를 들어 강아지 사진을 보고 AI가 스스로 강아지인 것을 인식하기 위해서는 수천, 수만장의 강아지 사진을 AI에 학습시켜야 한다.
2017년 설립된 딥네츄럴은 ‘고품질 데이터 공급으로 AI를 더 똑똑하게 발전시켜 삶을 더 행복하게 만든다’를 비전을 가진 AI 학습데이터 전문기업이다. 이 회사는 AI 비서인 ‘프라이데이’를 개발해 크라우드소싱 레이블러들의 레이블링(예를 들어 동물 사진을 보고 이것은 고양이, 이것은 강아지처럼 이름을 붙여주는 것) 작업과 검수 효율성을 높이고 있다. 데이터 특성에 따라 가공이 가능하도록 데이터 가공 작업도구를 설계, 제작해 고품질 학습 데이터 구축을 돕는다.
이 같은 전문성과 경쟁력을 바탕으로 딥네츄럴은 3년 연속 데이터 한국데이터산업진흥원(K-DATA)이 주관하는 ‘데이터 바우처 지원사업’의 공급기업으로 선정됐다. 특히 올해는 판매기업으로써도 참여, YTN과 구축한 ‘딥네츄럴↔YTN 한국어 음성인식 데이터’를 판매하게 됐다.
난이도 높은 학습 데이터 구축 전문...올해 100억 매출 목표
딥네츄럴은 난이도가 높은 학습 데이터 구축이나, 전문 지식을 요하는 언어데이터(코퍼스) 구축 전문이다.
이 회사는 2019년 본엔젤스로부터 5억원 초기 투자를 받고, 지난해 TIPS 지원사업을 통해 5억원을 추가 투자 받았다. 현재는 시리즈A 투자 유치를 준비 중이다. 2019년 10명이던 임직원수는 현재 66명까지 늘었다.
딥네츄럴은 데이터 바우처, AI 바우처, 한국지능정보사회진흥원(NIA) 학습용데이터 구축사업 등 정부의 데이터 댐 사업에서 다양한 성과를 냈다. 이 회사는 크라우드소싱과 머신러닝 기술을 접목해 AI 학습 데이터 구축 프로세스의 효율성을 높이고 있다. AI 비서인 프라이데이를 통해 레이블링과 검수 효율성을 높이는 ‘오토 레이블링’ 기술을 프로젝트에 적용시키고 있다.
프라이데이가 1차적으로 레이블링을 진행하고 사람들이 검수 및 수정하거나, 크라우드 작업자들의 작업 결과물 중 정확도가 낮을 것으로 예측되는 작업물부터 사람에게 검수를 요청한다. 이를 통해 빠르고 효율적으로 데이터 구축 프로세스를 발전시키고 있다. 또 이를 더욱 잘할 수 있도록 ‘액티브 러닝’, ‘트랜스퍼 러닝’을 적용해 데이터 가공 시 작업속도와 품질은 높이고 비용은 낮추고 있다.
박상원 딥네츄럴 대표는 카이스트와 TU 베를린에서 기계학습 기반 자연어처리를 공부했다. 회사는 올해 100억원 매출 달성을 목표로 정했다.
박상원 대표는 “딥네츄럴이 운영하는 크라우드소싱 플랫폼 레이블러는 지난해 대비 누적 가입자가 1500% 이상 증가하는 등 퀀텀 점프를 달성했다”면서 “2019년 데이터 바우처 지원 사업 공급기업으로 선정됐고, 같은 해 8월 베타서비스 시작 이래로 금융, 의료, 언어, 교육 등 다양한 분야의 기업이 고품질 학습데이터를 가공하고, 서비스 성장의 기반을 닦았다”고 말했다.
이어 “딥네츄럴은 지속적으로 레이블러 플랫폼을 통한 데이터 구축 생산성을 증가시키고, 더 많은 기업과 작업자가 쉽고 효율적으로 데이터 라벨링 프로세스에 참여할 수 있도록 노력을 아끼지 않을 계획”이라며 “한국 1위 데이터 플랫폼을 넘어 글로벌 데이터 플랫폼으로 성장해 나가겠다”고 강조했다.
AI와 데이터로 삶 바꾸는 서비스 만들고픈 기업 찾아...꼼꼼한 AI 컨설팅 강점
딥네츄럴이 데이터 바우처 사업에 참여하게 된 계기는 AI 개발에 필요한 학습 데이터 가공과 이를 학습시킬 시스템, 인력 관리에 어려운 기업들을 돕기 위해서다. 이 회사는 AI와 데이터로 삶을 바꿀 만한 서비스를 만들고 싶은 기업들의 고민을 해결하고, 함께 AI를 더 똑똑하게 만든다는 취지로 2019년부터 3년 연속 데이터 바우처 사업을 진행한다는 설명이다.
딥네츄럴은 이미지, 텍스트, 오디오, 비디오 등 다양한 데이터에 대한 수집 및 가공을 진행하고 있다. 데이터 구축과 활용에 대한 고민이 있고 학습데이터를 필요로 하는 수요기업을 찾고 있다. 특히 데이터 수집과 가공, 혹은 AI 엔진 개발을 통해 무엇을 만들고자 하는 명확한 방향성을 갖고 있는 기업들을 더욱 적극 지원할 수 있다고 설명했다.
딥네츄럴이 꼽은 경쟁력은 꼼꼼한 AI 컨설팅이다. AI, 데이터 프로젝트 관리 경력 10년 이상의 전문가들이 정확도 높은 고품질 데이터를 제공한다. 특히 1:1 기업 전담 프로젝트 매니저 제도를 운영해 기업 맞춤형 프로젝트를 운영한다. 신속한 이슈 대응과 고객만족도 제고를 위해 힘쓴다는 방침이다.
AI 학습데이터 구축에 있어 딥네츄럴이 생각하는 가장 중요한 요소는 ‘작업자 관리’와 ‘산출물 품질 관리’다. 양질의 학습데이터를 위해서는 그만큼 학습데이터를 만드는 사람들의 퍼포먼스가 가장 중요하기 때문이다. 딥네츄럴은 다수의 작업자(크라우드워커)가 자신의 능력을 가장 잘 발휘할 수 있는 시스템에 집중하고 있다. 즉 크라우드소싱을 가장 잘 하는 방법을 찾고 집중한다는 뜻이다.
딥네츄럴의 데이터 가공 플랫폼인 ‘레이블러’에서 프로젝트 참여 작업자들은 데이터 가공 방법, 가공 시 주의 사항에 대한 내용이 담긴 문서를 충분히 숙지해야만 작업에 참여할 수 있다. 이를 통해 작업자들의 초기 결과물 품질을 높이고, 빠르게 프로젝트 작업에 적응하고 높은 품질을 낼 수 있도록 돕고 있다.
또 레이블러는 고객사로부터 작업도구 사용자 횐경(UI)과 사용자 경험(UX)이 우수하다는 평을 받는다. 작업자들이 쉽고 빠르게 익힐 수 있기 때문이다. 또 AI 비서인 프라이데이가 데이터 구축 작업을 돕는다. 자체 크라우드소싱 플랫폼 레이블러에는 약 10만 명 가량의 작업자가 활동 중이며, 난이도 높은 데이터 가공부터 스마트폰을 통한 간단한 이미지, 오디오 데이터 수집 등을 진행하고 있다. 고객사는 작업자의 특성(성별, 연령대, 전공 등)과 공개 여부 등 다양한 속성을 반영해 프로젝트를 개설하고 운영할 수 있다. 자체 프로젝트 관리 시스템을 통해 적재, 작업 및 검수상황을 조망하고 편리하게 관리할 수 있다.
■ "파괴적 역량 가진 기술 스타트업 잠재력 끌어내야...말뭉치 확보도 필요"
딥네츄럴은 정부가 디지털 뉴딜, 데이터 댐 정책을 시행함으로써 기업과 창업자의 AI 접근성은 물론, 일반인의 데이터 라벨링 및 AI에 대한 장벽이 낮아졌다는 평가다. 또 각 지자체에서 데이터 라벨러 양성 교육을 진행하고 개인이 관심만 있다면 이에 대한 학습도 온라인으로 가능해진 점도 긍정적으로 바라봤다.
하지만 이 같은 정보에 소외된 계층이 여전히 존재한다는 입장이다. 정부 정책을 알지 못하거나 접할 기회가 여전히 부족하다는 지적이다. 이에 작업 공간과 기기를 지원하고, 소외계층에게 보다 폭넓은 홍보 정책을 펼친다면 데이터 댐 정책의 효과가 더 클 것이라고 조언했다.
아울러 각 공공기관에서 진행 중인 학습용 데이터 국책 과제는 오픈소스로 활용될 데이터를 만드는 것을 목표로 하는데, 크라우드소싱을 활용해보면 좋겠다고 제언했다. 예를 들어 AI CCTV 기반 교통관제 시스템 구축을 위해 필요한 학습 데이터를 민간과 협력해 크라우드소싱으로 가공해보는 것이 가능하다는 설명이다.
관련기사
- 통합번역 플리토, 고품질 ‘언어 데이터’로 AI 리더 꿈꾼다2021.03.24
- AI에 필요한 모든 데이터를 쉽고 빠르게 ‘크라우드웍스’2021.03.23
- 크라우드웍스, 고객사와 ‘AI EXPO’ 참여2021.03.24
- 탄력받는 데이터 경제‥"내년 데이터바우처 예산 15% 확대"2020.12.11
나아가 딥네츄럴은 AI 기술력은 AI에게 학습시킬 수 있는 코퍼스(말뭉치)의 확보 수준에 따라 갈릴 수 있는데, 상대적으로 부족한 우리나라 말뭉치 수를 확보하는 것이 필요하다고도 덧붙였다.
이 회사는 “한국 IT 시장은 작지만 파괴적인 역량을 가진 수많은 기술 스타트업, 특히 AI 스타트업들이 다수 포진해 있다”면서 “이들이 가진 잠재력을 어떻게 더 이끌어낼지에 대한 숙제를 국가가 인지하고 이를 풀어나가려고 노력하는 만큼, 앞서 언급한 몇 가지 문제가 해결된다면 AI강국 코리아로서의 전망은 밝다”고 평했다.