한국 AI스타트업에 아쉬운 2가지? "사람과 데이터"

마인즈랩 황이규 연구소장(CTO) 인터뷰

컴퓨팅입력 :2017/07/14 13:02

산업계에 인공지능(AI) 기술을 활용해 비즈니스 경쟁력을 높이려는 시도가 확산 추세다. 국내외 크고 작은 기업들이 AI 기술과 인력에 활발히 투자하고 있다. 이 흐름을 시장 기회 삼아 크고 작은 AI 사업자가 도약을 꾀하고 있다.

한국전자통신연구원(ETRI) 기술출자로 설립된 스타트업 '마인즈랩(MINDs Lab)'도 그 중 하나다. 마인즈랩은 2014년 1월 ETRI, PwC컨설팅, 네이버펀드 투자로 설립된 조인트벤처다. 이용자의 콜센터 상담내역(VOC)을 분석하는 솔루션 '마인즈VOC', AI플랫폼 '마음에이아이(maum.ai)', 챗봇 제작 및 구축서비스, AI 음성인식 제품 개발을 위한 'SVR킷' 등 제품을 보유했다. 주요 대기업 계열 전자, 금융, 통신, 유통업체 등에 이를 공급했다.

마인즈랩 인력 규모는 단기간에 급증했다. 지난해 이맘때 30명 남짓이었는데 1년만인 현재 80명 이상으로 불어났다. 초기 빅데이터 분석플랫폼 서비스로 시작했던 사업 영역은 AI플랫폼으로 확대됐다. 내로라하는 다국적 IT거인들도 앞다퉈 공세를 펴고 있는 영역이다. 회사가 그들과 맞설 카드는 뭘까. 회사가 보유한 AI역량과 경쟁우위를 달성하기 위한 전략이 궁금해졌다. 그래서 주초 판교 사무실에서 황이규 마인즈랩 연구소장과 인터뷰를 진행했다.

마인즈랩 연구소장 황이규 박사

황 소장은 회사의 AI분야 경쟁력 강화 차원에 아쉬운 2가지로 인력과 데이터의 확보가 어려운 환경을 꼽았다. 인터뷰를 아래 1문1답으로 정리했다.

- 마인즈랩이 보유한 AI역량을 설명해 달라

"마인즈랩은 ETRI가 기술출자한 연구소기업이다. AI가 시장에서 통하지 않을때부터 빅데이터 기반 비즈니스를 해 왔다. 구글의 '알파고'가 나오면서 AI가 누구나 아는 표현이 됐다. 우리가 AI를 전면에 내세운 회사가 된건 그 후다. 음성인식과 언어처리가 AI의 근간이라 생각한다. 이 분야 원천기술을 ETRI 출자받거나, 자연어 처리에 강점을 보유한 협력 대학교 교수 연구팀으로부터 기술이전 받거나, 공동 개발했다.

AI 관련 기술이전, 협력, 자체 개발, 3가지를 동시에 진행한다. 음성인식, 텍스트분석, 대화, 빅데이터 기술 등 분야를 넓혀 가는 형태다. 채용 인력 전문분야 역시 대부분 언어처리나 음성인식 쪽이다.

국내 다양한 대기업과 중소기업에는 ETRI 음성처리연구그룹의 기술을 이전받아 만든 솔루션을 납품했다. 한국어와 영어를 모두 처리할 수 있다. 국내 통신사나 북미 유명 기업 콜센터 상담내용을 음성인식, 텍스트분석, 자연어처리, 딥러닝 기반으로 분석해 상담효율을 높이는 과정에 우리 솔루션이 쓰이고 있다."

-개발 역량면에서 집중하는 분야를 꼽는다면

"앞서 말한 콜센터 VOC분석과, AI플랫폼, 2가지에 집중하고 있다.

AI플랫폼은, 아마존웹서비스(AWS)를 보면 클라우드 인스턴스를 통해 요청한 작업 결과를 반환하는 식의 서비스를 한다. 우리도 서비스로서 부가가치가 있는 요소, 개개의 AI기술을 고객이 플랫폼에서 API형태로 사용하게 하는 걸 염두에 두고 개발하고 있다.

예를 들어 음성인식과 텍스트 변환 API 등은 기자나 속기사의 업무부담을 줄이는 역할을 할 수 있다. 스마트 디바이스, 앱, 장난감 기기 제조사가 음성인식 기술을 직접 만들어 넣기 어렵다. 우리 플랫폼에 연동해 담을 수 있다.

인식 뿐아니라 대화를 할 수 있는 챗봇 플랫폼을 제공한다든지, 음성인식, 합성, 언어처리, 텍스트분석, 이미지분류 등 단위 서비스 API를 제공하고 적절하게 조합해 새로운 비즈니스 창출하는 생태계를 만들려고 한다. 물론 네이버나 구글이 이미 하고 있지만 (큰 회사가 미처 대응하지 못하는) 틈새 시장이 있다. 그런 타깃 시장에서 (AI 영역으로의) 진입장벽을 낮추는 역할을 하려고 한다."

-플랫폼 기반 'API서비스'에 집중하려는 건지

"플랫폼 자체를 원하는 기업도 있을 것이다. 플랫폼째 납품하는 그런 형태로도 (사업이) 가능하게 하려고 한다. 일단 플랫폼 방식으로 API 서비스를 할 수 있는 기능은 만들어 놨다. 하지만 사용자 인증체계나 과금, 모니터링 기능을 연동해야 한다. 하나하나 붙여나가는 중이다.

대기업이 아니다보니 개별 성능을 높이거나 하는 과정엔 미숙함이 보일 수 있다. 작은 서비스를 키워서 큰 목표를 이루려고 한다. 지금은 누구나 다 써볼 수 있게 AI요소가 가미된 플랫폼, 챗봇기반 서비스로 '마음에이아이'를 오픈해 놓고 있다."

-회사의 AI역량 강화를 위해 가장 필요한 게 뭔가

"사람이 가장 중요하다. 중소기업에 잘 오지 않아 문제다. 요즘 AI전공자 데려가도 제대로 활용 못할 수 있는데, 일단 다 뽑고 보는 것 같다. 기업브랜드, 네임밸류가 부족한 회사에서 사람 뽑기는 너무 힘들다. 대기업은 자체 역량 충분하면 기존 인력을 (먼저) 업그레이드시키고, (갓 졸업한 전공자가) 우리같은 회사로 올 수 있게 선순환되면 좋을 텐데.

대기업은 별도 지원 프로그램이 없어도 인력을 키워나갈 수 있지만 우리같은 스타트업엔 정부가 병역특례같은 인력지원 프로그램을 마련해 주면 좋겠다. 대기업에서 할 수 있는 것보다 우리 쪽에서 새롭고 재미난 것을 더 많이 해볼 수 있을 것 같다.

그렇게 재밌고 다양한 서비스가 나와야 시장이 커질 수 있다. 오픈소스로 공개된 알고리즘이 이미 많아, 뭔갈 재미있게 만들어보고 테스트해보고, 새로운 시장, 서비스를 만들어보면 좋은 텐데, 계속 있는 사람 위주로 가야하니까(제약이 된다). 비전공자를 뽑아 키우려면 시간이 오래 걸린다."

-인력 외에 아쉬운 점이 있다면

"부족한 데이터다. 딥러닝은 데이터를 다루는 일이다. 그런데 작은 기업이 자체 보유할 수 있는 데이터 규모엔 한계가 있다. (계열사가 콘텐츠 사업을 하는) 대기업은 음성인식 개발을 위해 드라마든 뉴스든, 전사된 텍스트가 있을 것이다. 그걸 사고 팔기도 하고. 그럼 데이터를 많이 가질 수 있다. 그들의 인프라나 기본 베이스가 되는 AI엔진 성능을 높일 수 있다.

우리같은 작은기업은 데이터를 몇십억 주고 살 수 없다. 요즘 공공재 성격의 데이터가 많이 있을 텐데, 뉴스에서 특정 회사에 들어가는 데이터를 산업발전 차원에서 공개하는 게 어떨까 하는 얘기도 나왔다고 한다. AI는 결국 '데이터 싸움'이라고들 한다. 국가 주도로 모든 기업이 다양한 데이터를 테스트해 볼 수 있게 만들 수 있을 거다.

특히 우리가 다루는 한국어 데이터는 영어권에 비해 많지 않은 상황이다. 정부 차원에서 한국어뿐아니라 신산업, AI측면 관점에서 데이터 발굴해서 활용을 장려하고 저렴하게 공급하면 좋지 않을까.

한국에도 많은 카드사 거래데이터가 있다. 보유 회사는 그걸로 뭔가 하지만 당사자는 그게 자기 데이터인데도 그 내용을 모른다. 당사자에게 돌아가는 혜택이 없다. 이걸 적절한 방법으로 같이 활용할 방법을 찾으면 좋겠다. 누구나 그렇게 할 수 있게 하면 새로운 비즈니스 모델도 만들어질 거다."

-마인즈랩 AI분야 연구자들은 학계와 산업계 교류가 활발한지

"아직까지는 최소한의 공개를 할 수밖에 없는 입장이다. 학회활동을 활발히 하진 않고 실제 연구개발하는 쪽, 그 분야의 '잘 하는 분들'과는 컨택해 얘길 들어보고 기술이전이나 협력을 논의한다. 학교에는 장비 부족하면 대 줄 수 있고, 데이터 같이 만들어서 공유도 하고.

앞서 말했듯 데이터를 공개하는 곳이 거의 없고, 학교는 데이터를 스스로 만들기 어렵고 하니까(협력해서 만든다). 우리는 '학습센터'를 내부적으로 갖고 있어, 데이터 만들어서 공유하고 실험해보고 하는 활동을 진행하고 있다."

-학습센터에선 어떤 일을 하나

관련기사

"AI 학습에 필요한 데이터를 다루는 곳이다. 잘못된 정보를 스스로 인지하지 못하는 AI를 위해, 사람 손이 필요한 일을 한다. 학습할 데이터를 정제, 관리하고 틀린 정보를 수정해 준다."

마인즈랩은 강원창조경제혁신센터와 협력해 'AI튜터'라는 교육 프로그램을 운영하고 있다. AI튜터는 마인즈랩이 AI, 챗봇 같은 기술에 관심이 있는 대학생과 일반인에게 제공하는 전문교육이다. 수강자 중 마인즈랩에 채용된 사람들이 학습센터에서 데이터 다루는 일을 하고 있다. 부족한 인력을 스스로 확충하기 위해 마련한 자구책이다. 수강자 중 현업 엔지니어나 컴퓨터공학전공자 비율이 높지만, 비전공자, 문과 계열도 없지 않다.