“최근 인공지능(AI) 관련 알고리즘과 개발 도구가 많이 공개됐지만 핵심요소인 데이터의 부족으로 인해 기술력이 있어도 사업을 시작하지 못하는 사례를 종종 보곤 한다. 데이터댐이 국내 AI 생태계를 일으킬 수 있는 마중물이 되길 바란다”
22일 서울시 서초구 사옥에서 만난 유진규 에이아이트릭스(AITRICS) 대표는 위와 같이 말하며 디지털댐에 대한 기대감을 밝혔다.
구글, 페이스북 등 주요 IT기업에서 핵심 AI 기술을 오픈소스로 공개하며 기술관련 접근성은 낮아졌지만, AI를 학습시기 위해 가공된 데이터는 여전히 기업에서 확보하기 어렵기 때문이다.
유 대표는 “의료를 비롯해 금융 등 예측이 중요한 분야는 앞으로도 AI관련 기술이 많이 도입될 것으로 기대되지만 보안 등의 문제로 데이터 접근성이 떨어진다”며 “데이터댐을 통해 이러한 데이터에 보다 쉽게 접근할 수 있다면 더욱 빠른 성장을 기대할 수 있을 것으로 생각한다”고 말했다.
■ AI산업, 의료·금융 등 특화된 장점 부각해야
에이아이트릭스는 신약 개발 및 병원 내 응급상황 예측 솔루션 ‘바이탈케어’ 등을 개발 중인 헬스케어 관련 AI전문 기업이다. 최근 과학기술정보통신부와 한국정보화진흥원이 주관하는 ‘2020년도 인공지능(AI) 학습용 데이터 구축사업’ 과제 중 체부암 분야 수행기관으로 선정돼 해당 사업을 진행 중이다.
에이아이트릭스는 고신대학교복음병원, 경북대학교병원, 매니아마인드, 비알프레임, 에이엠스퀘어, 경북대학교 산학협력단 등 파트너사로부터 체부암 관련 데이터를 받아 갑상선암 AI 모델링 제작 및 검증, 체부암 응용 소프트웨어 개발 작업을 담당한다.
유진규 대표는 올해 시범사업을 거쳐 내년 본격화되는 AI 관련 사업에 참여하려면 의료, 제조 등 각 분야의 전문성을 갖출 것을 조언했다.
그는 “같은 AI 기술이라고 해도 분야에 따라 필요한 전문적인 기술이나 노하우가 다르다”며 “우리도 꾸준히 헬스케어 AI기술에 집중해 성과를 냈었던 것이 사업참여에 주효했다”고 설명했다.
이어서 “AI 기술 내에서도 이미지 및 영상 분석, 데이터 라벨링 등 분야가 다양해 한 기업이 모든 기술을 담당하긴 쉽지 않다”며 “현재 기업이 어떤 역량을 보유하고 있고 추후 연관된 사업을 지속할 수 있을지 전략적인 판단을 거치고 준비하길 바란다”고 말했다.
유진규 대표는 “모든 분야에서 AI가 큰 효과를 낼 것이라고 말하긴 어렵지만 생명을 좌우하는 의료나 기업의 생존에 영향을 미칠 수 있는 금융 등 미래에 대한 예측이 중요한 분야에서는 꾸준히 성장할 것으로 예상한다”며 “해당 분야에 대한 경험이나 노하우가 있다면 더욱 집중적으로 연구하는 것도 주효할 것으로 생각한다”고 전망했다.
■ AI 원천기술 만큼 데이터 가치 높아져
인공지능 학습용 데이터 구축사업은 데이터댐 구축을 통해 디지털 전환을 선도하기 위한 디지털 뉴딜 사업 일환이다.
데이터댐은 의료, 교육, 제조 등 공공 및 민간 데이터를 모두가 이용할 수 있도록 가공해 모아두는 거대한 저장소다. 대규모 기업부터 소규모 스타트업까지 제한 없이 데이터댐의 데이터를 활용해 AI를 학습시기 위한 데이터셋을 구축하거나 새로운 비즈니스 기회를 창출할 수 있는 기회를 제공하는 것을 목표로 한다.
유진규 대표는 데이터댐이 국내 AI 생태계 활성화를 위한 기반이 될 것으로 기대하고 있다.
유진규 대표는 “모든 산업이 매출 성과가 나야 투자가 이뤄지고 새로운 인력이 유입되며 다시 매출이 발생하는 선순환을 통해 성장한다”며 “AI분야는 아직 이러한 선순환이 이뤄지기엔 초기 동력이 부족한데 데이터댐이 마중물이 되길 바란다”고 말했다.
유 대표는 “구글, 페이스북 등 대형 IT기업에서 파이토치, 텐서플로 등 AI 관련 원천기술을 오픈소스로 공개하고 있어 기술관련 접근성은 상대적으로 낮아졌지만, 데이터는 구할 수가 없어 아이디어나 기술이 있어도 사업을 진행하지 못하는 경우가 제법 있다”고 설명했다.
기본적으로 AI는 다양한 데이터를 특정 알고리즘을 바탕으로 분석해 원하는 결과를 도출하는 방식이다. 즉 방대한 양의 정확한 데이터를 바탕으로 학습해야 AI의 정확성을 높일 수 있다.
페이스북의 경우 100개 언어의 직접 번역을 위해 75억 개의 번역 모델 데이터셋을 구축해 활용하기도 했다.
하지만 일반 기업이 AI 학습 데이터셋을 만들기 위해선 막대한 비용이 요구된다. 대규모의 데이터를 AI가 학습할 수 있도록 정제하고 검수하기 위해 많은 수의 인력이 필요하기 때문이다.
관련기사
- 저스트AI, 코틀린 기반 대화형 AI 개발 프레임워크 공개2020.10.29
- 마인즈랩 유태준 대표 "AI 분야 넷플릭스 되겠다"2020.10.28
- "AI도 모르는 건 모른다고 할 수 있어야 한다"2019.08.08
- 에이아이트릭스, AI 학습용 데이터 구축 사업 수행기관으로 선정2020.09.24
특히 의료와 같은 전문 분야 데이터의 경우 접근성이 더욱 떨어진다. CT, 초음파 영상 분석 작업은 전문 교육을 받은 전문가를 거쳐야 하기 때문이다.
유진규 대표는 “실제로 전문의 사이에서도 특정 영상을 두고 의견이 분분한 사례가 있는데 이런 경우는 데이터를 배제해야 오류율을 줄일 수 있다”며 “이렇게 고도로 가공된 데이터를 민간차원에서도 활용할 수 있다면 더욱 다양한 사업 기회가 열릴 것으로 기대한다”고 말했다.