"AI용 데이터, 멀티모달 더 모아달라"

과기정통부가 개최한 'AI데이터 융합 네트워크 발족식'서 기업들 여러 제안

컴퓨팅입력 :2023/09/09 23:02    수정: 2023/09/10 07:56

"AI용 멀티모달 데이터를 모아달라"(이충희 엔씨소프트 실장)

"데이터 도네이션(기부)시 인센티브를 달라"(임영익 인텔리콘 대표)

"의료용 데이터는 모으는데 시간이 많이 걸린다. 다년간 과제가 필요하다"(김종엽 건양대 의생명연구원장)

"도메인 기업과 초거대AI 기업이 협업할 수 있는 장을 만들어달라"(허은아 에이아이포펫 대표

과학기술정보통신부가 8일 서울 을지로 롯데백화점 인근 이비스앰배서더명동호텔에서 개최한 'AI 데이터 융합 네트워크 발족식'에 참석한 민간 위원들은 AI용 데이터 구축 방향에 대해 이 같은 제안을 내놨다. 지난 몇년간 과기정통부는 한국지능정보사회진흥원(NIA)을 통해 한국어, 헬스케어, 교통 등 6대 분야 381종 데이터를 구축, AI허브를 통해 제공했다. 

 이날 행사는 △법률 △의료 △교육 △지능행정 △교통·물류 △제조·로보틱스 △콘텐츠 △재난·안전·환경 △국방 △농림축수산 등 10대 전략 분야별로 각 10명 내외의 위원을 선정, 산업 분야별 AI 활용과 확산 동향을 공유하고 내년도 AI 데이터 과제 발굴을 기획하기 위해 마련됐다. 

기업체 제안에 앞서 김동환 포티투마루 대표가 '초거대 인공지능 동향 및 쟁점'을 주제로, 또 최우석 과기정통부 인공지능확산팀장이 '초거대AI 데이터 정책 방향'을 주제로 강연을 했다.

첫번째 제안을 한 엔씨소프트 이치훈 실장은 데이터 저작권 문제가 꼭 고려돼야 한다면서 "데이터가 아직 부족하긴 하지만 그래도 예전에 비하면 많이 나아졌다. 대량의 데이터를 학습한다고 무조건 성능이 좋아지는 건 아니다. 이제 양질의 데이터, 책이나 블로그, 보고서 같은 양질의 데이터를 많이 만드는 게 필요하다"고 말했다. 또 글로벌테크 기업들과 직접 경쟁하기엔 역부족이니 "차별화된 모델을 만드는 게 필요하다"면서 "도메인별 데이터 구축이 요청된다"고 덧붙였다. 이어 기존에는 텍스트 위주로만 데이터를 많이 만들었다면서 "음성이나 텍스트처럼 텍스트로 이미지를 만들거나 음성 같은 걸 만들 수 있는 멀티 모델 데이터가 굉장히 필요하다"고 건의했다.

과기정통부가 박윤규 차관(왼쪽줄 왼쪽 두번째)이 참석한 가운데 기업인들과 AI용 데이터 구축 사업에 관한 간담회를 8일 개최했다.

이어 김종엽 건양대 교수는 의료쪽은 다른 도메인에 비해 데이터를 구축하는데 물리적 시간이 오래 걸리며 예산만큼이나 중요하다면서 "다년 과제 등 긴 시간이 필요하다"고 짚었다. 그는 의료진 대부분이 노동지배적으로 하루종일 일하고 대부분 밤에 데이터를 구축해야 하는 상황이라면서 "올해도 몇달안데 데이터를 다 구축해야 하는데 이렇게 짧은 시간가지고는 절대로 양질의 데이터를 만들 수 없다"고 진단했다. 김 교수는 데이터를 모으는데 의사 참여가 막중한데도 기금 사업 특성상 의사들이 연구수당을 받을 수가 없다며 이 문제도 해결해달라고 제안했다.

포티투닷 김준석 상무는 보다 복잡한 환경에서 사용할 수 있는 데이터 수집을 요청했다. 그가 일하고 있는 포티투닷은 모비스나 글로비스 같은 현대자동차 그룹에 속한 회사로 현대자동차에 필요한 소프트웨어를 제공하고 있다. 김 상무는 "예를 들면, 혼자서 어떤 작업 환경에서 음성 인식하는 거는 누구나 할 수 있다. 하지만 실제로 이제 서비스를 운영하다 보면 혼자가 아니라 차 안에서 여러 명이 동시에 말하는 그런 상황도 있다. 또 도로 표지판이라든지 책에 있는 글자를 인식하는 OCR은 쉽지만 자율주행을 하다 카메라를 통해 거리에서 간판에 있는 글자를 인식하는 기술은 더 힘든데 이런 데이터가 필요하다"고 말했다. 김 상무는 실시간 데이터를 받을 수 있는 플랫폼 구축도 필요하다고 밝혔다.

지난 10년간 법률AI를 연구한 임영익 인텔리콘 대표는 과제가 끝나면 기업이 빠지는데 지속성장 차원에서 기업이 학습 데이터를 기부(도네이션) 했을때 인센티브를 주는 제도 도입이 필요하다고 제안했다. 법률 분야 양질의 AI데이터를 구축하기 위해선 데이터 가공때 법률전문가나 변호사가 참여하는 방안 마련도 요청했다.

 학습데이터는 저작권에서 시작해 저작권에서 끝난다고 짚은 그는 "판례에 관한 법률 데이터는 저작권이 없기 때문에 사용하기 쉽다. 진짜 양질의 데이터는 대법원이 가지고 있다"면서 "하지만 개인정보보호 등으로 오픈하지 않고 있다"고 들려줬다. 

임 대표는 대법원 데이터 다음으로 좋은 건 주석 데이터인데 이는 라이선스 문제가 있을 수 있다면서 "이건 국가가 도와줘야 한다"고 제안했다. 

반려동물 사업을 하고 있는 허은아 에이아이포펫 대표는 농축산과 관련한 데이터는 대부분 소, 돼지 같은 동물 쪽이고 반려동물과 관련한 데이터는 몇 종 없다면서 "반려동물과 관련한 데이터가 해외에도 사실은 거의 없다. 그래서 우리 서비스가 지금 미국과 유럽 쪽으로 나가고 있다"고 말했다. 유럽에서는 "이런 데이터를 어떻게 모았냐"고 한다면서 "이런 데이터를 더 많이 모으게 도와줬으면 한다"고 밝혔다. 이어 "우리 같은 전문 도메인 기업과 초거대AI기업을 연결시켜주면 보다 경쟁력있는 서비스가 만들어질 것 같다"고 덧붙였다.

간담회에 참석한 박윤규 과기정통부 차관은 "초거대AI가 나오면서 그 전에 세워놓은 정책을 다시 짜야 할 상황"이라면서 "그동안 정부가 선진국과 달리 많은 돈을 투입해 AI허브를 만들었는데, 언제까지 재정을 투입해야 할 지 고민이다. 지원을 받은 기업이 AI허브에 다시 기부하는 방법은 없는지 궁금하다"고 말했다.

배석한 황종성 한국지능정보사회진흥원(NIA) 원장은 "돌이켜보면, 불과 전기, 컴퓨터같은 세상을 완전히 변화시킨 기술은 단순하다"고 밝혔다. 이어 오픈소스와 인프라 구축을 예로들며 "앞으로 어떻게 갈지 고민하고 연구하고 있다"고 들려줬다.

AI