데이터댐 수문 개방…어떤 AI 서비스 만들 수 있나

방언·영상·헬스케어·자율주행·농축수산 등 다양하게 활용될 듯

방송/통신입력 :2021/06/18 16:34    수정: 2021/06/18 20:35

인공지능(AI) 음성인식 스피커가 경상도, 전라도 사투리도 잘 알아듣게 된다. 표준어 데이터로만 음성인식률을 높여왔고, 방언 데이터는 별도로 구축하기 어려워 AI 서비스가 품지 못하는 범위가 있었지만 이제 이를 해결할 수 있게 된 것이다.

디지털 뉴딜에 따른 데이터댐 프로젝트를 통해 한국어 방언 발화 데이터를 축적하고 이를 민간에 개방하면 국내 AI 스피커 서비스를 내놓는 회사가 활용하는 식이다. 개방 전 활용성 검토 결과 기존 서비스 인식률이 12% 향상된다는 사전 평가가 나오기도 했다.

과학기술정보통신부와 한국지능정보사회진흥원은 지난해 구축한 8대 분야 170종의 데이터를 18일부터 이달 말까지 순차적으로 개방할 예정이다.

아울러 과기정통부는 170종의 데이터 활용성 검토에 참여한 기업, 기관과 품질관리 전문기관 한국정보통신기술협회로 이뤄진 ‘AI 데이터 활용협의회’를 출범시켰다. AI 허브 데이터를 적극 활용하고, 성과를 공유하고 확산시킨다는 계획이다.

관심은 민간에 개방되는 데이터에 관심이 쏠린다.

사진 = 이미지투데이

데이터의 종류에 따라 민간에서 활용할 수 있는 분야가 명확히 구분되기 때문이다.

우선 음성과 자연어 데이터가 총 39종으로 가장 다양하게 개방된다. 사람의 언어와 음성을 인식하고 대화에 내포된 의미와 맥락까지 기계가 이해할 수 있도록 다양한 한국어 데이터를 확보한 점이 특징이다.

앞서 사례로 든 방언 데이터는 경상도와 전라도 외에도 강원도, 제주도, 충청도 등 국내 전역의 사투리를 담았다. 방언 외에도 자유대화의 경우 일반남녀, 노인남녀, 소아남녀, 유아 등 연령대별로 다양화 했다. 차량 안에서 이뤄지는 발화 데이터도 별도로 마련됐다.

영어, 중국어, 일본어 번역 말뭉치는 AI 번역 서비스 발전에 비약적인 도움을 줄 것으로 보인다. 음성 대화 외에도 수어 영상, 한자 글자체 인식 OCR 등 다양한 범위의 데이터를 활용할 수 있게 됐다.

음성인식 AI와 함께 기술개발 난이도가 보다 높은 비전 AI를 위한 학습용 데이터는 총 15종이 개방된다. 시각 지능기술의 발전을 통해 기계가 인간 수준으로 사물을 인지하고 다양한 상환 판단을 내릴 수 있도록 돕는 데이터다.

주로 방송과 광고 영상이 포함됐고, 스포츠 동작 영상도 개방된다. 비전 학습용 데이터 중에는 한국인의 감정인식을 위한 복합영상 데이터가 눈길을 끈다. 인체 움직임에 대한 동작 영상 데이터와 신체말단 움직임 영상 데이터도 마련됐다. 스포츠 동작 데이터는 축구, 농구, 골프 분야가 개방될 예정이다.

인공지능 학습용 데이터

헬스케어 관련 데이터도 총 32종으로 대거 개방될 예정이다. 의료 영상 만으로 질병을 판단하는 기술의 발전을 비약적으로 높일 수 있다. AI허브에 공개될 데이터는 위암, 대장암, 신장암, 전립선암, 간암, 담낭암, 췌장암, 폐암, 갑상선암, 유방암, 뇌혈관 질환, 치매진단, 구강질환 등 각종 데이터가 포함됐다. 또 피트니스 자세 이미지나 건강관리를 위한 음식 이미지 데이터도 개방된다.

힐스케어 데이터 가운데 27종은 개인정보나 민감정보가 포함될 우려가 있다는 점을 고려해 최종 검증을 거쳐 오는 30일에 개방할 계획이다.

자율주행 기술을 위한 학습용 데이터도 21종이나 공개된다. 도로주행 영상 뿐만 아니라 특수차선, 장애물, 노면의 포트홀 등 다양한 객체가 포함되면서 사전 활용성 검토에서도 높은 점수를 받았다.

구체적으로 살펴보면 차선과 횡단보도를 판단할 수 있는 영상, 신호등과 도로표지판 인지영상, 주차 이동체와 장애물 인지 영상, 도로장애물과 표면 영상이 공개되고, 교통약자 주행 영상이나 버스 승객 승하차 영상도 인공지능 학습으로 이용할 수 있게 됐다.

농축수산 데이터와 국토환경 데이터는 각각 14종과 12종이 개방된다. 농축수산업의 디지털 전환을 돕고 환경오염 방지 등의 서비스로 발전시킬 수 있을 전망이다.

예컨대 주요 농작물의 생육 이미지 데이터나 가축 행동영상을 통해 생산량을 높일 수 있다. 시설작물 질병진단 이미지, 노지작물 해충진단 이미지, 노지작물 질명진단 이미지도 공개된다. 아울러 산업 폐기물과 생활 폐기물 이미지를 통해 폐기물 분리 서비스에 적용하거나 국내 산림수종 이미지로 환경을 가꾸는데 활용할 수 있다.

CCTV 영상이나 이상행동, 재난상황 데이터도 공개된다. 재난과 보안사고의 선제적인 대응이 가능해질 것으로 보인다.

관련기사

CCTV 영상은 고속도로와 시내도로의 교통문제를 해결하는 기계학습에 쓰일 수 있고, 이상행동 영상을 모아 사고를 예방하는데 도움이 될 수 있다. 건물균열 탐지드론 개발을 위한 이미지나 노후 시설물 이미지, 기계시설물 상태 모니터링 데이터도 각종 재난 예방용으로 활용할 수 있는 분야다.

이밖에 상표 이미지 데이터로 가품을 적발하는 서비스를 고도화하거나 딥페이크 변조영상 데이터를 통해 딥페이크의 악용을 예방하기 위한 AI 개발에 도움을 줄 수 있다.