한국 내 코로나19 사태의 진행상황과 환자 정보를 가공한 데이터베이스가 '캐글(Kaggle)'에 공개돼 주목받고 있다. 질병관리본부의 일간 데이터를 당장 활용 가능한 상태로 공유하는 만큼 전세계 인공지능(AI) 전문가들의 분석이 활발해질 것으로 기대된다.
한양대학교 대학원 컴퓨터소프트웨어학과 빅데이터사이언스랩의 김지후 연구원은 코로나 바이러스 데이터셋을 캐글과 깃허브에 공유 중이다.[캐글 코로나바이러스 데이터셋 바로가기]
2017년 구글에 인수된 캐글은 데이터과학자 및 기계학습 개발자 커뮤니티다. 데이터 과학자가 머신러닝 알고리즘으로 도전과제 해결을 경연하는 웹사이트와 대회를 운영하고 있다. 인공지능(AI) 예측모델 및 분석 대회를 열어 데이터셋이나 분석 결과로 경쟁을 유도하고 기술발전을 독려한다. 높은 순위에 오른 개발자나 데이터과학자에게 메달과 칭호 등을 수여한다.
데이터셋은 산재된 정보를 수집하고 가공 및 분류해 컴퓨터가 이해할 수 있도록 만든 정보집합체다. 인공지능을 교육하는 기계학습(ML) 과정에 필수 요소다. 다만 수많은 정보를 바탕으로 사람이 일일이 작성하고 분류하는 작업을 거쳐야 한다. AI 개발 과정에서 인력이 가장 많이 필요한 작업으로 손꼽힌다.
코로나19 바이러스는 하루에 확진자가 수백 명씩 증가하고 있다. 때문에 매일 새로운 데이터를 입력하는 작업도 쉽지 않은 상황이다. 이에 김 연구원은 주변 사람에게 도움을 요청해 공동작업으로 진행 중이다.
김지후 연구원은 “각자의 위치에서 할 수 있는 일을 통해 하루 빨리 극복하기를 바란다”며 “데이터셋을 바탕으로 유의미한 분석 결과가 나와서, 코로나바이러스 대처에 도움이 되고, 대한민국 질병관리본부의 대처 능력이 전 세계에 알려지길 바란다”고 말했다.
코로나 바이러스 데이터셋은 질병관리본부(CDC)에서 매일 공식 웹사이트를 통해 발표하는 보고서를 기반으로 만들어진다. 환자의 성별, 출생년도, 감염경로 등을 비롯해 누적검사 수 및 양성환자 수, 사망자 수 등 다양한 코로나19 관련 정보가 정리돼 있다.
현재 코로나 바이러스 데이터셋은 공개 일주일 만에 캐글에서 인기 순위 1위를 기록하고 은메달을 획득할 정도로 많은 관심을 받고 있다.
김지후 연구원은 질병관리본부에서 발표하는 내용을 매일 업데이트 중이다. 더불어 코로나 관련 검색어 트렌드를 추가하는 등 데이터셋 확장을 준비하고 있다.
김 연구원은 “코로나바이러스로 인해 많은 사람이 힘든 시간을 보내고 있어 내가 할 수 있는 일은 데이터로 무언가 하는 것이라고 생각했다”며 “코로나바이러스 관련해서 데이터 분석을 하고 싶었는데 잘 정리된 데이터셋이 없어 직접 만들게 됐다”고 작업을 시작한 계기를 설명했다.
관련기사
- 한화도 두 팔 걷었다...용인 연수원 코로나 치료센터로 제공2020.03.05
- '코로나19 자가격리자 모니터링' 앱 7일 출시2020.03.05
- 중기부, 코로나19 피해 대응 추경 1조7천억 지원2020.03.05
- 코로나19 치료용 항체 개발 속도 붙었다2020.03.05
그는 “캐글은 전 세계 데이터과학자 모여 있는 만큼 내가 생각치 못한 다양한 시각화 및 분석 결과가 나올 것을 예상해 데이터셋을 영문으로 공유했다”고 밝혔다.
이미 여러 데이터과학자가 김지후 연구원의 데이터셋을 바탕으로 한 분석과 예측을 공개하고 있다. 참여자 증가에 따라 더 많은 성과가 나올 것으로 예상된다.