정부, AI 학습용데이터 첫 전수조사…'AI허브' 경쟁력 높인다

민간 수요 반영해 데이터 100종 선정…비식별·품질 보완 거쳐 단계적 공개

컴퓨팅입력 :2026/04/10 12:01    수정: 2026/04/10 13:20

정부가 공공 인공지능(AI) 학습용데이터 자산을 체계적으로 관리하기 위한 조사에 들어갔다.

과학기술정보통신부는 한국지능정보사회진흥원과 전 부처·공공기관 대상으로 'AI 학습용데이터 현황조사'를 실시한다고 10일 밝혔다. 이번 조사는 생성형 AI 확산에 따른 데이터 수요 증가에 대응하기 위한 범부처 첫 전수조사다.

이번 조사는 기존 구축된 데이터뿐 아니라 향후 가공을 통해 활용 가능한 데이터까지 포함하는 것이 특징이다. 단순 보유 현황 파악을 넘어 실제 AI 학습에 활용 가능한 데이터 후보군 도출에 초점 맞췄다.

(사진=과학기술정보통신부)

조사 항목은 데이터 유형과 구조, 구축 목적, 제공 가능 범위 등으로 구성됐다. 정부는 표준화된 조사 체계를 적용해 데이터 활용 가능성을 객관적으로 평가할 계획이다.

과기정통부는 조사 결과 바탕으로 AI 학습 활용 가능성이 높은 데이터 100종을 선정한다. 선정 과정에서는 전문가 심층 인터뷰와 민간 수요조사를 반영해 실질적 활용성을 높일 방침이다.

선정된 데이터는 품질 보완과 비식별 조치를 거쳐 통합제공체계를 통해 제공된다. 공개가 어려운 데이터는 데이터 안심구역을 활용해 제한적으로 개방된다.

관련기사

정부는 기존 AI허브를 'AI 학습용데이터 통합제공체계'로 고도화하고 공공과 민간 데이터를 함께 집적하는 플랫폼으로 확장할 계획이다. 이를 통해 데이터 발굴 확보 활용으로 이어지는 선순환 구조를 구축한다는 구상이다.

김경만 과기정통부 AI정책실장은 "AI 성능과 품질 핵심은 활용 가능한 풍부한 데이터에 있다"며 "이번 조사를 통해 공공부문이 보유한 AI 학습용데이터 자산을 체계적으로 발굴하고 이를 편리하게 활용할 수 있는 기반을 지속적으로 발전시켜 나가겠다"고 밝혔다.