과기정통부가 대규모 원천 데이터와 파인튜닝 데이터 수집에 초점을 맞춘 '초거대 AI 확산 생태계 조성 사업'을 올해 처음으로 실시, 558억원을 투입한다. 이 사업은 기존 'AI학습용데이터구축사업'을 폐지, 대체한 것으로 초거대 AI 확산 생태계 조성 일환으로 추진된다. AI기업의 관심이 높은 사업이다. 지정공모 형식으로 10대 전략 분야 63개 과제를 선정해 추진한다. 이외에 온디바이스와 신뢰성 등 자유공모 7개 과제도 함께 시행한다.
이와 관련, 과기정통부는 박윤규 2차관 주재로 16일 서울 광화문 인근 한국지능정보사회진흥원(NIA) 사무소에서 '제2차 인공지능 데이터 융합 네트워크'를 개최하고 올해 시행할 '초거대AI 확산 생태계 조성 사업'을 소개했다. 발표는 여성민 인공지능기반정책과 사무관이 했다. 행사에는 박 차관 외에 엄열 과기정통부 인공지능기반정책관(국장), 이소라 데이터진흥과장,이은규 인공지능확산팀장과 황종성 NIA 원장, 신재식 총괄과제기획위원회 위원장(KAIST 교수) 등 민간 전문가들이 참석했다.
'초거대 AI 확산 생태계 조성 사업'은 ▲초거대 AI데이터 구축(504억원)과 ▲AI데이터 이용 활용화(54억원) 등 두 분야로 나눠 시행한다. 사업 방향을 기존 라벨링 구축 중심에서 대규모 원천 데이터와 파인튜닝 데이터 구축으로 바꿨다. 사업 규모는 작년(2805억원)보다 크게 줄었다. 과기정통부는 "민간 주도 데이터 생태계 활성화와 생성형 AI 원천데이터 구축으로 데이터 구축 단가를 효율화했다"고 설명했다.
정부는 2017년 처음으로 AI용 데이터 수집 사업을 시행, 2020년까지 총 833종의 데이터셋(데이터집단)을 구축했다. 이중 검증을 통해 691종의 데이터셋을 'AI허브'라는 포털을 통해 민간에 개방했다. 작년에 구축한 데이터셋 142종 역시 품질검증을 거쳐 올 상반기에 개방할 예정이다. 개방한 데이터셋 종류는 총 14종류인데 이중 한국어 분야가 182건으로 가장 많다. 영상이미지(159건), 헬스케어(116건), 안전환경 (106건)도 100건이 넘는다. 이어 교통물류(95건), 농축수산(83건), 문화관광(28건), 교육(15건), 스포츠(14건), 제조(12건), 로보틱스(9건), 지식재산(6건), 법률(5건), 금융(5건), 지식재산(6건) 순으로 데이터셋을 모았다.
올해는 지정공모로 63개 과제, 자유공모로 7개 과제를 시행한다. 지정공모 63개 과제는 전문가 인터뷰와 델파이 조사 등을 통해 생성AI 분야 파급효과가 큰 10대 전략 분야를 선정했다. 첫째, 국민생활과 밀접한 분야로 국민에게 직접 생성AI 기반 전문서비스를 개발해 제공하는 ▲법률 ▲의료 ▲행정사무 ▲교육 등 4대 분야와 둘째, 산업혁신 차원에서 AI기반 콘텐츠 생성과 공정 자동화 등을 지원하는 ▲미디어‧콘텐츠 ▲제조‧로보틱스 ▲교통‧물류 등 3대 분야 셋째, 공공서비스혁신 차원에서 부처와 공공기관 수요를 바탕으로 ▲국방 ▲재난‧안전‧환경 ▲농림축수산 3개 분야에 AI를 적용한다. 이들 10대 전략 분야 외에 수요조사와 전문가 기획을 병행, 128종의 후보 과제도 발굴했다.
특히 올해 텍스트, 음성, 이미지, 영상 등을 결합한 멀티모달 데이터를 구축, 국내 생성AI 모델 및 서비스 고도화를 지원한다. 여성민 사무관은 멀티모달 데이터 구축 예로 국민생활 분야에서는 교통사고 관련 영상‧이미지 데이터와 법률‧분쟁 상담 데이터를, 산업혁신 분야에서는 한국 전통 회화 기법을 활용한 초상화 생성을 위한 이미지-텍스트 데이터를, 공공서비스 분야에서는 군 행정문서와 비파괴 검사 데이터 등 이미지‧영상‧텍스트 설명 데이터를 각각 제시했다.
이들 63개 지정과제 외에 과기정통부는 글로벌 확산과 신뢰성 및 안정성, 온디바이스의 3대 분야에서 AI정책에 추동력을 높이기 위해 7개 과제를 자유공모로 진행한다. 7개 과제 중 글로벌 확산은 아세안과 중동 등 비영어권의 글로벌 협력과 국내 AI제품과 서비스의 현지화 및 해회 진출을 돕는 차원에서 데이터를 구축한다. 또 AI 신뢰성과 안정성을 높이기 위한 과제로 생성AI 답변의 사실성과 평향성을 평가하고 사회적 위험을 초래할 수 있는 AI 능력을 완화하기 위한 데이터를 구축한다. 삼성이 AI폰(갤럭시S24)을 출시해 관심이 높아진 온디바이스 분야 데이터 구축에도 나서 로봇, 개인‧가정용 디바이스 등에 탑재해 특정한 기능을 수행하는 AI개발을 위한 데이터도 모은다.
이외에 54억원을 투입해 AI데이터 활용 활성화에도 나서는데 이를 위해 ▲리더보드를 운영하고 ▲영문 홈페이지도 만든다. 리더보드는 미국 허깅페이스의 오픈소소 LLM 리더보드를 벤치마킹 한 '한국판 허깅스페이스 리더보드'로 NIA가 현재 운영중이다. 허깅페이스의 4대 평가지표(추론능력, 상식능력, 언어이해력, 환각방지능력)외에 한국어상식 생성 능력 지표를 추가, 총 5대 지표로 평가한다.
영문홈페이지는 높아지는 국제협력 수요에 선제적으로 대응, AI허브와 기 구축한 학습용 데이터셋 정보를 소개하는 것으로, 선별한 데이터셋 샘플 데이터를 우선 시범 개방하고 협력 수요가 있을 경우 국내 구축사업자와 외국 담당자를 매칭, 국내 기업의 해외 진출을 도울 예정이다.
여성민 사무관은 "다음달 23일까지 국민 의견을 수렴하고 제 3차 총괄기획위원회에서 공모과제 RFP를 확정하겠다"면서 "사업 공고는 2월말 낼 예정"이라고 밝혔다.