과학기술정보통신부(과기정통부)가 한국형 생성형 인공지능(AI) 모델의 경쟁력을 끌어올리기 위해 성능평가용 고품질 데이터셋 구축에 나섰다. 영어 위주의 기존 평가 체계를 보완하고 국내 문화·문맥을 반영한 새로운 기준점을 제시하겠다는 전략이다.
과기정통부와 한국지능정보사회진흥원은 다음 달 7일까지 '성능 평가 데이터셋 구축 사업’의 수행기관을 공개 모집한다고 17일 밝혔다. 이번 사업은 독자 AI 파운데이션 모델 개발의 후속 조치로, 총 24억원을 투입해 수학, 지식, 장문이해 등 3개 분야에서 평가 데이터를 만든다.
평가 데이터는 한국어 기반 거대언어모델(LLM)의 성능을 정량·정성적으로 검증할 수 있도록 구성된다. 과제당 지원금은 8억원이며 수행기관은 컨소시엄 형태로 참여해야 하고 초거대 AI나 대규모 자연어처리 개발 경험이 있는 기업 또는 기관이 필수로 포함돼야 한다.

우선 구축 대상은 ▲수학 ▲지식 ▲장문이해 등 세 가지다. 수학 분야는 한국어-영어 병렬 형태로 추론형 수학 문제와 정답을 구성하며 글로벌 고난도 문제집 수준의 난이도를 요구한다.
지식 분야는 한국형 역사·문화 등을 평가할 수 있도록 주제별 질의-정답과 추론형 문항을 포함해야 하며 글로벌 공통 지식 항목도 함께 설계해야 한다. 장문이해 분야는 32K 이상 긴 문맥을 기반으로 논리 판단, 문맥 결속력 등을 테스트할 수 있는 업무수행형 데이터가 핵심이다.
정부는 이번 공모를 통해 구축된 데이터셋을 '정예팀'뿐만 아니라 국내 모든 AI 개발기관에 공개할 계획이다. 향후 멀티모달, 에이전트 AI 영역까지 평가영역을 넓힌다는 구상도 포함돼 있다.
관련기사
- "한국형 GPT의 필수요소"…정부, AI 학습용 데이터 민간서 직접 모은다2025.06.23
- "우승하면 최대 30억"…과기정통부, AI R&D 전쟁에 불 지폈다2025.06.18
- 과기정통부, AI 핵심 인재 키운다…추경으로 665억 투자2025.05.21
- 과기정통부, 메타·로블록스 손잡고 '가상융합 개발자' 키운다2025.05.12

이번 공모는 과제 제안부터 최종 평가까지 단계별로 품질 검증과 산출물 보완 절차가 마련돼 있다. 공고는 오는 8월까지 진행되며 11월 중간 점검을 거쳐 12월 최종 평가 후 결과물이 도출된다. 이후 내년 1월부터는 본격적인 보완 및 확산이 추진된다.
김경만 과기정통부 인공지능기반정책관은 "국민이 체감할 수 있는 고성능 AI 모델을 확보하려면 평가 기준도 우리 사회와 문화가 반영돼야 한다"며 "이번에 구축되는 성능평가 데이터셋은 국내 AI 생태계 전반의 활용을 염두에 두고 공개할 예정"이라고 밝혔다.