"한국형 LLM 키운다"…정부, 24억 들여 AI 성능평가 데이터 구축

과기정통부·NIA, LLM 평가용 고품질 데이터 사업 공모…한국형 지식·문맥이해 등 집중

컴퓨팅입력 :2025/07/17 15:03    수정: 2025/07/17 15:28

과학기술정보통신부(과기정통부)가 한국형 생성형 인공지능(AI) 모델의 경쟁력을 끌어올리기 위해 성능평가용 고품질 데이터셋 구축에 나섰다. 영어 위주의 기존 평가 체계를 보완하고 국내 문화·문맥을 반영한 새로운 기준점을 제시하겠다는 전략이다.

과기정통부와 한국지능정보사회진흥원은 다음 달 7일까지 '성능 평가 데이터셋 구축 사업’의 수행기관을 공개 모집한다고 17일 밝혔다. 이번 사업은 독자 AI 파운데이션 모델 개발의 후속 조치로, 총 24억원을 투입해 수학, 지식, 장문이해 등 3개 분야에서 평가 데이터를 만든다.

평가 데이터는 한국어 기반 거대언어모델(LLM)의 성능을 정량·정성적으로 검증할 수 있도록 구성된다. 과제당 지원금은 8억원이며 수행기관은 컨소시엄 형태로 참여해야 하고 초거대 AI나 대규모 자연어처리 개발 경험이 있는 기업 또는 기관이 필수로 포함돼야 한다.

독자 AI 파운데이션 모델 사업 설명회 현장 (사진=한정호 기자)

우선 구축 대상은 ▲수학 ▲지식 ▲장문이해 등 세 가지다. 수학 분야는 한국어-영어 병렬 형태로 추론형 수학 문제와 정답을 구성하며 글로벌 고난도 문제집 수준의 난이도를 요구한다.

지식 분야는 한국형 역사·문화 등을 평가할 수 있도록 주제별 질의-정답과 추론형 문항을 포함해야 하며 글로벌 공통 지식 항목도 함께 설계해야 한다. 장문이해 분야는 32K 이상 긴 문맥을 기반으로 논리 판단, 문맥 결속력 등을 테스트할 수 있는 업무수행형 데이터가 핵심이다.

정부는 이번 공모를 통해 구축된 데이터셋을 '정예팀'뿐만 아니라 국내 모든 AI 개발기관에 공개할 계획이다. 향후 멀티모달, 에이전트 AI 영역까지 평가영역을 넓힌다는 구상도 포함돼 있다.

관련기사

(사진=과학기술정보통신부)

이번 공모는 과제 제안부터 최종 평가까지 단계별로 품질 검증과 산출물 보완 절차가 마련돼 있다. 공고는 오는 8월까지 진행되며 11월 중간 점검을 거쳐 12월 최종 평가 후 결과물이 도출된다. 이후 내년 1월부터는 본격적인 보완 및 확산이 추진된다.

김경만 과기정통부 인공지능기반정책관은 "국민이 체감할 수 있는 고성능 AI 모델을 확보하려면 평가 기준도 우리 사회와 문화가 반영돼야 한다"며 "이번에 구축되는 성능평가 데이터셋은 국내 AI 생태계 전반의 활용을 염두에 두고 공개할 예정"이라고 밝혔다.