정부, 독파모 1차 평가에 개별 벤치마크 추가…"모델별 성능 본다"

공통 13개 지표에 기업별 특화 평가 2종 더…멀티모달 기술 검증

컴퓨팅입력 :2026/01/14 10:12    수정: 2026/01/14 10:12

정부가 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 결과를 앞두고 새 평가 방식을 도입했다. 

14일 업계에 따르면 과학기술정보통신부는 기존 13개 공통 벤치마크에 기업별 개별 벤치마크 2종을 평가에 추가 적용한다. 

공통 벤치마크는 전문지식, 추론, 코딩, 한국어 특화 등 거대언어모델(LLM) 기본 성능을 평가하는 지표들로 구성됐다. 모든 참여 모델은 이 13개 항목을 동일한 기준으로 검증받는다.

배경훈 부총리 겸 과기정통부 장관 (사진=지디넷코리아 DB)

여기에 각 기업이 개발한 모델의 특성을 반영할 수 있도록 개별 벤치마크가 더해졌다. 텍스트 기반 LLM뿐 아니라 이미지, 문서, 음성 등 다양한 입력을 처리하는 멀티모달·옴니모달 모델 성능도 평가하기 위한 취지다.

현재 정예팀인 네이버클라우드는 시각 정보 질의응답(Text VQA)과 문서 기반 질의응답(DocVQA)을 개별 벤치마크로 제출한 것으로 알려졌다. 다른 기업들도 각자의 모델 특성에 맞는 지표를 개별 벤치마크로 제시한 것으로 전해졌다.

관련기사

현재까지 공통 벤치마크 기준에서는 LG AI연구원 'K-엑사원' 13개 항목 중 10개에서 1위를 기록했다. 개별 벤치마크 결과는 공통 지표와 종합 평가에 반영된다.

과기정통부는 현재 1차 평가를 마무리하고 있다. 공통 성능과 모델별 특화 역량을 고려해 4개팀을 선별한다. 이번 1차 평가 결과는 15일 전후 공개된다.