정부, 독파모 1차 평가에 개별 벤치마크 추가…"모델별 성능 본다"

공통 13개 지표에 기업별 특화 평가 2종 더…멀티모달 기술 검증

컴퓨팅입력 :2026/01/14 10:12 수정: 2026/01/14 10:12

김미정 기자 기자 페이지 구독 기자의 다른기사 보기

정부가 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 결과를 앞두고 새 평가 방식을 도입했다.

14일 업계에 따르면 과학기술정보통신부는 기존 13개 공통 벤치마크에 기업별 개별 벤치마크 2종을 평가에 추가 적용한다.

공통 벤치마크는 전문지식, 추론, 코딩, 한국어 특화 등 거대언어모델(LLM) 기본 성능을 평가하는 지표들로 구성됐다. 모든 참여 모델은 이 13개 항목을 동일한 기준으로 검증받는다.

배경훈 부총리 겸 과기정통부 장관 (사진=지디넷코리아 DB)

여기에 각 기업이 개발한 모델의 특성을 반영할 수 있도록 개별 벤치마크가 더해졌다. 텍스트 기반 LLM뿐 아니라 이미지, 문서, 음성 등 다양한 입력을 처리하는 멀티모달·옴니모달 모델 성능도 평가하기 위한 취지다.

현재 정예팀인 네이버클라우드는 시각 정보 질의응답(Text VQA)과 문서 기반 질의응답(DocVQA)을 개별 벤치마크로 제출한 것으로 알려졌다. 다른 기업들도 각자의 모델 특성에 맞는 지표를 개별 벤치마크로 제시한 것으로 전해졌다.

관련기사

현재까지 공통 벤치마크 기준에서는 LG AI연구원 'K-엑사원' 13개 항목 중 10개에서 1위를 기록했다. 개별 벤치마크 결과는 공통 지표와 종합 평가에 반영된다.

과기정통부는 현재 1차 평가를 마무리하고 있다. 공통 성능과 모델별 특화 역량을 고려해 4개팀을 선별한다. 이번 1차 평가 결과는 15일 전후 공개된다.

김미정 기자notyetkim@zdnet.co.kr

기자의 다른 기사 보기

네이버클라우드 LG AI연구원 업스테이지 NC AI SK텔레콤 독파모 인공지능 AI

지금 뜨는 기사

이시각 헤드라인

구글에 내준 '내비게이션' 지도, 1대 5000 지도와 뭐가 다를까

[단독] 주병기 공정위장 "과자 등 가공식품 가격도 내려야"

[사스포칼립스 위기 ㊦] AI 재편기, 한국 소프트웨어 과제는 '구조 전환'

삼성 HBM4 자신감의 근원 '1c D램'…다음 목표는 수율 개선

ZDNet Power Center