인공지능(AI) 기술 패권 경쟁이 치열해지면서 AI 모델의 성능을 객관적으로 입증할 수 있는 평가 체계가 새로운 격전지로 떠올랐다. 모델을 개발하는 단계를 넘어, 우리 사회와 산업에 적합한지 검증하는 능력이 곧 국가 AI 경쟁력의 척도가 되고 있다.
18일 한국지능정보사회진흥원(NIA)은 '더 AI 리포트'를 통해 AI 성능 평가 핵심 열쇠로 '벤치마크 데이터셋'을 지목했다. 그러면서 이를 국가 차원의 필수 인프라로 구축해야 한다는 제언을 내놓았다. 과거 통계적 수치만으로는 최신 거대언어모델(LLM) 추론 능력과 문제 해결 역량을 정확히 파악하기 어렵다는 진단에서다.
보고서에 따르면 벤치마크 데이터셋은 표준화된 문제와 평가 기준을 통해 동일한 조건에서 여러 AI 모델의 성능을 비교·검증하는 테스트베드 역할을 한다. 이미 구글, 오픈AI 등 글로벌 빅테크 기업들은 범용 지식(MMLU), 수학(MATH), 진실성(TruthfulQA) 등 다양한 벤치마크 지표를 통해 자사 모델의 우수성을 입증하고 있다.
문제는 국내 평가 환경의 한계다. 현재 국내 벤치마크는 해외 유명 데이터셋을 한국어로 번역하거나 현지화하는 수준에 머물러 있는 경우가 많다. 최신 모델들의 성능이 상향 평준화되면서 기존 평가 도구의 변별력이 떨어졌지만, 법률·의료 등 전문 도메인이나 AI 안전성을 검증할 독자적인 평가 체계는 턱없이 부족한 실정이다.
특히 민간 기업이나 비영리 단체가 벤치마크 구축을 주도할 경우 구조적인 한계에 부딪힐 수밖에 없다고 보고서는 지적했다. 고품질 평가 데이터를 구축하고 유지하는 데 막대한 비용이 드는 데다, 기업 이해관계에 따라 데이터 편향이 발생할 우려가 있어서다. 이는 자본력이 부족한 스타트업이나 중소기업이 공정하게 기술력을 평가받을 기회를 박탈하는 결과로 이어질 수 있다.
보고서는 정부가 주도해 공신력 있는 '공공 벤치마크'를 마련해야 한다고 강조했다. 정부가 중립적인 위치에서 평가 인프라를 제공함으로써, 기업 규모와 상관없이 기술력만으로 공정하게 경쟁할 환경을 조성해야 한다는 것이다.
한국의 사회·문화적 특수성을 반영한 독자적 기준 마련도 시급한 과제로 꼽혔다. 글로벌 기준을 비판 없이 수용하기보다 한국 법·제도와 정서적 맥락을 이해하는 AI를 가려낼 평가 기준이 필요하다는 의미다. 이는 글로벌 AI 평가 시장에서 한국이 단순한 '기준 수용자'를 넘어 평가의 관점을 제시하는 주체로 도약하기 위한 전략적 선택이기도 하다.
관련기사
- 트럼프 2기발 미중 기술전쟁…NIA가 제시한 한국 AI 산업 현실적 해법2026.02.09
- "AI로 공공서비스 혁신"…NIA, 지능 정보화 컨설팅 본격 착수2025.07.24
- 韓 AI 벤치마크 다시 쓴다…"이젠 변호사·의사 자격 시험이 기준"2025.07.17
- "한국어 LLM 신뢰성 강화"…NIA-TTA, 학습용 데이터 유해 표현 검출 모델 공개2025.04.14
보고서는 성공적인 벤치마크 생태계 조성을 위해 산·학·연이 협력하는 거버넌스 구축을 제안했다. 실제 산업 현장에서 필요한 평가 과제가 무엇인지에 대한 사회적 합의가 선행되어야 한다는 취지에서다. AI 발전 속도에 맞춰 데이터를 갱신하고, 평가 결과의 신뢰성을 담보할 수 있는 리더보드 운영 등 관리 체계 마련에도 정부의 역할이 요구된다.
정현영 NIA 인공지능정책실 미래전략팀 선임연구원은 "벤치마크는 단기 성과 비교를 넘어 정부가 책임지고 운영해야 할 국가 차원의 AI 평가 인프라"라며 "국내 AI 기술 고도화와 산업 경쟁력 강화를 뒷받침하는 기반으로 기능할 수 있다"고 말했다.











