업스테이지-NIA, 한국어 LLM 성능 비교·평가 플랫폼 구축

업스테이지가 한국지능정보사회진흥원(NIA)과 한국어 언어모델(LLM) 성능을 비교·평가하는 리더보드를 만든다.

업스테이지는 NIA와 한국어 LLM 리더보드 '오픈 Ko-LLM 리더보드'를 구축한다고 25일 밝혔다. 운영은 27일부터 시작한다.

오픈 Ko-LLM 리더보드는 누구나 자신이 만든 한국어 LLM 모델을 등록하고 다른 모델과 경쟁할 수 있는 공개 플랫폼이다. 해당 리더보드에 관심 있는 연구자들은 27일 이후 허깅페이스 오픈 Ko-LLM 리더보드 스페이스에서 자세한 정보를 확인하고 참여할 수 있다.

허깅페이스 오픈 Ko-LLM 리더보드 스페이스 화면. (사진=업스테이지)

이 리더보드는 허깅페이스가 운영하는 오픈LLM 리더보드 한국어판이다. 업스테이지와 NIA가 한국어 데이터 특성과 문화를 반영해 만들었다.

상식을 생성하는 능력을 살펴보는 ‘상식생성’ 기준도 추가했다. 한국어 LLM의 높은 성능과 다양성을 평가할 수 있기 위해서다. 상식생성은 업스테이지가 고려대 임희석 교수 연구진과 협업으로 구축한 데이터셋이다. 역사 왜곡, 환각 오류, 형태소 오류, 불규칙 활용 오류, 혐오 표현 등에 대한 유형을 포함한 질문지로 이뤄졌다. 이를 통해 AI가 주어진 조건에 대해서 만들어 낸 결과물이 한국어 사용자라면 지닐 수 있는 일반 상식에 부합할 수 있는지를 측정한다.