엔씨, LLM 수행능력 검증하는 '바르코 Judge LLM' 출시

엔씨소프트(공동대표 김택진, 박병무, 엔씨)가 국내 최초로 거대언어모델(LLM) 성능과 수행능력을 검증하는 평가모델 ‘VARCO Judge LLM’('바르코 Judge LLM')을 출시했다고 23일 밝혔다.

'바르코 Judge LLM'은 다른 LLM이 얼마나 빠르고 정확하게 작업을 수행하는지 검사하는 평가모델이다. 최근 기업들은 시장에서 서비스 중인 다양한 유형, 규모의 LLM 가운데 적합한 모델을 찾기 위해 많은 시간을 소비하고 있다. 이때 '바르코 Judge LLM'을 사용하면 보다 효과적으로 자사 AI 서비스에 적합한 LLM 모델을 검증할 수 있다.

엔씨 '바르코 Judge LLM'은 동급 모델 중 가장 우수한 LLM 편향(Bias) 문제해결 능력과 뛰어난 한국어 성능을 갖췄다.

특히 엔씨는 올해 NLP 학회 ‘EMNLP(Empirical Methods in Natural Language Processing)‘에 LLM 평가모델 논문을 게재하며 글로벌 무대에서도 기술력을 입증하는데 성공했다.

엔씨 평가모델을 활용하면 AI 기반 서비스를 만드는 기업의 경우 각종 LLM의 품질을 빠르게 비교 평가해 자사 서비스에 최적화된 모델을 채택할 수 있다.

AI 모델 연구개발 기업은 자사 LLM의 성능 수준을 평가모델로 검증해 타 모델 대비 성능 우위를 증명하거나, 약점을 빠르게 파악하여 보강할 수 있다. 모델 허브 사업자는 LLM을 선택, 최적화 및 배포하는 프로세스를 가속화함으로써 더욱 효과적으로 모델을 제공할 수 있다.