"AI 모델 순위 매기는 '리더보드'는 과장됐다"

개발사, 모델에 평가데이터·유사데이터로 점수 뻥튀기…"홍보 수단으로 전락"

컴퓨팅입력 :2024/03/26 14:50

인공지능(AI) 언어모델의 성능을 측정해 순위를 매기는 리더보드 점수가 과장됐다는 지적이 이어지고 있다. 기업들이 임의로 데이터를 조정해 모델 점수를 높여 이를 홍보나 투자 유치를 위한 수단으로 활용한다는 이유에서다.

최근 기업들은 자사 거대언어모델(LLM)이나 소형언어모델(SLM) 성능이 오픈AI의GPT-4를 뛰어넘었다는 소식을 전하고 있다. 기준은 깃허브나 허깅페이스, 오픈 Ko-LLM 리더보드 순위다. 오픈 Ko-LLM 리더보드는 한국지능정보사회진흥원(NIA)과 업스테이지가 지난해 구축한 한국어 전용 리더보드다.

개발사가 리더보드에서 모델 등수를 받으려면 몇 가지 과정을 거쳐야 한다. 

AI 모델 성능을 측정해 순위를 매기는 리더보드 점수가 과장됐다는 지적이 이어지고 있다. (사진=이미지투데이)

우선 모델은 벤치마크 테스트를 받는다. 벤치마크는 특정 작업에서 모델 성능을 비교하는 테스트다. 이를 통해 모델은 점수를 받는다. 점수에는 답변 정확성, 속도, 견고성 등으로 이뤄졌다. 모델은 이를 기반으로 리더보드에서 순위가 매겨진다. 

"답안지 보고 문제 푸는 셈...기업 홍보·투자 유치 수단"

국내 전문가들도 기업들이 평가 과정 틈새를 이용해 모델 벤치마킹 점수와 리더보드 순위를 조작하고 있다고 입을 모았다.

기업들이 평가 과정 틈새를 이용해 모델 벤치마킹 점수와 리더보드 순위를 조작하고 있다. (사진=깃허브 홈페이지 캡처)

익명을 요청한 국내 AI 기업 대표는 "개발사가 모델에 학습데이터가 아니라 이미 테스트를 거친 공개 평가데이터를 입력해 점수와 등수를 올린다"고 지적했다. 그는 "마치 모델이 시험 답안지를 한번 훑고 문제를 푸는 것과 같은 것"이라며 "당연히 벤치마크 점수와 리더보드 순위가 급상승할 수밖에 없다"고 덧붙였다. 

한 국내 대학 연구원은 "보통 벤치마크에서 동일한 질문을 여러 모델에 물어봐야 성능 평가가 가능하다"며 "같은 질문을 했을 때 나오는 답변 수준에 따라 리더보드 순위가 매겨지기 때문"이라고 설명했다. 연구원은 "AI 개발사들은 타사 모델이 답했던 데이터를 단순 참고용으로만 활용해야 하는데, 이를 아예 자사 모델에 집어넣는 행태를 취하고 있다"고 악용 사례를 지적했다.

그는 "현재 벤치마크 종목도 공개된 상태"라며 "개발사는 평가 데이터를 모델에 넣지 않아도, 벤치마크 종목과 유사한 데이터를 생성할 수는 있다"고 설명했다. 모델이 벤치마크 종목 데이터를 집중 학습함으로써 점수를 올릴 수 있는 셈이다.

이런 상황은 해외서도 발생했다. 앞서 마이크로소프트는 SLM '파이-1'이 리더보드에서 오픈AI의 GPT-3.5를 능가했다고 발표한 바 있다. 당시 미국 개발자들은 해당 모델을 직접 테스트한 후 점수가 과장됐다고 지적했다. 이를 증명하는 논문까지 발표된 바 있다. 

기업이 자사 LLM을 리더보드 상위권에 올리면 해당 기업 주가도 덩달아 오른다. (사진=픽사베이)

개발사들이 자사 모델에 '리더보드 1위' 이름표를 붙이려는 이유는 따로 있다. 모델 홍보 효과와 투자 유치에 유용한 수단이기 때문이다. 업계 관계자는 "기업이 자사 LLM을 리더보드 상위권에 올리면 해당 기업 주가도 덩달아 오른다"며 "추후 투자자들에게도 이를 적극 어필한다"고 설명했다. 

그는 "투자가 급하거나 주식 상승 효과를 보고 싶은 기업이 리더보드를 통해 자사 모델 홍보를 하는 추세"라며 "돈 있는 기업이거나 AI 전문가들은 리더보드에 관심 없다"고 했다.

업스테이지 "해당 현상 알고 있어…조치 논의 중"

지난해부터 NIA와 오픈 Ko-LLM 리더보드를 운영하는 업스테이지도 해당 현상을 인지하고 있다고 밝혔다.

관련기사

오픈 Ko-LLM 리더보드를 운영하는 업스테이지도 해당 현상을 인지하고 있다고 밝혔다. (사진=홈페이지 캡처)

업스테이지 관계자는 "벤치마크 항목은 공개 정보"라며 "개발자는 유사 데이터를 생성할 수 있어 악용 사례가 나올 수밖에 없는 구조"라고 설명했다. 기업이 모델 학습 범위를 평가데이터로만 한정해 점수만 올리려는 '오버피팅'이 가능한 셈이다. 다만 "자사 리더보드는 프라이빗 데이터셋으로 운영된다"며 "개발사가 평가 데이터를 직접 넣을 순 없다"고 덧붙였다.

관계자는 "최근 기업들이 오버피팅으로 모델 점수와 순위를 높이는 상황을 알고 있다"며 "이는 리더보드 생태계 취지와 부합하지 않는다"고 했다. 그는 "업스테이지는 내부적으로 오버피팅을 비롯한 유사 데이터 생성 방지를 막기 위해 징벌 조치를 논의하고 있다"며 "NIA와 상의를 통해 리더보드 평가 과목, 방식을 전면 교체함으로써 악용 사례를 막을 계획"이라고 말했다.