"업스테이지 AI 모델, 챗GPT보다 수학 잘 해"

업스테이지(대표 김성훈)는 수학 도메인 특화 인공지능(AI) 모델 성능이 글로벌 벤치마크 테스트에서 1위를 기록했다고 8일 밝혔다.

업스테이지는 지난해 11월 AI 학습 플랫폼 개발사 메스프레소, KT와 수학 도메인에 특화된 '매스GPT(가칭)'을 개발한 바 있다. 매개변수 약 130억개로 이뤄졌다. 콴다가 업스테이지에 수학 데이터를 제공하고, KT는 해당 데이터 학습을 위한 인프라를 지원했다. 업스테이지는 모델에 논리적 추론과 프로그래밍화를 진행했으며, 복잡한 수학 문제를 풀 수 있도록 파인튜닝했다.

매스GPT는 'MATH', 'GSM8K' 등 언어모델 수학 능력을 평가하는 벤치마크 테스트를 진행했다. MATH는 1만2천500개의 고난도 수학 경시 문제로 구성된 벤치마크다. GSM8K는 8천500개의 초등학교 수학 문제로 산술 연산 능력을 측정하는 테스트다. 테스트 결과 업스테이지의 매스GPT는 마이크로소프트의 'ToRA 13B' 등 130억 이하 모델 부문에서 1위를 기록했다.

업스테이지 측은 매스GPT가 이번 테스트에서 챗GPT보다 높은 평균 점수를 받았다고 알렸다. 특히 MATH 벤치마크에서는 GPT-4보다 더 높은 성능을 기록했다. 고난도 수학 도메인에서 한국 소형 사이즈 모델이 오픈AI, 마이크로소프트 등 빅테크 기업을 제치고 의미 있는 기록을 달성한 셈이다.