"업스테이지 AI 모델, 챗GPT보다 수학 잘 해"

메스프레소·KT와 공동 개발

컴퓨팅입력 :2024/01/08 11:12

업스테이지(대표 김성훈)는 수학 도메인 특화 인공지능(AI) 모델 성능이 글로벌 벤치마크 테스트에서 1위를 기록했다고 8일 밝혔다.

업스테이지는 지난해 11월 AI 학습 플랫폼 개발사 메스프레소, KT와 수학 도메인에 특화된 '매스GPT(가칭)'을 개발한 바 있다. 매개변수 약 130억개로 이뤄졌다. 콴다가 업스테이지에 수학 데이터를 제공하고, KT는 해당 데이터 학습을 위한 인프라를 지원했다. 업스테이지는 모델에 논리적 추론과 프로그래밍화를 진행했으며, 복잡한 수학 문제를 풀 수 있도록 파인튜닝했다. 

매스GPT는 'MATH', 'GSM8K' 등 언어모델 수학 능력을 평가하는 벤치마크 테스트를 진행했다. MATH는 1만2천500개의 고난도 수학 경시 문제로 구성된 벤치마크다. GSM8K는 8천500개의 초등학교 수학 문제로 산술 연산 능력을 측정하는 테스트다. 테스트 결과 업스테이지의 매스GPT는 마이크로소프트의 'ToRA 13B' 등 130억 이하 모델 부문에서 1위를 기록했다. 

(사진=업스테이지)

업스테이지 측은 매스GPT가 이번 테스트에서 챗GPT보다 높은 평균 점수를 받았다고  알렸다. 특히 MATH 벤치마크에서는 GPT-4보다 더 높은 성능을 기록했다. 고난도 수학 도메인에서 한국 소형 사이즈 모델이 오픈AI, 마이크로소프트 등 빅테크 기업을 제치고 의미 있는 기록을 달성한 셈이다.

관련기사

김성훈 업스테이지 대표는 "콴다, KT와의 협력을 통해 챗GPT를 뛰어넘고 세계 최고 수준의 수학 특화 언어 모델을 개발해 뜻깊다"며 "앞으로 업스테이지는 다양한 영역에서 생성형 AI 혁신을 주도해 나갈 것"이라고 밝혔다.

이용재 콴다 대표는 "콴다, 업스테이지, KT 3사의 기술력과 노하우가 합쳐져 글로벌 빅테크를 뛰어넘은 의미 있는 결과를 만들어냈다"며 "콴다의 AI 튜터를 통해 아시아를 넘어 전 세계 학생들의 교육 경험을 혁신할 것"이라고 밝혔다.