AI 훈련, 학습 데이터 817개로 10만개 뺨치는 성과…비결은?

817개 학습 데이터로 AIME 57.1% 정확도 달성한 LIMO의 혁신

상하이교통대학교(SJTU) 연구진이 발표한 'LIMO: Less is More for Reasoning' 논문에 따르면, 대규모 언어모델(LLM)의 수학적 추론 능력을 향상시키는데 기존의 통념을 뒤엎는 혁신적인 발견이 있었다. 연구진은 단 817개의 엄선된 학습 데이터만으로도 미국수학초청시험(AIME) 벤치마크에서 57.1%, MATH 벤치마크에서 94.8%의 정확도를 달성했다. 특히 주목할 만한 점은 이 성과가 NuminaMath-100k가 보여준 32.3%나 OpenThoughts-114k의 58.3%보다 훨씬 뛰어난 결과라는 점이다. (☞ 논문 바로가기)

3.7T 토큰으로 수학 특화 학습한 AI의 지식 기반 혁신

LIMO 연구진은 모델의 추론 능력이 두 가지 핵심 요소에 의해 결정된다고 주장한다. 첫째는 사전학습 과정에서 획득한 포괄적인 도메인 지식이며, 둘째는 추론 과정을 상세히 보여주는 '인지 템플릿'의 효과적인 활용이다. 특히 람다2(Llama 2)가 전체 도메인에서 1.8T 토큰의 데이터로 학습된 반면, 람다3(Llama 3)는 수학적 추론만을 위해 3.7T 토큰을 사용했다는 점은 현대 AI 모델들이 풍부한 수학적 지식 기반을 갖추고 있음을 보여준다.

RL Scaling과 차별화된 LIMO의 효율적 접근법

LIMO는 강화학습(RL) 기반의 기존 접근법과는 다른 철학을 보여준다. OpenAI의 o1이나 DeepSeek-R1과 같은 RL Scaling 접근법이 대규모 컴퓨팅 자원을 활용한 광범위한 탐색을 통해 추론 능력을 향상시키는 반면, LIMO는 이미 모델에 내재된 추론 능력을 최소한의 고품질 예제로 이끌어내는 방식을 택했다. 이는 단순한 데이터 효율성을 넘어 AI 추론 능력 개발의 근본적인 패러다임 전환을 제시한다.

10개 벤치마크에서 40.5% 성능 향상 입증

LIMO는 다양한 평가에서 놀라운 성과를 보여줬다. 올림피아드벤치(OlympiadBench)에서 66.8%, 중국 고등학교 수학 리그(CHMath)에서 75.4%, 중국 대학입학시험(Gaokao)에서 81.0%, 대학원 입학시험(Kaoyan)에서 73.4%의 정확도를 달성했다. 특히 GPQA에서는 66.7%를 기록하며 OpenAI-o1-preview의 73.3%에 근접했다. 이는 기존 모델들이 100배 많은 데이터로 학습했음에도 불구하고 평균 40.5%의 절대적인 성능 향상을 보여준 결과다.

L5급 고품질 추론으로 AIME 15% 성능 격차 실현

연구팀이 개발한 5단계(L1-L5) 추론 품질 평가에서, 최고 수준인 L5 품질의 추론 체인으로 학습한 모델이 가장 우수한 성능을 보였다. L5와 L1 사이의 성능 차이는 AIME24에서 약 15%, MATH500에서 약 12%에 달했다. 고품질 추론의 특징으로는 명확한 구조적 조직화, 단계별 세분화, 자체 검증 단계 포함 등이 있으며, 이는 모델의 성능에 결정적인 영향을 미쳤다.

Qwen2.5-32B 기반 LIMO, 기존 대비 47.1% 성능 향상

LIMO는 Qwen2.5-32B-Instruct를 기반으로 개발되었으며, 같은 구조의 이전 모델인 Qwen1.5-32B-Chat과 비교해 AIME24에서 47.1%, MATH500에서 34.4%의 놀라운 성능 향상을 보였다. 이는 사전학습 데이터의 품질 향상이 모델의 수학적 추론 능력 향상에 핵심적인 역할을 한다는 것을 입증한다.

AI 추론 연구의 새로운 과제들