
817개 학습 데이터로 AIME 57.1% 정확도 달성한 LIMO의 혁신
상하이교통대학교(SJTU) 연구진이 발표한 'LIMO: Less is More for Reasoning' 논문에 따르면, 대규모 언어모델(LLM)의 수학적 추론 능력을 향상시키는데 기존의 통념을 뒤엎는 혁신적인 발견이 있었다. 연구진은 단 817개의 엄선된 학습 데이터만으로도 미국수학초청시험(AIME) 벤치마크에서 57.1%, MATH 벤치마크에서 94.8%의 정확도를 달성했다. 특히 주목할 만한 점은 이 성과가 NuminaMath-100k가 보여준 32.3%나 OpenThoughts-114k의 58.3%보다 훨씬 뛰어난 결과라는 점이다. (☞ 논문 바로가기)

3.7T 토큰으로 수학 특화 학습한 AI의 지식 기반 혁신
LIMO 연구진은 모델의 추론 능력이 두 가지 핵심 요소에 의해 결정된다고 주장한다. 첫째는 사전학습 과정에서 획득한 포괄적인 도메인 지식이며, 둘째는 추론 과정을 상세히 보여주는 '인지 템플릿'의 효과적인 활용이다. 특히 람다2(Llama 2)가 전체 도메인에서 1.8T 토큰의 데이터로 학습된 반면, 람다3(Llama 3)는 수학적 추론만을 위해 3.7T 토큰을 사용했다는 점은 현대 AI 모델들이 풍부한 수학적 지식 기반을 갖추고 있음을 보여준다.
RL Scaling과 차별화된 LIMO의 효율적 접근법
LIMO는 강화학습(RL) 기반의 기존 접근법과는 다른 철학을 보여준다. OpenAI의 o1이나 DeepSeek-R1과 같은 RL Scaling 접근법이 대규모 컴퓨팅 자원을 활용한 광범위한 탐색을 통해 추론 능력을 향상시키는 반면, LIMO는 이미 모델에 내재된 추론 능력을 최소한의 고품질 예제로 이끌어내는 방식을 택했다. 이는 단순한 데이터 효율성을 넘어 AI 추론 능력 개발의 근본적인 패러다임 전환을 제시한다.
10개 벤치마크에서 40.5% 성능 향상 입증
LIMO는 다양한 평가에서 놀라운 성과를 보여줬다. 올림피아드벤치(OlympiadBench)에서 66.8%, 중국 고등학교 수학 리그(CHMath)에서 75.4%, 중국 대학입학시험(Gaokao)에서 81.0%, 대학원 입학시험(Kaoyan)에서 73.4%의 정확도를 달성했다. 특히 GPQA에서는 66.7%를 기록하며 OpenAI-o1-preview의 73.3%에 근접했다. 이는 기존 모델들이 100배 많은 데이터로 학습했음에도 불구하고 평균 40.5%의 절대적인 성능 향상을 보여준 결과다.
L5급 고품질 추론으로 AIME 15% 성능 격차 실현
연구팀이 개발한 5단계(L1-L5) 추론 품질 평가에서, 최고 수준인 L5 품질의 추론 체인으로 학습한 모델이 가장 우수한 성능을 보였다. L5와 L1 사이의 성능 차이는 AIME24에서 약 15%, MATH500에서 약 12%에 달했다. 고품질 추론의 특징으로는 명확한 구조적 조직화, 단계별 세분화, 자체 검증 단계 포함 등이 있으며, 이는 모델의 성능에 결정적인 영향을 미쳤다.
Qwen2.5-32B 기반 LIMO, 기존 대비 47.1% 성능 향상
LIMO는 Qwen2.5-32B-Instruct를 기반으로 개발되었으며, 같은 구조의 이전 모델인 Qwen1.5-32B-Chat과 비교해 AIME24에서 47.1%, MATH500에서 34.4%의 놀라운 성능 향상을 보였다. 이는 사전학습 데이터의 품질 향상이 모델의 수학적 추론 능력 향상에 핵심적인 역할을 한다는 것을 입증한다.
AI 추론 연구의 새로운 과제들
관련기사
- 오픈AI, 챗GPT 검열 해제…"모든 관점 수용하겠다"2025.02.17
- "생성형 AI 구독, 작년 299% 늘어…30대가 최다 이용"2025.02.17
- 엔비디아 H100 GPU로 만든 명품가방…6500만원에 거래된다2025.02.17
- 미국인 'AI 의존' 심하네…어느 정도인지 봤더니2025.02.15
연구진은 LIMO의 성공을 바탕으로 여러 후속 연구 방향을 제시했다. 다중 모달 추론으로의 확장, 자동화된 품질 평가 도구 개발, 인지과학 통찰의 통합 등이 주요 과제로 제시됐다. 특히 시각 정보와 구조화된 데이터를 활용한 수학적 추론 능력 향상, 추론 체인의 품질을 자동으로 평가하고 개선하는 알고리즘 개발이 시급한 과제로 꼽혔다. 또한 인간의 인지 과정과 LIMO의 추론 패턴 사이의 유사성을 연구함으로써 AI 시스템과 인간의 추론 과정에 대한 이해를 높일 수 있을 것으로 기대된다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)