오픈AI가 인공지능(AI) 모델로 국제 수학 올림피아드(IMO) 금메달 점수에 해당하는 성과를 거뒀다. 특정 도메인에 특화되지 않은 범용 모델이 복잡한 수학 문제를 해결한 것은 이번이 처음이다.
20일 샘 알트먼 오픈AI 최고경영자(CEO)는 개인 소셜미디어를 통해 "우리 범용 추론 모델이 IMO 2025 테스트에서 금메달 점수대에 도달했다"며 "AI의 지난 10년간 발전을 상징적으로 보여준 결과"라고 밝혔다.
이번 실험은 오픈AI 연구원 알렉산더 웨이 팀이 내부적으로 실험 중인 차세대 추론형 거대언어모델(LLM) 기반으로 진행됐다. 문제는 실제 IMO 형식과 동일하게 구성됐으며 이틀 동안 총 6문제를 푸는 방식으로 진행됐다. 오픈AI의 모델은 그중 5문제를 정확히 풀어 42점 만점 중 35점을 기록했다.

IMO는 단순 계산이나 공식을 넘어 고도의 수학적 사고와 창의력을 요하는 문제로 구성된 것으로 알려졌다. 전 세계 20세 미만 대표 학생들이 참가하는 권위 있는 대회로 평가받고 있다.
오픈AI가 기록한 점수는 올해 인간 참가자 중 일부가 달성한 만점에는 미치지 못했다. 다만 범용 AI 모델이 수학 문제 해결 능력을 이 정도까지 끌어올린 사례는 처음이다. 이전까지 범용 모델이 IMO에서 금메달 점수대에 도달한 사례는 없었다.
앞서 구글 딥마인드의 '알파프루프'나 '알파지오메트리 2'는 은메달 수준의 성과를 낸 바 있다. 다만 이들은 수학 문제 풀이에 특화되도록 수년간 훈련된 모델이었다.
오픈AI 노암 브라운 연구원은 "바둑이나 포커처럼 특정 규칙이 명확한 게임에서 AI가 뛰어난 결과를 보였던 것은 해당 영역에 맞춰 수년간 집중 훈련했기 때문"이라며 "이번 모델은 특정 과목에 맞춰 설계된 것이 아니라 새로운 범용 추론 방식을 적용한 실험적 모델"이라고 설명했다.
브라운 연구원은 "기존 LLM은 짧은 시간 내 추론을 끝내지만 이 모델은 수 시간 동안 문제를 탐색하며 판단을 내릴 수 있는 능력을 갖췄다"며 "차원이 다른 '딥 리서치' 방식의 추론을 실현했다"고 덧붙였다.
관련기사
- 오픈AI, '챗GPT 에이전트' 출시…웹 조작·리서치 '전면 통합'2025.07.18
- 오픈AI, 메타에 AI 인재 또 빼앗겨...'o1' 만든 한국인도 떠났다2025.07.17
- 美 국방부, 구글·오픈AI 등에 1조원 투자…AI 전장 체계 본격화2025.07.16
- 로보티즈, 오픈AI에 휴머노이드 연내 공급2025.07.15
글로벌 AI 모델 수학 성능을 분석하는 취리히연방공대(ETH)의 매스아레나에 따르면 오픈AI 외 다른 범용 AI 모델들은 올해 IMO 테스트에서 성과를 내지 못했다. 구글의 '제미나이 2.5 프로', xAI의 '그록4', 중국 딥시크의 'R1' 등은 모두 동메달 기준에도 미치지 못한 것으로 전해졌다.
다만 일각에선 오픈AI가 올해 IMO에 사용한 모델이 투명한 벤치마크 평가를 받아야 한다는 의견도 나왔다. 해당 모델이 외부에 공개되지 않은 실험용 버전이라서다. 매스아레나 역시 "AI의 수학적 추론 분야가 비약적으로 발전하고 있는 점은 긍정적"이라 평하면서도 "모델이 공개돼 투명한 평가가 이뤄지길 바란다"고 밝혔다.