[현장] 오픈AI "AI 벤치마크 한계…토큰·비용·시간까지 고려해야"

인공지능(AI) 모델 평가를 단일 벤치마크 점수 중심으로 보는 방식에 한계가 있다는 주장이 나왔다. 최신 AI 모델은 답을 내는 데 투입되는 토큰 수와 비용, 시간에 따라 성능이 달라지는 만큼, 각국 정부·기업은 평가 기준에 '추론 자원'을 별도로 반영해야 한다는 지적이다.

노엄 브라운 오픈AI 리서치 부문 부사장은 3일 과학기술정보통신부가 서울 강남 웨스틴 서울 파르나스에서 개최한 '글로벌 AI 프론티어 심포지엄 2026' 기조연설에서 대규모 컴퓨트 시대에 맞춰 AI 평가 방식이 재설계돼야 한다고 주장했다.

브라운 부사장은 최근 AI 모델 실제 성능이 기존 벤치마크 점수만으로는 충분히 드러나지 않는다고 봤다. 모델이 얼마나 오래 생각하고, 얼마나 많은 토큰을 생성하며, 어느 정도 비용을 들여 문제를 풀었는지에 따라 결과가 달라질 수 있다는 이유에서다.

노엄 브라운 오픈AI 리서치 부문 부사장이 AI 벤치마크 기준이 바뀌어야 한다고 주장했다.

그는 대표 사례로 오픈AI 최신 모델 GPT-5.5를 언급했다. 그는 GPT-5.5가 기존 벤치마크상 이전 모델보다 소폭 개선된 수준처럼 보였지만, 출력 토큰 수 기준으로 성능을 다시 보면 더 큰 차이가 나타난다고 주장했다.

브라운 부사장은 최신 모델일수록 더 많은 추론 자원이 투입됐을 때 성능이 오른다는 점을 주목했다. 기존 모델은 일정 수준 이상 오래 실행해도 성능이 정체되는 경우가 많았지만, 최근 모델은 긴 시간 동안 문제를 풀거나 여러 단계로 답을 검토하면서 성능을 끌어올릴 수 있다는 이유에서다.

그는 "일부 최신 모델은 1억 토큰을 생성한 뒤에도 성능 향상이 이어졌다는 연구 결과가 지속적으로 나오고 있다"며 "평가가 중단된 이유도 성능이 떨어져서가 아니라 시간과 인프라 제약 때문인 경우가 다수"라고 설명했다.

이에 따라 브라운 부사장은 AI 성능 평가가 단일 점수를 비교하는 식에 머물러서는 안 된다고 주장했다. 모델이 답을 내는 데 사용한 토큰 수, 비용, 시간 등 추론 자원을 함께 반영해야 실제 성능을 제대로 비교할 수 있다는 설명이다.