[현장] 오픈AI "AI 벤치마크 한계…토큰·비용·시간까지 고려해야"

노엄 브라운 "최신 모델, 추론 자원 늘릴수록 성능↑…안전성 평가에 영향"

컴퓨팅입력 :2026/07/03 12:13    수정: 2026/07/03 13:21

인공지능(AI) 모델 평가를 단일 벤치마크 점수 중심으로 보는 방식에 한계가 있다는 주장이 나왔다. 최신 AI 모델은 답을 내는 데 투입되는 토큰 수와 비용, 시간에 따라 성능이 달라지는 만큼, 각국 정부·기업은 평가 기준에 '추론 자원'을 별도로 반영해야 한다는 지적이다.

노엄 브라운 오픈AI 리서치 부문 부사장은 3일 과학기술정보통신부가 서울 강남 웨스틴 서울 파르나스에서 개최한 '글로벌 AI 프론티어 심포지엄 2026' 기조연설에서 대규모 컴퓨트 시대에 맞춰 AI 평가 방식이 재설계돼야 한다고 주장했다. 

브라운 부사장은 최근 AI 모델 실제 성능이 기존 벤치마크 점수만으로는 충분히 드러나지 않는다고 봤다. 모델이 얼마나 오래 생각하고, 얼마나 많은 토큰을 생성하며, 어느 정도 비용을 들여 문제를 풀었는지에 따라 결과가 달라질 수 있다는 이유에서다.

노엄 브라운 오픈AI 리서치 부문 부사장이 AI 벤치마크 기준이 바뀌어야 한다고 주장했다.

그는 대표 사례로 오픈AI 최신 모델 GPT-5.5를 언급했다. 그는 GPT-5.5가 기존 벤치마크상 이전 모델보다 소폭 개선된 수준처럼 보였지만, 출력 토큰 수 기준으로 성능을 다시 보면 더 큰 차이가 나타난다고 주장했다. 

브라운 부사장은 최신 모델일수록 더 많은 추론 자원이 투입됐을 때 성능이 오른다는 점을 주목했다. 기존 모델은 일정 수준 이상 오래 실행해도 성능이 정체되는 경우가 많았지만, 최근 모델은 긴 시간 동안 문제를 풀거나 여러 단계로 답을 검토하면서 성능을 끌어올릴 수 있다는 이유에서다. 

그는 "일부 최신 모델은 1억 토큰을 생성한 뒤에도 성능 향상이 이어졌다는 연구 결과가 지속적으로 나오고 있다"며 "평가가 중단된 이유도 성능이 떨어져서가 아니라 시간과 인프라 제약 때문인 경우가 다수"라고 설명했다. 

이에 따라 브라운 부사장은 AI 성능 평가가 단일 점수를 비교하는 식에 머물러서는 안 된다고 주장했다. 모델이 답을 내는 데 사용한 토큰 수, 비용, 시간 등 추론 자원을 함께 반영해야 실제 성능을 제대로 비교할 수 있다는 설명이다.

브라운 부사장은 AI 성능 평가가 단일 점수를 비교하는 방식에 머물러서는 안 된다고 주장했다.

그는 모델 성능 평가가 안전성 평가와도 연결된다고 봤다. 같은 모델이라도 적은 비용으로 짧게 테스트하면 위험한 능력이 드러나지 않을 수 있지만, 더 많은 비용과 시간을 들여 오래 실행하면 더 강력한 능력을 보일 수 있기 때문이다.

관련기사

브라운 부사장은 제3자 벤치마크 기관의 역할도 바뀌어야 한다고 봤다. 벤치마크 기관이 모델 평가에 사용된 추론량을 추적하거나, 토큰·비용·시간에 명확한 제한을 둬야 한다는 것이다. 사람이 시험을 볼 때 제한 시간이 정해지는 것처럼 AI 모델 평가에도 분명한 예산 조건이 필요하다는 설명이다.

그는 "같은 모델이라도 투입한 추론 자원에 따라 결과가 달라지는 상황"이라며 "성능과 안전성을 제대로 판단하기 위해서는 점수 뒤에 있는 비용과 시간까지 함께 공개해야 할 것"이라고 당부했다.