오픈AI, 계산생물학 벤치마크 '진벤치-프로' 공개…최고 모델도 정답률 32%

오픈AI가 계산생물학용 AI 평가 기준 진벤치-프로(GeneBench-Pro)를 공개했다. 6월 30일 발표된 이 벤치마크는 기존 진벤치를 더 어렵고 현실적인 문제로 확장했다. 유전체학, 정량생물학, 중개의학에 걸친 129개 합성 문제로 구성됐다. 진벤치는 연구자들이 새로운 생물학을 연구하는 데 쓰인다.

각 문제는 현실적이면서 일부러 잡음을 섞은 데이터셋과, 실제 의사결정으로 이어지는 추정 목표를 함께 제시한다. 모든 문제가 알려진 인과 구조에서 생성돼 정답을 기계적으로 채점할 수 있다. 채점 기준이 흔들려 정확도가 떨어지는 다른 장기 과제형 벤치마크의 약점을 피했다.

오픈AI가 측정하려는 능력은 연구 감각이다. 데이터가 실제로 뒷받침할 수 있는 질문이 무엇인지, 초기 경고 신호에 따라 모델을 어떻게 바꿔야 하는지, 처음 세운 계획을 언제 버려야 하는지 같은 연쇄 판단을 돕는다.

최고 반응 수준에서 GPT-5.6 Sol Pro가 정답률 31.5%, GPT-5.6 Sol이 28.7%를 기록했다. 언뜻 보면 낮은 수치 같지만 GPT 계열 외 가장 강한 모델인 클로드 오퍼스 4.8은 16.0%에 그쳤다. 최고 모델도 실제 생물학 문제의 약 70%를 틀리고 있다.

이 점수는 현재 AI가 실험 데이터를 다루는 실제 연구에서 아직 사람 연구자를 대체하기 어렵다는 뜻이다. 오픈AI는 대표 문항을 공개해 후속 연구가 같은 기준으로 성능을 비교하도록 했다.

자세한 내용은 오픈AI에서 확인할 수 있다.

이미지 출처: 이디오그램 생성