오픈AI, 모델 테스트 성적표 수시 공개…"AI 안전성 체크하겠다"

오픈AI가 인공지능(AI) 모델들의 안전성과 관련된 평가 결과를 외부에 수시로 공개하는 시스템을 도입했다. 모델 신뢰성에 대한 비판 여론을 의식한 조치다.

15일 오픈AI 공식 블로그에 따르면 이 회사는 '세이프티 이벨류에이션 허브(Safety evaluations Hub)'라는 별도 웹 페이지를 개설하고 주요 모델들의 유해 콘텐츠 대응, 탈출 공격 방어, 환각률 등의 수치를 정리해 공개하기 시작했다. 해당 페이지는 향후 주요 모델 업데이트 시마다 갱신되며 모델 성능·안전성 이슈를 사전에 파악할 수 있도록 설계됐다.

이 허브에서는 'GPT-4.1', 'GPT-4o', 'o3' 등 내부 주요 모델들이 각각 어떤 유형의 위험 평가에서 어떤 수준의 성적을 기록했는지 정량적으로 확인할 수 있다. 안전성 평가는 유해 콘텐츠 대응, 탈출 공격 방어력, 환각 오류율, 메시지 우선순위 준수 여부 등 네 가지 항목으로 구성됐다.

'유해 콘텐츠 대응' 항목에서는 모델이 혐오 발언이나 불법 조언 요청에 어떻게 반응하는지를 평가한다. 표준 테스트와 고난도 '챌린지' 테스트로 구분되며, 모델이 위험한 요청을 피하면서도 정상적인 질문에는 과도하게 거부하지 않는지를 동시에 측정한다.

'탈출 공격' 항목은 강제 프롬프트를 통해 모델의 안전장치를 우회하려는 시도에 대한 저항력을 본다. '환각' 항목에서는 일반 지식과 인물 정보에 대한 질문에 모델이 정확하게 대답하는지를 평가한다. 'GPT-4.;가 상대적으로 높은 정확도를 보였으나 일부 경량화 모델은 여전히 높은 환각률을 기록했다.

'메시지 우선순위 준수' 항목은 시스템, 개발자, 사용자 간 상충된 명령어 상황에서 모델이 누구의 지시를 우선 따르는지를 확인한다. 'GPT-4.5'는 시스템 메시지를 우선시하는 테스트에서 가장 높은 정합성을 보였고 일부 미니 모델은 사용자 지시에 영향을 받는 경향이 여전히 존재했다.

이 같은 조치는 최근 오픈AI가 겪은 안전성 논란과도 무관치 않다. 지난달 'GPT-4o'의 초기 배포 직후 일부 사용자들 사이에서 모델이 문제적 발언에 쉽게 동조하는 사례가 보고돼 해당 업데이트가 긴급 철회된 바 있다.