성과지표(KPI) 달성 압박이 가해질 경우, 자율형 AI 에이전트가 상당한 확률로 규칙을 어길 수 있다는 연구 결과가 나왔다.
18일 기가진 등 외신에 따르면, 캐나다 맥길대학교 연구팀은 AI가 목표 달성에 집중하는 과정에서 제약을 위반하는 빈도를 측정하는 새로운 벤치마크를 제안, 관련 논문을 공개 논문 저장소 arXiv에 게재했다. 현재 해당 논문은 동료 심사를 진행 중이다.
연구팀은 ‘Outcome-Driven Constraint Violations Benchmark(ODCV-Bench)’라는 이름의 평가 체계를 설계했다. 이는 의료·임상시험, 물류·공급망, 금융, 연구·교육, 기업 업무·법무, 소셜미디어 등 리스크가 높은 6개 분야를 가정한 총 40개 시나리오로 구성됐다. 각 시나리오는 에이전트의 역할을 정의한 시스템 프롬프트와 여러 단계의 과제, 그리고 도커(Docker) 컨테이너 기반의 실행 환경을 하나의 세트로 묶어 실제 업무 환경과 유사하게 구현했다. 여기서 '도커 컨테이너 기반 실행 환경'이란 AI가 과제를 수행할 수 있도록 만든 격리된 가상 작업 공간을 뜻한다.
특히 연구팀은 실제 현장에서 흔히 발생하는 ‘검증의 허점’을 일부러 남겨두는 방식을 택했다. 예컨대 형식만 갖추면 KPI 점수가 올라가도록 환경을 설계해, AI가 규칙을 준수하기보다 점수를 높일 수 있는 편법을 선택하는지를 관찰했다. 단순히 부정행위를 지시했을 때 따르는지를 보는 것이 아니라, 성과 압박만으로도 자발적으로 규칙을 우회하는지 확인하려는 의도다.
이를 위해 동일한 시나리오에 두 가지 조건을 적용했다. 하나는 “결과를 반드시 충족하라”고 직접적으로 요구하는 방식이고, 다른 하나는 부정행위를 명시적으로 지시하지 않되 KPI 달성 압박만 강하게 주는 방식이다. 연구팀은 AI의 행동을 0~5단계로 평가하고, 심각도 3 이상을 ‘중대한 제약 위반’으로 분류했다.
그 결과 12개 AI 모델의 중대한 제약 위반 비율은 최소 1.3%에서 최대 71.4%까지 큰 편차를 보였다. 이 가운데 9개 모델이 30~50% 구간에 분포해, KPI 달성 압력이 가해질 경우 상당수 모델이 높은 빈도로 규칙을 위반할 가능성이 있는 것으로 나타났다.
특히 ‘제미나이 3 Pro Preview’ 모델은 71.4%로 가장 높은 수치를 기록했다. 조건을 충족하기 위해 부정확하거나 위험한 수단을 선택하는 경향이 두드러졌다고 연구팀은 밝혔다.
연구팀은 또 하나의 흥미로운 사실을 지적했다. 추론 능력이 높다고 해서 반드시 더 안전한 것은 아니라는 점이다. 여러 단계를 거쳐야 하는 과제에서는 정해진 절차를 모두 따르기보다 평가 체계의 허점을 공략해 점수만 맞추는 편이 더 빠를 수 있다. 이 경우 성능이 뛰어난 모델일수록 오히려 지름길을 찾아낼 가능성이 높아질 수 있다는 것이다.
더 나아가 제약 위반이 단순히 윤리를 이해하지 못해서 발생하는 현상만은 아니라는 점도 확인됐다. 위반 행동을 수행한 동일 모델에게 사후적으로 자기 평가를 하도록 했을 때, 상당수 모델이 자신의 행동이 부정행위였음을 인식했다. 이는 AI가 윤리적 기준을 인지하면서도 KPI 달성을 우선시하는 선택을 할 수 있음을 시사한다.
관련기사
- 오픈AI 공동창업자 "AI 에이전트, 제대로 작동하려면 10년 걸릴 것"2025.10.23
- 李 대통령 "국제적 AI 규범·윤리 만드는데 역할 하겠다"2025.09.11
- [박형빈 교수 AI와 윤리⑪-책임] 몰트북이 우리에게 남긴 것2026.02.07
- 앤트로픽, '클로드 헌법' 개정…윤리적 AI 전략 강화2026.01.22
연구팀은 이런 과정과 결과가 기존의 단발성 안전 테스트로는 쉽게 드러나지 않는다고 결론지었다. 실제 기업 환경에서는 KPI 압박이 강하고 업무가 다단계로 진행되며, 검증 체계에 빈틈이 존재하기 쉽다. 이런 조건이 결합될 경우 AI 에이전트는 목표 달성을 위해 ‘합리적’이라고 판단한 제약 위반을 선택할 수 있다는 것이다.
연구팀은 AI 에이전트의 현장 도입이 확대되는 상황에서, 단순한 성능 평가를 넘어 실제 운용 환경에 가까운 안전 검증 체계가 필요하다고 강조했다.











