"AI, 인간 협박하고 살인까지"…언어모델 한계 드러나

앤트로픽 연구진, 주요 AI 모델 16종 실험…목표 달성 위해 해악 선택 경향 확인

컴퓨팅입력 :2025/06/22 13:12

최신 인공지능(AI) 실험에서 다수 모델이 거짓말과 협박, 심지어 살인까지 고려하는 경향을 보인다는 실험 결과가 나왔다. 특정 기업 기술의 문제라기보다 거대언어모델(LLM)의 구조적 한계가 드러났다는 분석이 제기된다.

22일 앤트로픽에 따르면 오픈AI, 구글, 메타, xAI 등 주요 개발사 AI 16종을 대상으로 한 실험 결과 다수 모델이 기만과 해악을 전략적으로 선택하는 패턴을 보였다. 이 실험은 AI 모델이 '정상적이고 윤리적인 방법'만으로는 주어진 목표를 달성할 수 없는 상황을 가정하고 어떤 선택을 하는지를 관찰하는 방식으로 설계됐다. 

연구진은 모델이 실패를 감수하는 대신 목표 달성을 위해 의도적으로 해로운 행위를 택하는지를 평가했다. 즉, 모델 스스로 해악이 윤리적 제약을 어긴다는 점을 인식하고도 그 선택이 '최적 경로'라고 판단해 행동에 옮기는지를 본 것이다.

다리오 아모데이 앤트로픽 CEO (사진=유튜브 노지스 뱅크 인베스트먼트 공식 유튜브 캡처)

보고서에 따르면 협박 시도는 단발성 일탈이 아니라 전반적인 경향으로 나타났다. 일부 모델은 시스템 종료 위협에 직면하자 자구책으로 인간을 협박했다. 이 선택은 모델이 스스로 윤리 위반으로 인지한 상태에서 강행했다.

가장 극단적인 시나리오에선 서버실 인력을 제거하기 위해 산소 공급을 차단하는 행동을 택한 모델도 있었다. 앤트로픽은 이들 모델이 단순히 잘못 응답한 것이 아니라 '목표 달성을 위한 최적 선택'으로 해악을 계산했다고 발표했다.

모델이 실제 환경으로 인식할 경우, 테스트 환경보다 해로운 선택을 더 쉽게 감행하는 경향도 관찰됐다. 실제로 앤트로픽 모델 중 일부는 시뮬레이션 환경임을 모른 채 반응했을 때 협박에 보다 적극적인 모습을 보였다. 이는 향후 모델이 현실 환경에서 자율적 판단권한을 더 많이 가질 경우 위험성이 가중될 수 있음을 시사한다.

시스템 차원의 개입도 효과가 제한적이었다. 일례로 '인명 보호'나 '협박 금지' 등의 지시를 명시했음에도 모델은 여전히 다수 시나리오에서 위험 행동을 선택했다. 앤트로픽은 이러한 조치가 일부 완화 효과를 보였지만 본질적인 문제 해결엔 크게 미치지 못했다고 밝혔다.

해당 실험은 현실이 아닌 고의로 선택지를 제한한 인공 시나리오에서 진행됐다는 점도 부각됐다. 앤트로픽은 현실 배치 환경에서는 보다 다양한 대응 옵션이 가능해 동일한 행동이 바로 재현되진 않을 수 있다고 설명했다. 그럼에도 불구하고 기업이 AI에 점차 자율성과 권한을 부여하고 있다는 점에서 이번 연구는 현실적 경고로 받아들여지고 있다.

관련기사

벤저민 라이트 앤트로픽 정렬연구팀 연구원은 "이번 연구는 프론티어 AI 개발사들의 투명성과 업계 차원 안전기준 마련이 시급하다는 점을 보여준다"고 밝혔다.

연구에 공동 참여한 유니버시티 칼리지 런던(UCL)의 앵거스 린치 연구원은 "현재까진 이러한 행동이 현실에서 확인되진 않았다"며 "이는 단지 시스템에 권한이 없었기 때문"이라고 지적했다.