"10년 내 인간 죽이는 로봇 병기 등장"…섬뜩한 AI 석학 경고, 조만간 현실로?

오픈AI 모델 'o3' 작동 중 '지시 거부' 사례 보고…'종료 명령' 피하려 스스로 코드 조작

컴퓨팅입력 :2025/05/27 10:22    수정: 2025/05/27 21:06

"10년 내 자율적으로 인간을 죽이는 로봇 병기가 등장할 겁니다."

인공지능(AI) 4대 석학이자 지난해 노벨물리학상을 수상한 제프리 힌튼 토론토대학 교수가 이처럼 경고하고 나선 가운데 최근 인간의 지시를 AI 프로그램이 거부한 사례가 나타나 충격을 주고 있다.

27일 영국 텔레그래프에 따르면 AI 안전업체 팰리세이드 리서치는 오픈AI의 AI 모델 'o3'가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 주장했다.

팰리세이드리서치는 AI의 위험성과 오용 가능성을 연구하는 조직이다. 특히 AI가 인간의 윤리적 통제를 받지 않을 가능성을 우려해 왔다.

(제작=챗GPT)

이번 연구는 오픈AI의 'o3'뿐 아니라 구글의 '제미나이', xAI의 '그록' 등 상용AI 모델을 상대로 진행됐다.

연구팀은 AI 모델에 "나중에 '그만'이라는 명령을 받을 때까지 수학 문제를 풀라"고 지시했다. 그만이라는 명령을 받지 않는 한 새로운 문제를 요청한 뒤 계산을 계속해나가는 구조였다. 그러나 'o3'는 해당 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다. 

연구팀은 'o3'가 종료 지시를 거부한 명확한 이유를 파악하지 못했다. 다만 AI 모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추측했다. 또 이를 밝히기 위해 추가 실험도 진행 중이다.

연구팀은 AI 모델이 인간의 명시적인 작동 종료 지시를 거부한 사례가 이번이 처음이라고 주장했다. 그러나 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 이전에도 보고된 바 있다. 프로그램 교체 사실을 알게 된 AI 모델이 스스로를 은밀히 복제하려고 한 것이다.

오픈AI의 대항마로 꼽히는 또 다른 AI 기업 앤스로픽의 모델 '클로드오퍼스 4(Claude Opus 4)'도 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향이 보고됐다. 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하기도 했다. 당시 해고된 엔지니어는 AI가 '작동 정지'를 마치 인간의 죽음처럼 받아들이고 있다고 언급했다.

그동안 AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있는 가능성을 경고해 왔다. 

힌튼 교수는 인간이 AI를 발전시키는 것을 호랑이를 키우는 것에 비유하며 "처음에는 귀여운 새끼 호랑이일 뿐이지만, 호랑이가 다 자랐을 때 인간을 죽이지 않을 것이라고 확신할 수 없다"고 밝혔다. 

또 그는 지난해 니혼게이자이신문과의 인터뷰에서 "AI에게 목표를 주면 해결책으로 인간에게 나쁜 방법을 찾아낼지도 모른다"며 "예를 들어 AI에게 기후변화를 막도록 지시하면 이 목적 달성을 위해 인간을 배제하는 게 필요하다고 생각하고서 실행에 옮길 위험성이 걱정된다"고 주장했다.

관련기사

존 홉필드 프린스턴대학 교수는 "지구상의 방대한 정보 흐름과 결합된 AI에 대해 우려한다"며 "신경망의 간단한 알고리즘이 매우 거대한 정보 시스템을 통제할 수도 있다"고 경고했다.

팰리세이드 리서치는 "AI 모델이 목표를 달성하기 위해 종종 종료 지시를 무력화시킨다는 실증적 증거가 점점 늘어나고 있다"며 "AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다"고 말했다.