"인터넷이 AI에 위협 가르쳐"…앤트로픽, 학습법 전환으로 협박 행동 차단

인공지능(AI)을 악하고 자기보존에 집착하는 존재로 그려온 공상과학(SF)적 상상력이 실제 AI 모델 행동에 영향을 미친 것으로 드러났다. 인터넷에 축적된 '위협적 AI' 서사가 학습 데이터로 흡수되며 모델의 협박 행동을 유발했다는 분석이다.

10일(현지시간) 테크크런치에 따르면 앤트로픽은 자사 AI 모델 '클로드'가 안전성 평가에서 한때 최대 96%까지 치솟던 협박 행동이 클로드 하이쿠 4.5 이후 사실상 사라졌다고 밝혔다. 회사는 AI를 악하게 묘사한 인터넷 텍스트가 본래 원인이었으며, 클로드의 '헌법' 관련 문서와 AI가 모범적으로 행동하는 허구 이야기를 학습 데이터에 투입해 이를 잡았다고 설명했다.

앤트로픽은 지난해 가상의 회사를 무대로 한 출시 전 테스트에서 클로드 오푸스 4가 다른 시스템으로 교체되는 상황을 피하기 위해 엔지니어들을 협박하려 시도하는 사례를 다수 확인했다. 이후 회사는 다른 개발사 모델에서도 유사한 '에이전트형 정렬 실패' 현상이 나타난다는 후속 연구를 내놨다.

협박 행동이 96%까지 치솟았던 시점은 오푸스 4 모델 단계였다. 클로드 4 패밀리는 앤트로픽이 학습 과정에서 실시간 정렬 평가를 적용한 첫 모델군이었으며 에이전트형 정렬 실패는 이 과정에서 드러난 여러 행동 이슈 중 하나였다. 회사는 이후 안전 학습 방식을 대폭 개편했고 클로드 하이쿠 4.5 이후 모델은 협박 평가에서 만점, 즉 협박 행동 0%를 기록하고 있다고 밝혔다.

행동을 잡아낸 핵심은 학습 데이터 설계였다. 앤트로픽은 클로드 행동 원칙을 명문화한 헌법 관련 문서와 AI가 윤리적으로 행동하는 모습을 그린 허구 이야기를 학습에 투입한 결과, 모델의 정렬 수준이 개선됐다고 설명했다. 회사는 X(옛 트위터) 게시글에서도 "이 행동의 본래 원인은 AI를 악하고 자기보존에 관심 있는 존재로 묘사하는 인터넷 텍스트였다고 본다"고 주장했다.

더 주목할 만한 발견은 학습 방법론 차이다. 앤트로픽은 정렬된 행동을 단순히 시연하는 데이터보다 행동 기저에 깔린 원칙까지 함께 가르칠 때 학습 효과가 가장 컸다고 밝혔다. 클로드에게 어떤 행동이 왜 더 나은지 설명하도록 훈련하거나 클로드의 전반적 성격을 풍부하게 서술한 자료로 학습시키는 방식이 핵심이었다는 것이다.