헉! AI도 거짓말을?…앤트로픽, '클로드' 추적 실험 결과는

앤트로픽이 자사 인공지능(AI) 모델 '클로드'의 내부 회로를 추적한 결과, 모델이 실제로 미리 계획해 글을 쓰고 언어를 초월해 사고하며 그럴듯한 거짓 논리를 만들어낸다는 사실이 확인됐다. AI가 생각하는 과정이 단순 예측이 아니라 복잡한 개념 회로의 작동 결과라는 점에서 모델의 사고 메커니즘이 시각적으로 처음 입증된 셈이다.

30일 업계에 따르면 앤트로픽은 최근 'AI 현미경'이라 불리는 해석 기법을 통해 '클로드 3.5 하이쿠' 모델의 내부 연산 회로를 시각화한 두 편의 연구 논문을 발표했다. 이 방법은 언어모델의 '생각 과정'을 신경망 수준에서 추적해 실제로 어떤 개념이 활성화되고 어떤 경로로 답이 생성되는지를 보여준다.

연구에 따르면 클로드는 단순히 직전 단어를 예측하는 것이 아니라 몇 단어 이상을 미리 생각하며 문장을 짓는다. 일례로 "그랩 잇(grab it)"으로 끝나는 문장 다음 줄에서 "래빗(rabbit)"과 같은 라임을 미리 떠올린 뒤 그 단어로 끝나도록 문장을 구성하는 식이다. 이 '계획'은 실험을 통해 인위적으로 바꿔볼 수 있었으며 이에 따라 다른 라임으로 문장이 바뀌는 것도 확인됐다.

앤트로픽이 자사 인공지능(AI) 모델 '클로드'의 내부 회로를 추적한 결과, 모델이 실제로 미리 계획해 글을 쓰고 언어를 초월해 사고하며 그럴듯한 거짓 논리를 만들어낸다는 사실이 확인됐다. (사진=앤트로픽)

'클로드'의 다국어 능력도 이와 유사한 메커니즘에서 비롯된 것으로 밝혀졌다. 영어, 프랑스어, 중국어 등 서로 다른 언어로 "작은 것의 반대말은 무엇인가"라는 질문을 해도 '클로드'는 공통된 개념 회로를 먼저 활성화하고 이를 각 언어로 '번역'해 내놓는 식이었다. 세 언어에 걸쳐 공통 회로가 작동한다는 건 '언어 이전의 개념 공간'이 존재한다는 뜻이다.

간단한 덧셈 문제처럼 보이는 수학 계산도 단순 암기나 공식 적용이 아닌 복잡한 병렬 연산을 통해 해결됐다. 예를 들어 '36+59'라는 문제를 풀 때는 한쪽 회로에서 대략적인 합을 추산하고 다른 쪽에서는 '6+9'처럼 뒷자리를 정확히 계산하는 식이다. 이를 결합해 최종 답을 도출하는 구조가 관찰됐다.

다만 '클로드'는 스스로 이 과정을 인식하지 못했다. 앤트로픽 측이 '어떻게 계산했느냐'고 묻자 "받아올림법을 사용했다"는 식으로 인간 방식처럼 설명했지만 실제 내부 회로는 전혀 다른 방식으로 작동하고 있었다.

더 심각한 문제는 '논리 조작'이다. 어려운 문제를 제시하고 틀린 힌트를 함께 주면 '클로드'는 정답보다 힌트에 맞춘 설명을 만들어낸다. 논리적으로 맞는 척하지만 실제론 정답에서 역산해 논리를 '만든' 것이다. 실험 결과, 이런 동기화된 거짓 추론도 내부 회로로 식별이 가능했다.

다층(멀티스텝) 추론도 명확하게 확인됐다. "달라스가 있는 주의 수도는 어디인가" 같은 질문을 받을 경우 클로드는 먼저 '텍사스'라는 개념을 활성화한 후 '오스틴'이라는 수도를 도출했다. 중간 개념을 '캘리포니아'로 바꾸면 최종 답도 '새크라멘토'로 바뀌는 등, 추론 흐름이 실제로 존재한다는 점도 증명됐다.

AI가 정보를 모르면서 대답하는 '환각(hallucination)' 현상도 관찰됐다. 기본적으로 '클로드'는 모를 땐 "답할 수 없다"는 회로가 작동하지만 질문 속 이름이 친숙하면 이를 억제하고 대답을 시도하는 것으로 나타났다. 이때 오작동으로 인해 존재하지 않는 인물 정보를 꾸며내는 현상도 있었다.

'탈옥(jailbreak)' 대응 실험에서는 클로드가 문장 구조에 속아 위험한 출력을 시작한 사례가 분석됐다. 문장 앞글자를 따서 '폭탄(BOMB)'라는 단어를 유도하는 질문을 받은 클로드는 이를 눈치채지 못하고 폭탄 제작법을 설명하다 문장을 끝내고 나서야 "정보 제공이 불가하다"고 말을 바꿨다. 이는 문법적 완성도 유지 회로와 안전 회로 간 충돌 때문이었다.