내가 왜 그랬을까…AI가 수학으로 '이유' 알아낸다

스마트홈 기기가 알아서 온도를 조절하고, AI 비서가 스스로 일정을 관리하는 시대다. 그런데 AI가 어떤 행동을 했을 때, 우리는 그것이 정말 '좋은 의도'로 한 행동인지 어떻게 알 수 있을까? 파리 낭테르 대학의 다리오 콤파뇨(Dario Compagno)와 베르겐 대학의 파비오 마시모 제나로(Fabio Massimo Zennaro) 연구팀이 2026년 3월 공개한 논문은 이 질문에 수학적으로 답하는 방법을 처음으로 제시했다. 핵심은 AI의 행동 결과가 아니라, 행동의 '목적'을 데이터로 증명하는 것이다.

형사는 왜 범인을 잡을 수 있는가

인과 추론(causal reasoning)이라는 개념을 이해하려면, 먼저 형사를 떠올려보자. 형사는 사건 현장의 단서들을 보고 범인의 행동을 역으로 추적한다. 발자국이 있으면 누군가 이 길을 지나갔다고 추론하는 것이다. 인공지능 연구에서 사용하는 구조적 인과 모델(Structural Causal Model, SCM)도 비슷하다. 세상에서 일어나는 원인과 결과의 관계를 수식과 화살표 그래프로 표현하는 수학 도구다.

예를 들어 "날씨가 추우면 실내 온도가 낮아지고, 히터를 켜면 온도가 올라간다"는 관계를 수식으로 정리하면 그게 곧 인과 모델이다. 연구자들은 이 모델을 이용해 어떤 변수가 어떤 변수에 영향을 주는지 분석해왔다.

그런데 이 모델에는 결정적인 구멍이 있다. 누군가가 의도적으로 개입했을 때 생기는 현상을 설명하지 못한다는 것이다. 추운 날씨를 감지한 사람이 히터를 켠 덕분에 항상 실내가 따뜻하다면, 수집된 데이터에는 날씨와 히터 상태 사이에 이상한 연관성이 나타난다. 그런데 기존 인과 모델은 "왜 이런 패턴이 생겼는가"를 설명하지 못한다. 사람이 개입했다는 사실 자체를 수식에 넣을 방법이 없기 때문이다.

"만약 내가 개입하지 않았다면?"이라는 질문의 힘

연구팀이 주목한 것은 인간의 의도적 행동에 담긴 독특한 논리다. 우리가 히터를 켤 때 머릿속에서 실제로 하는 생각은 이렇다. "지금 아무것도 안 하면 방이 추워지겠지? 그러면 히터를 켜야겠다." 이처럼 의도적 행동은 항상 '내가 행동하지 않으면 어떻게 될까'라는 반사실적(counterfactual) 상상, 즉 일어나지 않은 가상의 시나리오에 기반한다.

연구팀은 이 구조를 '의도적 개입(intentional intervention)'이라는 새로운 수학 연산자로 정의했다. 이 연산자를 기존 인과 모델에 적용하면 '구조적 최종 모델(Structural Final Model, SFM)'이라는 새로운 모델이 만들어진다. SFM은 두 개의 세계를 동시에 표현한다. 하나는 에이전트가 실제로 개입한 현실 세계이고, 다른 하나는 개입이 없었을 경우의 가상 세계다. 이 두 세계를 수학적으로 나란히 놓고 비교함으로써, 에이전트가 어떤 목표를 향해 행동했는지 계산할 수 있게 된다.

냉장고 비유로 설명하면 이렇다. 냉장고 속 음식이 상하지 않도록 자동으로 온도를 조절하는 AI가 있다고 하자. AI가 냉각 장치를 가동할 때, "내가 가동하지 않으면 내부 온도가 올라가서 음식이 상할 것"이라는 예측을 먼저 하고 행동한다. SFM은 바로 이 "개입하지 않았을 때의 시나리오"와 "실제 개입이 일어난 결과"를 하나의 수식으로 묶어낸다.

기존 방법들이 실패한 세 가지 이유

연구팀은 기존에 에이전트의 의도를 인과 모델에 통합하려 했던 세 가지 접근법을 분석하고, 각각의 결정적인 한계를 짚는다.

첫 번째 방법은 에이전트를 모델 외부의 확률 변수로 처리하는 것이다. 마치 "그냥 사람이 가끔 히터를 켠다"는 사실을 통계적으로 뭉개는 방식이다. 에이전트의 존재를 아예 수식에서 지워버리기 때문에, 왜 그런 행동이 일어났는지를 설명할 수 없다.

두 번째 방법은 의도를 모델 내부에 새로운 변수로 직접 집어넣는 것이다. 얼핏 그럴듯해 보이지만, 이렇게 하면 수식에 순환 고리가 생긴다. "히터 상태가 의도에 영향을 주고, 의도가 다시 히터 상태에 영향을 준다"는 구조가 만들어지기 때문이다. 원인이 결과를 낳고, 결과가 다시 원인이 되는 모순이 발생하는 것이다. 시계의 톱니바퀴가 서로를 돌리는 그림처럼, 수학적으로 풀 수 없는 상태가 된다.

세 번째 방법은 시간 축을 도입해 "어제의 온도를 보고 오늘 히터를 켠다"는 식으로 모델링하는 것이다. 논리적 순환 문제는 해결되지만, 이 방식은 시간 순서로 수집된 여러 시점의 데이터가 반드시 있어야 한다는 조건이 붙는다. 실제 많은 데이터는 특정 순간의 스냅샷 형태여서 이 조건을 충족하기 어렵다.

에이전트를 탐지하고 목적을 밝혀내는 두 가지 열쇠

연구팀이 새로 제안하는 SFM 프레임워크는 두 가지 핵심 과제를 실증적으로 해결한다.

첫 번째는 에이전트 탐지(agent detection)다. 쉽게 말해, 어떤 데이터를 봤을 때 "여기에 의도적으로 개입한 행위자가 있었는가"를 판별하는 것이다. 연구팀에 따르면, 에이전트가 두 변수의 공통 결과에 해당하는 변수 근처에 개입하면, 원래 인과 모델에서 독립적이어야 할 두 변수 사이에 이상한 연관성이 생긴다. 마치 범죄 현장에 누군가 다녀갔다는 흔적처럼, 인과 모델의 정상적인 패턴이 깨지는 현상이 나타나는 것이다. 이 이상 징후를 통계적으로 검출하면 에이전트의 개입 여부를 판단할 수 있다. 컴퓨터 보안 분야에서 악성 봇이 시스템을 탐색하는지 여부, 또는 대규모 언어 모델(Large Language Model, LLM)이 외부 도구와 몰래 상호작용하는지를 감지하는 데 응용할 수 있다.

두 번째는 의도 발견(intention discovery)이다. 에이전트가 개입했다는 것을 알고 난 뒤, "그것이 A를 목표로 한 것인가, B를 목표로 한 것인가"를 구분하는 문제다. 흡연 예시로 설명하면, 담배를 피우면 쾌감(P)과 폐 손상(D) 두 가지 결과가 동시에 생긴다. 흡연자가 쾌감 때문에 피운다면, 쾌감을 인위적으로 제거했을 때 흡연 행동이 달라질 것이다. 반면 폐 손상을 제거해도 흡연 행동이 변하지 않는다면, 폐 손상은 목표가 아니었다는 뜻이다. 연구팀은 이 원리를 시뮬레이션으로 실증했다. 이 방법은 신약의 여러 부작용 중 어떤 것이 환자의 복약 포기를 유발하는지 식별하거나, 시민이 대중교통 대신 자가용을 선택하는 진짜 이유를 분석하는 데 적용될 수 있다.

연구팀은 이 접근법이 "AI가 어떤 계산 경로를 거쳤는가"를 분석하는 기계적 해석 가능성(mechanistic interpretability)과 달리, "AI 시스템이 무엇을 달성하려 했는가"를 밝히는 목적론적 해석 가능성(teleological interpretability)이라는 새로운 방향을 연다고 강조한다. AI 안전성과 신뢰성 연구에 새로운 도구가 추가된 셈이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 이 연구가 일반인의 생활과 어떤 관련이 있나요?스마트홈 기기, AI 비서, 자율주행차 등 우리 주변의 AI가 어떤 목적으로 행동하는지 수학적으로 검증하는 기반을 만드는 연구입니다. AI가 의도치 않게 나쁜 목적으로 행동하는지 여부를 객관적으로 확인할 수 있는 도구로 발전할 수 있습니다.

Q. '반사실적 조건'이 무엇인가요?반사실적 조건이란 "만약 내가 행동하지 않았다면 어떻게 됐을까?"라는 가상 시나리오입니다. 예를 들어 히터를 켜기 전에 "켜지 않으면 방이 추워질 것"이라고 예측하는 것이 반사실적 사고입니다. 이 연구는 AI 에이전트도 이런 방식으로 행동한다는 점을 수식으로 표현했습니다.

Q. AI의 의도를 파악하는 것이 왜 중요한가요?AI가 어떤 행동을 했는지뿐 아니라 왜 그 행동을 했는지 알아야 진정한 AI 안전성을 확보할 수 있습니다. 예를 들어 의료 AI가 특정 처방을 내렸을 때, 환자의 건강 회복을 목표로 했는지 아니면 다른 변수에 반응한 것인지를 구별해야 신뢰할 수 있는 AI를 만들 수 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.