러시아 국립연구대학 경제고등학교(HSE University)와 모스크바 신경제학교(New Economic School)의 연구진이 진행한 연구에 따르면, 대형언어모델(LLM)이 인간과 유사한 전략적 사고를 할 수 있는지 분석하기 위해 '미인 대회 게임(Keynesian Beauty Contest)'을 활용한 실험이 진행되었다. (☞ 논문 바로가기)
연구진은 GPT-4o, GPT-4o-mini, Claude 3.5 Sonnet, Gemini 1.5 Flash, Llama 3.1-8B 등의 AI 모델과 다양한 인간 그룹을 비교하며 AI가 인간의 전략적 사고 방식을 얼마나 정확하게 모방할 수 있는지를 평가했다. 연구 결과, 대부분의 AI 모델은 인간보다 더 전략적으로 보이는 선택을 했지만, 실제 인간의 행동을 완벽하게 모방하지는 못하는 것으로 나타났다.
'미인 대회 게임'이란?
'미인 대회 게임'은 경제학에서 널리 사용되는 실험으로, 참가자들이 0에서 100 사이의 숫자를 선택하고, 그중 평균값의 특정 비율(예: 2/3)에 가장 가까운 숫자를 선택한 사람이 승리하는 방식으로 진행된다. 이 게임은 참가자들이 다른 사람들이 어떻게 사고하는지를 예측하고 그에 따라 자신의 선택을 조정해야 하기 때문에 인간의 전략적 사고 능력을 측정하는 데 유용한 도구로 여겨진다. 경제 이론상으로는 모든 참가자가 이성적으로 행동할 경우 0을 선택하는 것이 최적의 전략이지만, 실제로는 대부분의 사람들이 그렇게 하지 않는다.
인간은 왜 완벽한 해답을 선택하지 않을까? AI와 인간의 차이
연구진은 인간 참가자들과 AI 모델들을 같은 환경에서 경쟁시키며, 각 모델이 전략적 사고를 얼마나 잘 수행하는지를 분석했다. 인간 참가자들은 일반 대학생, 경제학 전공 학생, 게임 이론 학회 참가자, 그리고 인지 반응 테스트(CRT) 점수가 높은 그룹과 낮은 그룹 등으로 나뉘었다.
실험 결과, 대부분의 AI 모델들은 인간보다 낮은 숫자를 선택하며 이론적으로 최적의 해답(Nash Equilibrium)에 더 가깝게 접근하는 경향을 보였다. 특히 Claude 3.5 Sonnet과 GPT-4o는 상대방이 매우 전략적으로 행동할 것이라고 가정하며 더 낮은 숫자를 선택했으며, 반대로 Llama 모델은 인간과 유사한 선택을 하는 경향을 보였다.
AI도 환경에 적응한다? 상대방에 따라 달라지는 AI의 선택
연구진은 AI가 전략적 환경을 얼마나 잘 인식하고 적응하는지를 평가하기 위해 다양한 실험을 진행했다.
먼저, AI 모델들이 인간보다 상대방을 과대평가하는 경향이 있는 것으로 나타났다. 인간 참가자들이 평균적으로 30에서 40 사이의 숫자를 선택한 반면, 대부분의 AI 모델들은 10에서 20 사이의 숫자를 선택했다. 이는 AI가 인간의 전략적 사고 수준을 지나치게 높게 평가하고, 상대방이 더 깊이 사고할 것이라고 가정하는 경향이 있음을 보여준다.
또한, AI 모델들은 상대방의 수준에 따라 다른 전략을 선택하는 경향을 보였다. 경제학이나 게임 이론을 전공한 참가자들과 경쟁할 때 AI는 더 낮은 숫자를 선택하며 이론적 균형점에 가깝게 접근했다. 반면 게임 이론을 잘 모르는 일반인과 대결할 때는 AI도 상대적으로 높은 숫자를 선택하는 모습을 보였다. 이는 AI가 일정 수준의 환경 적응력을 가지고 있음을 의미한다.
특히, AI 모델 간의 차이도 명확하게 나타났다. Llama 3.1-8B 모델은 다른 AI들과 달리 인간과 비슷한 숫자를 선택하는 경향을 보였다. 반면 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash 등은 지속적으로 낮은 숫자를 선택하며 인간보다 더 전략적인 모습을 보였다. 이러한 차이는 각 AI 모델이 훈련된 방식과 알고리즘의 차이에서 비롯된 것으로 보인다.
AI는 인간보다 더 전략적일까? 오히려 현실에서 불리한 결과 초래
AI가 전략적 사고를 수행할 수 있는지는 경제학, 게임 이론, 금융, 심리학 등 여러 분야에서 중요한 논점이 되고 있다. 연구 결과에 따르면, AI는 인간보다 더 이론적으로 최적화된 선택을 할 수 있지만, 인간의 ‘비합리적인’ 사고방식이나 감정적 요소까지 완벽하게 모방하지는 못한다.
실제로 AI는 상대방이 매우 이성적으로 행동할 것이라는 가정을 바탕으로 전략을 세우는 경향이 있으며, 이러한 점이 오히려 현실 세계에서 비효율적인 결과를 초래할 수도 있다. 예를 들어, 인간 참가자들이 게임 이론을 잘 이해하지 못한 상태에서 50에 가까운 숫자를 선택했음에도 불구하고 AI는 여전히 낮은 숫자를 선택하여 승리하지 못하는 경우가 많았다. 이는 AI가 단순한 수학적 최적화가 아닌 실제 인간의 사고 패턴을 학습하는 것이 필요하다는 점을 시사한다.
AI가 인간을 대체하려면… 해결해야 할 전략적 한계들
이번 연구는 AI가 인간의 전략적 사고를 어느 정도까지 모방할 수 있는지를 밝히는 중요한 자료를 제공했지만, AI 모델들이 여전히 해결해야 할 한계도 분명히 드러냈다. 연구진은 AI가 보다 인간과 유사한 행동을 하도록 발전하기 위해 몇 가지 개선 방향을 제시했다.
첫째, AI가 인간의 의사결정 방식과 심리적 요인을 더욱 반영할 수 있도록 학습 데이터를 조정하는 것이 필요하다. 연구진은 AI가 단순히 최적 전략을 계산하는 것이 아니라, 인간의 ‘불완전한 합리성’을 고려하는 방식을 학습해야 한다고 강조했다.
둘째, AI가 경쟁 환경에서 인간의 수준을 더 잘 인식할 수 있도록 메타인지적 요소를 추가해야 한다. 예를 들어, AI가 상대방이 얼마나 전략적 사고를 할 수 있는지를 학습하고 이에 따라 최적 전략을 조정하는 알고리즘이 필요하다.
관련기사
- AI로 베수비오 화산서 탄 두루마리 해독…해독된 단어 일부는 ‘혐오’2025.02.06
- AI로 사라져가는 자연 기록한다…세계 최초 빙하 냄새까지 재현2025.02.06
- AI 도입 성숙도 1%... 직원들은 준비됐는데 리더가 더디다2025.02.06
- 빌 게이츠의 예언 실현되나…AI 에이전트가 비즈니스 주도한다2025.02.06
셋째, AI 모델 간의 차이를 보다 체계적으로 분석하여 어떤 모델이 인간과 가장 유사한 사고방식을 보이는지를 파악하는 연구가 추가적으로 필요하다. 이번 연구에서도 Llama 모델이 다른 AI들보다 인간과 유사한 선택을 했다는 점이 확인되었는데, 이러한 차이를 분석하는 것이 향후 AI 발전에 중요한 자료가 될 수 있다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)