75년 전 영국 수학자 앨런 튜링(Alan Turing)이 상상했던 '생각하는 기계'가 현실이 됐다는 주장이 나왔다. 과학 저널 네이처(Nature)에서 발표한 리포트에 따르면, 지금의 AI가 이미 인간 수준의 지능을 갖췄다고 결론 내렸다. 2025년 3월 오픈AI가 만든 GPT-4.5는 '튜링 테스트'에서 실제 인간보다 높은 73%의 점수를 받았다. 국제 수학 경시대회에서 금메달 수준의 성적을 내고, 여러 분야의 어려운 문제를 척척 풀어낸다. 하지만 정작 AI 전문가들의 76%는 "현재 방식으로는 인간 수준 AI를 만들기 어렵다"고 답해 논란이 되고 있다.
사람인 척 했더니 10명 중 7명이 속았다
2025년 3월에 진행된 실험에서 GPT-4.5는 놀라운 결과를 보여줬다. 사람들과 채팅을 나눴을 때, 73%의 사람들이 이 AI를 진짜 사람이라고 착각했다. 실제 사람 참가자들보다 더 높은 점수였다. 이른바 '튜링 테스트'를 통과한 것이다.
튜링 테스트는 1950년 앨런 튜링이 만든 방법이다. "기계가 사람처럼 유연하게 생각하고 대화할 수 있을까?"라는 질문에 답하기 위한 실험이었다. 만약 사람이 기계와 대화하면서 그것이 기계인지 사람인지 구별하지 못한다면, 그 기계는 '생각할 수 있다'고 볼 수 있다는 논리다.
더 놀라운 건 독자들이 AI가 쓴 글을 전문 작가가 쓴 글보다 더 좋아했다는 사실이다. 이제 AI는 단순히 사람 흉내를 내는 수준을 넘어섰다. 국제 수학 경시대회에서 금메달을 딸 만큼 어려운 문제를 풀고, 최고 수준의 수학자들과 함께 수학 이론을 증명하기도 했다. 과학 실험에서 쓸 수 있는 아이디어를 내놓고, 프로 프로그래머의 코딩을 도와주고, 시를 쓰기도 한다. 전 세계 수억 명이 AI와 매일 24시간 대화를 나누고 있다. 이 모든 것이 튜링이 말했던 '폭넓고 유연한 사고 능력', 즉 '일반 지능'의 증거라는 것이 논문의 주장이다.
전문가 4명 중 3명은 "아직 멀었다"
하지만 많은 전문가들은 지금의 AI가 '인간 수준 일반 지능'을 가졌다는 말에 동의하지 않는다. 2025년 3월 워싱턴의 인공지능진흥협회가 주요 연구자들에게 물었더니, 76%가 "지금처럼 AI를 더 크게 만드는 방식으로는 인간 수준에 도달하기 어렵다"고 답했다.
논문을 쓴 연구진은 이런 의견 차이가 세 가지 이유 때문이라고 분석했다. 첫째, '인간 수준 AI'가 정확히 뭔지 정의가 애매하고 사람마다 다르게 이해한다. 둘째, AI가 발전하면 일자리를 잃을까 봐 두려워하는 감정이 작용한다. 셋째, 이 개념이 기업의 돈벌이와 연결돼 있어서 판단이 왜곡될 수 있다. 연구진은 철학, 기계학습, 언어학, 뇌과학 등 다양한 분야 전문가들이 모여 오랜 토론 끝에 "지금의 AI는 인간 수준 지능을 갖췄다"는 결론에 도달했다고 밝혔다.
"완벽할 필요도, 모든 걸 할 필요도 없다"
그렇다면 '일반 지능'이란 정확히 무엇일까? 해당 리포트에 따르면, 이를 "여러 분야에 걸쳐 충분히 넓고 깊은 사고 능력"이라고 정의했다. 계산기나 체스 프로그램처럼 한 가지만 잘하는 '좁은' 지능과는 다르다. '깊다'는 것은 각 영역에서 단순히 겉핥기가 아니라 실제로 잘한다는 뜻이다.
중요한 점은 사람의 지능도 사람마다 다르다는 것이다. 어린아이, 평범한 어른, 아인슈타인 같은 천재 모두 각자 다른 수준과 특성의 일반 지능을 가지고 있다. 개인마다 잘하는 분야와 못하는 분야가 다르다. AI도 마찬가지 기준으로 봐야 한다는 게 연구진의 주장이다.
논문은 일반 지능을 갖추기 위해 꼭 필요하지 않은 네 가지를 짚었다. 첫째, 완벽할 필요 없다. 물리학자가 아인슈타인만큼 대단할 것을 기대하지 않듯이, 사람의 일반 지능도 완벽하지 않다. 둘째, 모든 것을 다 할 필요 없다. 문어는 팔 8개를 따로따로 움직일 수 있고, 많은 곤충은 사람이 못 보는 빛을 본다. 하지만 일반 지능이 이런 모든 능력을 다 갖출 필요는 없다. 셋째, 사람과 똑같을 필요 없다. 지능은 다른 방식으로도 만들어질 수 있는 기능이다. 튜링도 1950년에 사람의 뇌 구조를 그대로 따라 할 필요는 없다고 했다. 넷째, 초인적일 필요 없다. '초지능'은 거의 모든 분야에서 사람을 훨씬 뛰어넘는 시스템을 말하는데, 어떤 사람도 이 기준을 충족하지 못한다. 그러니 AI에게도 이런 기준을 요구하면 안 된다.
영화 속 슈퍼컴퓨터보다 지금 AI가 더 뛰어나다
지금의 AI는 이미 여러 단계의 능력을 보여줬다.
첫 번째 단계는 '튜링 테스트 수준'이다. 학교 시험을 통과하고, 적당히 대화하고, 간단한 추론을 하는 정도다. 10년 전이었다면 이 정도만 해도 인간 수준 AI라고 인정받았을 것이다.
두 번째 단계는 '전문가 수준'이다. 요구 수준이 훨씬 높아진다. 국제 경시대회에서 금메달 성적을 내고, 여러 분야의 박사 과정 시험 문제를 풀고, 복잡한 코드를 짜고 고치고, 수십 개 언어를 구사하고, 에세이 쓰기부터 여행 계획까지 실용적 문제를 잘 해결한다. 이런 성취는 공상과학 영화 속 AI보다도 뛰어나다.
세 번째 단계는 '초인간 수준'이다. 혁명적인 과학 발견을 하고, 여러 분야에서 최고 전문가들을 일관되게 이긴다. 이 정도면 기계에 일반 지능이 있다는 걸 의심할 수 없을 것이다. 하지만 어떤 사람도 이런 능력을 보여주지 못하므로, 이것까지 요구할 필요는 없다.
"앵무새처럼 따라 한다"는 비판에 대한 반박
지금의 LLM은 이미 첫 번째와 두 번째 단계를 통과했다. LLM이 점점 더 어려운 문제를 해결하면서, "그냥 거대한 검색 엔진일 뿐"이거나 "의미도 모르고 패턴만 흉내 내는 앵무새"라는 비판은 설득력을 잃어가고 있다.
하지만 이런 비판은 AI가 새로운 성과를 낼 때마다 조금씩 물러나면서 다시 나타난다. 항상 "지금까지는 성공했지만 다음 단계에서는 실패할 것"이라고 예측한다. 이런 태도는 설득력 있는 과학 이론이 아니라, 그냥 계속 의심하겠다는 고집에 가깝다고 연구진은 지적했다.
연구진은 지금 증거가 충분하다고 본다. 우리가 다른 사람의 지능을 판단할 때 쓰는 것과 같은 추론 방식으로 보면, 지금 우리는 상당히 높은 수준의 인간형 AI를 목격하고 있다. 튜링이 상상했던 기계가 도착한 것이다. 비슷한 주장이 전에도 있었지만 논란이 됐다. 하지만 이번 주장은 상당한 기술 발전과 시간이 더 지난 뒤에 나온 것이다. 2026년 초 현재, 인간 수준 AI가 존재한다는 증거는 훨씬 더 명확해졌다.
이제 논문은 "지금 LLM이 일반 지능을 보여준다"는 주장에 대한 열 가지 흔한 반론을 검토한다. 이 중 몇몇은 튜링 자신이 1950년에 이미 생각했던 것들이다. 각각의 반론은 일반 지능에 꼭 필요하지 않은 것을 요구하거나, 사람도 충족하지 못하는 기준을 들이댄다고 연구진은 반박한다.
AI 일반 지능 논란, 다섯 가지 반론과 반박
지금 LLM이 일반 지능을 보여준다는 주장에 대해 흔히 나오는 반론들이 있다. 연구진은 이 반론들이 일반 지능에 꼭 필요하지 않은 것을 요구하거나, 사람도 충족하지 못하는 기준을 들이댄다고 반박한다.
첫 번째, "그냥 앵무새일 뿐"이라는 비판이다. LLM이 학습 데이터를 짜깁기만 한다는 주장이다. 하지만 지금의 LLM은 아직 공개되지 않은 새로운 수학 문제를 풀고, 코딩 훈련을 받으면 다른 분야 추론 능력도 좋아지는 등 여러 영역을 넘나드는 능력을 보인다. 비판자들이 아인슈타인의 상대성 이론 같은 혁명적 발견을 요구한다면, 그건 기준을 너무 높게 잡은 것이다.
두 번째, "세상에 대한 모델이 없다"는 반론이다. 하지만 세상 모델을 가진다는 건 단지 "상황이 달라지면 어떻게 될까?"에 답할 수 있다는 뜻이다. 최신 LLM에게 타일 바닥에 유리잔과 베개를 떨어뜨리면 어떻게 다르냐고 물으면, 한쪽은 깨지고 한쪽은 안 깨진다고 정확하게 예측한다.
세 번째, "단어만 이해한다"는 비판이다. 최신 모델들은 이제 이미지와 다른 여러 형태의 데이터로도 학습되므로, 이 반론은 시대에 뒤떨어졌다. LLM은 생물학과 재료과학에서 다음 실험을 제안하는 등 단순한 언어 능력을 넘어선 일을 한다.
네 번째, "몸이 없다"는 주장이다. 이는 AI에게만 적용되는 사람 중심적 편견이다. 사람들은 라디오로 통신하는 몸 없는 외계인에게도 지능을 부여할 것이다. 물리학자 스티븐 호킹은 텍스트와 합성 음성으로 소통했지만, 물리적 제약이 그의 지능을 감소시키지 않았다.
다섯 번째, "스스로 목표를 세우지 못한다"는 반론이다. 지금의 LLM이 독립적으로 목표를 세우지 않는다는 점은 사실이다. 하지만 지능이 자율성을 요구하지는 않는다. 델포이의 신탁처럼 질문받을 때만 답하는 시스템도 지능적일 수 있다. 자율성은 도덕적 책임에는 중요하지만, 지능을 구성하는 요소는 아니다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 튜링 테스트가 뭔가요? 왜 중요한가요?
A. 튜링 테스트는 1950년 영국 수학자 앨런 튜링이 만든 실험입니다. 사람이 기계와 대화했을 때 그것이 기계인지 사람인지 구별하지 못하면, 그 기계는 '생각할 수 있다'고 보는 방법입니다. 75년 동안 AI 연구의 중요한 목표였는데, 2025년 GPT-4.5가 73%의 성공률을 기록하면서 이 오랜 목표를 달성했다는 주장이 나왔습니다.
Q2. AGI(인공 일반 지능)는 일반 AI와 어떻게 다른가요?
A. 일반 AI는 특정 일만 하는 좁은 AI와 달리 여러 영역에서 작동할 수 있는 AI를 말합니다. AGI는 한 걸음 더 나아가 사람처럼 다양한 인지 작업을 넓고 깊게 수행할 수 있는 시스템입니다. 예를 들어 체스만 두는 AI는 좁은 AI지만, 수학 문제도 풀고 코드도 짜고 시도 쓸 수 있다면 AGI에 가깝다고 볼 수 있습니다. 이 논문은 지금의 LLM들이 이미 AGI 수준에 도달했다고 주장합니다.
Q3. AI가 인간 수준 지능을 가졌다면 우리 일자리는 어떻게 되나요?
A. 이 논문은 AI의 지능 수준을 평가하는 것이지 일자리 문제를 직접 다루지는 않습니다. 하지만 AI가 전문가 수준의 일을 할 수 있다면 많은 직업에 영향을 줄 것입니다. 중요한 것은 AI가 '스스로 목표를 세우는 능력'이 부족해 혼자서는 행동을 시작하지 못한다는 점입니다. 즉, AI는 도구로서 사람을 돕는 역할이 주가 될 가능성이 높으며, 이에 따라 직업의 성격이 바뀌고 새로운 직업이 생길 것으로 예상됩니다.
기사에 인용된 리포트 원문은 Nature에서 확인 가능하다.
관련기사
- AI로 코딩하면 빨라질까…앤트로픽 실험 결과는 '충격'2026.02.02
- "논문 올리면 45초짜리 틱톡 영상 완성"… AI가 바꾸는 학술 소통의 미래2026.01.29
- [단독] 삼성 파운드리, 4·8나노 공정 가격 인상 추진2026.02.04
- 생성형 AI 패러다임 바뀔까…구글 '지니' 공개에 산업계 지형 변화 예고2026.02.04
리포트명: Does AI already have human-level intelligence? The evidence is clear
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)











