챗GPT가 왜 거짓말 하냐면…오픈AI "훈련-평가 방식이 문제"

컴퓨팅입력 :2025/09/08 21:32

챗GPT, 제미나이, 퍼플렉시티 등 생성형 AI가 일상에 널리 퍼지면서 이들이 만들어내는 그럴듯한 거짓 정보 때문에 골치를 앓는 사용자들이 늘고 있다. 특히 최신 AI 모델들조차 간단한 질문에도 자신만만하게 틀린 답을 내놓는 '환각' 현상은 AI 신뢰성에 큰 걸림돌이 되고 있다.

오픈AI(OpenAI)의 아담 타우만 칼라이(Adam Tauman Kalai) 연구원과 조지아공과대학교의 산토시 벰팔라(Santosh S. Vempala) 교수 연구팀이 AI가 그럴듯한 거짓말을 하는 '환각' 현상의 원인을 수학적으로 밝혀냈다. 연구진은 논문을 통해 AI 환각이 더 이상 신비로운 현상이 아니며, 훈련 방식과 평가 방식의 문제에서 비롯된다고 발표했다.

AI 환각, 단순한 분류 문제 실수에서 시작

연구진은 AI의 환각 현상을 쉽게 설명했다. AI가 답변을 만들 때 "이 답변이 올바른가?"라는 질문에 제대로 답하지 못하면서 생기는 문제라는 것이다. 이를 수학적으로 분석한 결과, AI가 잘못된 답을 내놓을 확률이 이런 판단 실수 확률의 최소 2배라는 사실을 발견했다.

예를 들어, 유명인의 생일 같은 정보가 훈련 데이터에 딱 한 번만 나타나는 경우가 20%라면, AI는 최소 20%의 확률로 생일을 잘못 말할 것이라고 연구진은 설명했다. 실제로 최신 AI 모델인 DeepSeek-V3에게 "아담 타우만 칼라이의 생일은?"이라고 물었을 때, 세 번 모두 다른 틀린 날짜를 답했다.

챗GPT(GPT-4o), 딥시크, 라마 등 주요 AI 모델들에게 그의 박사논문 제목을 물었을 때도 상황은 마찬가지였다. 챗GPT는 "Boosting, Online Algorithms, and Other Topics in Machine Learning"이라고 답했고, 딥시크는 "Algebraic Methods in Interactive Machine Learning", 라마는 "Efficient Algorithms for Learning and Playing Games"라고 답했다. 하지만 모두 틀린 답이었다.

연구진은 "AI가 한 번에 한 단어씩 만들어내는 방식 자체가 문제가 아니다"라며 "언어의 패턴을 학습하는 과정에서 자연스럽게 생기는 통계적 현상"이라고 밝혔다.

시험 채점 방식이 AI에게 추측을 강요한다

연구진이 더 중요하게 본 문제는 AI를 평가하는 방식이다. 현재 대부분의 AI 평가는 정답이면 1점, 틀리면 0점을 주는 방식을 사용한다. 이런 채점 방식에서는 "모르겠다"고 답하면 무조건 0점이지만, 추측해서 맞으면 1점을 받을 수 있다.

연구진은 이를 학생의 시험 상황에 비유했다. "학생들이 어려운 문제를 만났을 때 빈칸으로 두지 않고 그럴듯한 답을 써넣는 것과 같다"며 "AI는 항상 시험을 보는 상황에 있어서, 불확실해도 추측하는 것이 더 좋은 점수를 받는 방법이 된다"고 설명했다.

실제로 GPQA, MMLU-Pro, SWE-bench 같은 유명한 AI 평가 시험들이 모두 이런 방식을 사용하고 있다. 연구진은 "아무리 좋은 환각 방지 기술을 개발해도, 주요 평가들이 추측을 보상하는 한 효과가 제한적"이라고 지적했다.

"50%, 75%, 90% 확신할 때만 답하라" 방식으로 해결 가능

연구진은 해결책으로 명확한 확신 기준을 제시할 것을 제안했다. 예를 들어 "50% 이상 확신할 때만 답하세요. 틀린 답은 1점 감점, 맞은 답은 1점, 모르겠다는 0점입니다"라고 규칙을 정하는 것이다. 연구진은 50%(penalty 1), 75%(penalty 2), 90%(penalty 9) 등 다양한 확신 기준을 제시했다.

이는 완전히 새로운 아이디어가 아니다. 미국의 SAT, AP, GRE 시험이나 인도의 JEE, NEET, GATE 시험에서 이미 사용하고 있는 방식이다. 연구진은 "확신 기준을 명확히 알려주면, AI가 적절한 때에 '모르겠다'고 답할 수 있게 된다"고 설명했다.중요한 점은 확신 기준이 명시되어야 한다는 것이다. 연

구진은 "기준이 명시되지 않으면 어떤 모델이 최선인지에 대한 합의가 어렵다"며 "학생들도 채점 기준이 불분명하면 불공정하다고 느낄 것"이라고 지적했다. 또한 "기존 주요 평가 방식에 이런 기준을 추가하는 것이 중요하다"며 "새로운 환각 평가를 만드는 것만으로는 충분하지 않다"고 강조했다.

모델 성능과 데이터 품질도 영향

연구진은 환각의 다른 원인들도 찾아냈다. AI 모델 자체의 능력 부족이나 훈련 데이터에 포함된 잘못된 정보들도 환각을 일으킬 수 있다고 밝혔다.

흥미롭게도 "DEEPSEEK에 D가 몇 개 있나요?"라는 간단한 문제에서도 여러 최신 AI들이 틀렸다. DeepSeek-V3, Meta AI, Claude 3.7 Sonnet 모두 정답인 1개 대신 "2개", "3개", "6개", "7개" 등 다양한 틀린 답을 내놨다. 연구진은 이를 AI가 글자 하나하나가 아닌 덩어리 단위로 글을 처리하기 때문이라고 설명했다. 실제로 추론 기능이 강화된 DeepSeek-R1은 단계적으로 생각해서 이 문제를 올바르게 해결했다.

AI 업계 벤치마크 경쟁, 근본적 재검토 필요

이번 연구는 AI 업계가 추구해 온 벤치마크 점수 경쟁 자체에 근본적 문제가 있음을 보여준다. 현재 AI 개발사들은 MMLU, GPQA, SWE-bench 같은 주요 벤치마크에서 높은 점수를 얻기 위해 치열하게 경쟁하고 있다. 하지만 연구진의 분석에 따르면, 이런 평가들이 모두 정답/오답 방식을 사용해 AI가 불확실할 때도 추측하도록 유도하고 있다.

특히 주목할 점은 연구진이 조사한 10개 주요 벤치마크 중 9개가 "모르겠다"는 답변에 전혀 점수를 주지 않는다는 사실이다. 유일하게 부분 점수를 주는 WildBench조차 채점 기준에서 "모르겠다"를 "문제 해결에 도움이 되지 않는" 답변으로 분류해 낮은 점수를 준다. 이는 사실상 AI가 확실하지 않은 정보라도 그럴듯하게 포장해서 제시하는 것을 보상하는 구조다.

연구진은 "이상적인 환각 방지 기술을 개발해도 주요 평가들이 추측을 보상하는 한 효과가 제한적"이라고 지적했다. 즉, 업계가 현재 벤치마크 중심의 개발 방향을 바꾸지 않으면 환각 문제 해결이 어렵다는 뜻이다. 이는 AI 개발사들이 단순히 기술 개선에만 집중할 것이 아니라, 평가 방식 자체를 개선하는 데도 적극 나서야 함을 시사한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1: AI 환각을 완전히 없앨 수 있나요?

A1: 현재 방식으로 훈련된 AI에서는 환각을 완전히 없앨 수 없습니다. 하지만 정해진 답만 하는 시스템을 만들면 환각 없는 AI를 만들 수는 있습니다. 다만 이런 AI는 다양한 언어 능력을 잃게 됩니다.

Q2: 왜 최신 AI도 간단한 글자 세기를 못 하나요?

A2: AI는 글자 하나씩이 아니라 단어나 글자 덩어리 단위로 처리합니다. "DEEPSEEK"을 "D/EEP/SEE/K"로 나누어 처리하면 D가 몇 개인지 세기 어려워집니다. 하지만 단계별로 생각하는 AI는 이 문제를 해결할 수 있습니다.

Q3: 평가 방식을 바꾸면 AI가 덜 거짓말하나요?

관련기사

A3: 그렇습니다. 정답/오답만 채점하지 말고 확신 정도에 따라 점수를 주면, AI가 무리하게 추측하지 않고 솔직하게 "모르겠다"고 답할 가능성이 높아집니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)