UC버클리 연구 "AI가 A학점 30% 부풀렸다…학습은 그대로"

생성형 인공지능이 대학 성적을 끌어올렸지만 실제 학습 성과로 이어지지는 않았다는 대규모 연구가 나왔다. 더디코더(The Decoder)에 따르면 UC버클리(UC Berkeley) 연구진은 50만 건이 넘는 성적을 분석해 챗GPT(ChatGPT) 등장 이후 글쓰기와 코딩 비중이 높은 강의에서 성적이 뛰어올랐다는 사실을 확인했다.

'인공지능과 성적 인플레이션(Artificial Intelligence and Grade Inflation)'이라는 제목의 이 논문은 2018년부터 2025년까지의 성적을 추적했다. 연구진은 인공지능에 더 많이 노출되는 과제를 포함한 강의와 그렇지 않은 강의를 비교하는 이중차분법(difference-in-differences)을 사용했다. 그 결과 A학점 비중이 2022년 기준선 대비 약 13%포인트, 비율로는 약 30% 상승한 것으로 추정됐다.

핵심은 이 상승이 학습 향상보다 인공지능이 학생의 과제를 대신한 결과에 가깝다는 점이다. 연구를 이끈 이고르 치리코프(Igor Chirikov)는 '학생들이 더 많이 배웠다기보다, 생성형 AI에 기대어 성적을 더 잘 받았다는 것을 시사한다'고 밝혔다. 실제로 성적 상승 폭은 과제가 최종 성적에서 차지하는 비중이 큰 강의일수록 더 컸는데, 이는 인공지능이 학습을 보완했다기보다 학생의 작업을 대체했다는 해석과 일치한다.

대학들은 이미 대응에 나섰다. 더디코더에 따르면 일부 교수진은 대면 시험 비중을 늘리고 과제 가중치를 낮추며, 성적표의 신뢰를 지키기 위해 시험 감독을 다시 도입하고 있다. 집에서 작성하는 과제가 더 이상 학생의 실력을 가늠하는 잣대가 되기 어려워졌다는 판단에서다.

이번 연구는 챗GPT가 2022년 11월 공개된 이후 성적은 크게 올랐지만 그것이 곧 실력 향상을 의미하지는 않는다는 점을 데이터로 보여준다. 글쓰기와 코딩처럼 인공지능이 결과물을 직접 만들어낼 수 있는 영역에서 성적 상승이 두드러졌다는 점은, 평가 항목 자체가 인공지능에 의해 손쉽게 대체될 수 있음을 시사한다. 단순히 부정행위를 단속하는 차원을 넘어, 무엇을 어떻게 평가할 것인가라는 근본적인 질문이 제기되고 있다.

인공지능 활용이 일상이 된 교육 현장에서 평가 방식을 어떻게 재설계할지에 대한 논의는 더 시급해졌다. 인공지능을 무조건 배척하기보다 활용 능력 자체를 평가에 포함하거나, 과정 중심·구술 중심 평가로 전환하는 방안도 거론된다.

자세한 내용은 더디코더(The Decoder) 에서 확인할 수 있다.

이미지 출처: 이디오그램 생성