챗GPT 유·무료 버전 비교했더니…월 2만원 차이가 만드는 성적 차이

범용 AI의 무료·유료 성능차: 시험성적 최대 2배 차이

미국의 서던 메소디스트 대학교(Southern Methodist University) 통계·데이터과학부의 연구에 따르면, 챗GPT(ChatGPT)의 무료 버전과 유료 버전 간 성능 차이가 상당한 것으로 나타났다.

연구진은 여러 통계학 시험에서 성능을 검증했는데, 고등학교 수준의 ACTM 시험에서 GPT-3.5는 64%, GPT-4는 100%를 기록했다. 대학 입학 수준인 AP 통계 시험에서는 각각 50%와 81%, 대학 수준의 CAOS 시험에서는 48%와 70%를 기록했다. 대학원 1학년 통계학 시험의 경우 GPT-3.5는 41점으로 낙제했으나, 월 20달러의 유료 버전인 GPT-4는 82점을 기록했다. 새로운 무료 버전인 GPT4o-mini는 72점으로 중간급 성적을 보였다. (☞ 논문 바로가기)

AI 교육 활용의 현주소: "금지해도 사용한다" 83%

서던 메소디스트 대학교 연구진에 따르면, 많은 교육자들이 AI를 개인 튜터로 활용하면 교육 격차가 줄어들 것으로 기대하고 있다. 하지만 이러한 잠재력을 실현하기 위해서는 학생들에게 무선 인터넷과 고성능 노트북이 필요하다.

특히 경제적 어려움이 있는 학생이나 인프라가 부족한 지역의 학생들은 이러한 디지털 기기 접근에 제약이 있다. 일부 대학에서 AI 사용을 금지하고는 있지만, 실제로는 통제가 어려운 것이 현실이다. 학생들의 83%가 금지되어 있어도 AI를 사용하고 있는 것으로 나타났다.

이미지 해석력 격차: GPT-4 66% vs GPT-3.5 0% 정답률

연구진은 특히 이미지를 포함한 문제에서 버전별 성능 차이가 두드러졌다고 밝혔다. GPT-3.5는 이미지가 포함된 30개 문제 모두를 틀린 반면, GPT-4는 20개를 맞추는 성과를 보였다.

맥니마 검정(McNemar's test) 결과, GPT-4가 맞고 GPT-3.5가 틀린 문제는 35개, 그 반대의 경우는 6개에 불과했다. 이는 천만 분의 12의 확률로만 우연히 발생할 수 있는 차이다. 순서형 로지스틱 회귀분석에서도 이미지가 포함된 문제의 경우 GPT-4가 GPT-3.5보다 70% 더 높은 품질의 답변을 제공하는 것으로 나타났다.

GPT4o 출시로 달라진 AI 교육 환경

2024년 5월 출시된 GPT4o는 이전 버전에 비해 정확성과 응답 시간이 크게 개선되었으며, 복잡한 쿼리 처리 능력도 향상되었다. 영어 외 다른 언어에 대한 적응성도 높아졌다. 그러나 무료 사용자들은 피크 시간대 메시지 제한, 데이터 분석, 파일 업로드, 이미지 이해 기능 등에서 제약을 받는다. 2024년 중반, OpenAI는 GPT3.5를 완전히 GPT4o-mini로 대체했는데, 이는 무료 사용자들도 일정 수준의 성능을 보장받을 수 있게 되었음을 의미한다.

AI 답변의 질적 차이: GPT4o-mini 평균 593단어 vs GPT-4 99단어

텍스트 분석 결과, GPT4o-mini는 문제당 평균 593개 토큰과 20.8개 문장을 사용한 반면, GPT-4는 99.6개 토큰과 4.31개 문장으로 가장 간결했다. 답변의 난이도를 평가하는 플레시-킨케이드(Flesch-Kincaid) 지수는 GPT-3.5가 12.8-15.1, GPT-4가 12.1-15.4, GPT4o-mini가 9.3-22.0을 기록했다. SMOG 지수에서도 GPT-3.5는 14.6-16.4, GPT-4는 13.5-16.1, GPT4o-mini는 14.1-17.4를 기록해 대체로 대학 수준의 독해력이 요구되는 것으로 나타났다.

통계적 사고력 차이: GPT-4의 높은 분석력

잠재 디리클레 할당(LDA) 기법으로 답변을 분석한 결과, GPT-3.5는 문제의 맥락과 관련된 일반적 용어를 주로 사용한 반면, GPT-4와 GPT4o-mini는 통계적 방법론 용어를 더 많이 사용했다. 예를 들어, 심장병과 콜레스테롤 관계를 분석하는 문제에서 GPT-3.5는 관련 용어를 반복적으로 사용했지만, GPT-4는 카이제곱 검정과 같은 통계적 분석 방법에 초점을 맞추었다.

질문 방식에 따른 AI 성능 차이: "맥락이 성적을 좌우한다"

연구진은 AI에게 질문할 때 맥락을 제공하면 정확도가 크게 향상된다는 사실을 발견했다. 예를 들어 "컴퓨터 공학 학부생으로서 기술 면접을 준비하고 있다"는 맥락을 제공했을 때, GPT-3.5의 정답률이 최대 92.8%까지 상승했다. 하지만 실제 학생들은 AI를 과제 도우미로 사용할 때 이러한 맥락을 제공하는 경우가 드물다. 연구진은 이번 실험에서 학생들의 실제 사용 패턴을 반영하기 위해 맥락 없이 질문을 입력하는 "제로샷" 방식을 채택했다고 설명했다.

AI 교육 격차 해소를 위한 대안: 월 20만 달러 vs 교실 내 제한적 활용