오픈AI가 최근 출시한 인공지능(AI) 모델 GPT-5.4가 국내에서 긍정적인 평가를 받고 있는 것으로 나타났다. 최근 진행된 2026학년도 대학수학능력시험(수능) 문제 풀이 테스트에서도 이전 모델 대비 점수가 상승하며 성능 개선이 눈에 띄게 이뤄졌다는 평가를 받고 있다.

김경훈 오픈AI코리아 지사장은 12일 자신의 소셜미디어(SNS) 링크드인을 통해 GPT-5.4 출시 이후 이어지고 있는 국내 반응과 성능 테스트 사례를 소개했다. 그는 최신 GPT-5.4 모델을 활용한 '2026학년도 수능 풀이' 실험 결과를 언급하며 GPT-5.4가 이전 모델보다 높은 점수를 기록했다고 밝혔다.

지난 6일 출시된 GPT-5.4는 챗GPT와 응용 프로그래밍 인터페이스(API), 코덱스(Codex) 등 오픈AI의 주요 제품 전반에 적용되는 최신 프론티어 모델이다. 추론 능력과 코딩 성능, AI 에이전트 기반 작업을 하나의 모델로 통합한 것이 특징으로, 오픈AI가 공개한 범용 모델 가운데 컴퓨터 사용 능력을 기본적으로 탑재한 최초의 범용 모델이다.



이 같은 GPT-5.4의 우수한 성능은 수능 풀이를 통해서도 증명됐다. 실제 오픈AI 코덱스 개발 엔지니어인 타일러 류가 GPT-5.4를 활용해 2026학년도 수능 문제 풀이를 진행한 결과, 일반적인 문과 선택 과목 조합에서는 419.6점, 이과 조합에서는 415.9점을 기록했다. 이는 이전 모델인 GPT-5.2의 408.4점(문과), 406.3점(이과)보다 약 10점가량 높은 수준이다. 특히 GPT-5.4는 국어 영역에서 거의 만점에 가까운 점수를 기록한 것으로 나타났다.



이에 대해 김 지사장은 "GPT-5.4가 긴 글의 논리적 흐름을 파악하고 추론하는 능력이 크게 향상됐다는 점을 보여주는 결과"라고 평가했다.

외부 테스트에서도 유사한 흐름이 확인됐다. 순천향대학교 컴퓨터소프트웨어공학과 4학년 구유겸 학생이 지난 6일 진행한 거대언어모델(LLM) 수능 벤치마크에서도 GPT-5.4는 450점 만점 기준 최상위권 점수를 기록했다.



구 학생은 "수능 테스트를 처음 시작했을 때만 해도 만점 모델이 당분간 나오기 어려울 것이라고 생각했지만 약 3개월 만에 등장해 놀랐다"며 "AI 발전 속도가 매우 빠르다는 것을 실감하고 있다"고 말했다.

김 지사장은 AI 모델의 성능이 빠르게 상향 평준화되면서 기존 시험 중심 평가 방식만으로는 모델 역량을 판단하기 어려워지고 있다고 봤다. 이에 따라 실제 업무 환경에서 AI가 어떤 성과를 내는지를 평가하는 방식이 중요해지고 있다고 강조했다.

그는 "AI 에이전트가 실제 지식 기반 업무를 수행하는 능력을 평가하는 GDPval 벤치마크에서 GPT-5.4는 전체 업무 과제의 83%에서 산업 전문가와 동등하거나 더 높은 수준의 결과를 보였다"며 "이제 만점에 가까워진 모델을 기존의 평가 방식으로 평가하기가 점점 더 어려워질 것 같다"고 밝혔다. 그러면서 "이제는 실제 우리 업무에서 어떤 도움을 주는지에 대한 현장에서의 평가가 더 중요해질 것"이라고 덧붙였다.