'생각하는 AI' GPT-5 나왔다…"모든 영역 박사급 수준"

오픈AI "수학·코딩·의료 등 벤치마크서 역대 최고"…환각·편향성 대폭 개선

컴퓨팅입력 :2025/08/08 08:48    수정: 2025/08/08 08:54

오픈AI가 전문가 수준의 답변을 스스로 판단해 제공하는 차세대 인공지능(AI) 'GPT-5'를 선보였다. 'GPT-4' 출시 2년 만의 신규 모델로, AI를 인간과 협업하는 '사고 파트너'의 위치로 끌어올리려는 시도다.

8일 오픈AI 공식 블로그에 따르면 'GPT-5'는 이전 모델을 압도하는 지능과 속도를 갖췄으며 모든 사용자를 대상으로 공개된다. 유료 구독자인 플러스와 프로 이용자는 각각 보다 많은 사용량과 확장된 추론 기능을 갖춘 'GPT-5 프로' 버전을 이용할 수 있다.

GPT-5의 가장 큰 특징은 '통합 시스템'이다. ▲대부분의 질문을 처리하는 빠르고 효율적인 기본 모델 ▲어려운 문제에 깊이 있는 추론을 적용하는 'GPT-5 씽킹(thinking)' 모델 ▲둘 중 어떤 모델을 사용할지 실시간으로 결정하는 '라우터'로 구성된다. 라우터는 사용자의 질문 의도와 복잡성을 분석해 최적의 모델을 배정한다.

오픈AI가 전문가 수준의 답변을 스스로 판단해 제공하는 차세대 인공지능(AI) 'GPT-5'를 선보였다. (사진=오픈AI)

성능은 전 영역에 걸쳐 비약적으로 향상됐다. 특히 수학, 코딩, 작문, 의료, 시각 인식 분야에서 두각을 나타낸다. 오픈AI는 'GPT-5'가 허위 정보를 생성하는 '환각(Hallucination)' 현상과 아부하듯 동의하는 '아첨(Sycophancy)' 성향을 크게 줄여 실용성을 높였다고 설명했다.

코딩 분야에서는 복잡한 프론트엔드 웹사이트나 앱, 게임을 단 한 번의 프롬프트로 생성하는 능력을 보여준다. 초기 테스터들은 'GPT-5'가 단순히 코드를 짜는 것을 넘어 간격, 타이포그래피 등 미적 감각까지 갖췄다고 평가했다.

창의적 작문 능력도 진화했다. 정형화된 운율을 따르지 않는 자유시나 문학적 비유가 풍부한 글을 자연스럽게 구사한다. 일례로 'GPT-5'는 '더는 존재하지 않는 나라의 검은 깃발'과 같은 은유를 활용해 감정선을 섬세하게 표현한다.

의료 분야에서는 사용자의 지식 수준과 지역적 맥락을 고려해 맞춤형 정보를 제공한다. 단순 정보 제공을 넘어 잠재적 우려 사항을 먼저 지적하고 추가 질문을 던지는 등 적극적인 '생각 파트너' 역할을 수행한다. 다만 오픈AI는 'GPT-5'가 의료 전문가를 대체할 수는 없다고 선을 그었다.

오픈AI 'GPT-5' (사진=오픈AI)

각종 성능 평가 벤치마크에서도 역대 최고 기록을 경신했다. ▲대학 경쟁 수준 수학 문제(AIME 2025) 94.6% ▲소프트웨어 엔지니어링(SWE-bench) 74.9% ▲대학 수준 시각 문제 해결(MMMU) 84.2% 등의 정답률을 기록했다. 특히 'GPT-5 프로'는 박사 수준의 과학 질문(GPQA)에서 88.4%의 정확도를 달성했다.

안전성과 신뢰성 강화에도 공을 들였다. 'GPT-5'는 이전 모델 대비 사실 오류를 포함할 확률이 최대 80%가량 낮아졌다. 또 이미지가 없는 시각 자료에 대해 질문했을 때 9%만이 아는 척 답변한 반면 이전 모델은 86.7%가 허위로 답했다. 이는 AI의 '정직성'을 높이려는 노력의 일환이다.

특히 생물학 등 민감한 '이중 사용' 분야에 대해서는 새로운 '안전 완성(safe completions)' 훈련법을 도입했다. 악용될 소지가 있는 질문에 무조건 답변을 거부하는 대신 안전한 경계 내에서 최대한 유용한 정보를 제공하도록 설계됐다.

샘 알트먼 오픈AI CEO (사진=지디넷코리아)

사용자 경험도 개선했다. 불필요한 이모티콘 사용을 줄이고 사용자의 지시에 더 정확하게 반응한다. 또 '냉소주의자', '로봇', '경청자', '너드' 등 4가지 사전 설정된 '성격'을 제공해 사용자가 AI의 소통 방식을 직접 선택할 수 있게 했다.

관련기사

최상위 모델인 'GPT-5 프로'는 더 오랜 시간 추론해 가장 종합적이고 정확한 답변을 제공한다. 외부 전문가 평가에서 1천 개의 실제 사례 중 67.8%가 'GPT-5' 프로의 답변을 선호했으며 주요 오류는 22% 더 적었다.

샘 알트먼 오픈AI 최고경영자(CEO)는 "'GPT-3'는 고등학생과 대화하는 기분이었고 'GPT-4'는 대학생 같았다"며 "'GPT-5'는 처음으로 박사급 전문가와 이야기하는 느낌"이라고 말했다.