머스크, '그록3' 마침내 공개…GPT-4o 제치고 챗봇 성능 1위

수학·과학·코딩 테스트에서도 강력한 성능 입증

xAI가 새롭게 출시한 인공지능 챗봇 ‘그록3’가 AI 성능 평가 플랫폼 Chatbot Arena에서 최상위 점수를 기록하며 경쟁 모델들을 압도했다. 18일(한국 시간) 오후 1시 xAI 공식 X에서 진행된 '그록3 출시' 라이브에 따르면, ‘그록3’는 OpenAI의 GPT-4o, Google DeepMind의 Gemini-2 Pro, Anthropic의 Claude 3.5 Sonnet 등을 제치고 챗봇 성능 순위 1위에 올랐다. (☞ 발표 바로가기)

그록3, AI 챗봇 성능 평가 1위 차지

최근 공개된 Chatbot Arena의 성능 비교 차트에 따르면, ‘그록3’는 경쟁 모델을 상대로 가장 높은 점수를 기록했다. 특히 LMSYS의 순위 평가에서 ‘그록3’는 독보적인 점수로 1위를 차지했으며, 신뢰 구간(오차 범위) 역시 경쟁 모델들보다 안정적인 것으로 나타났다. LMSYS의 Chatbot Arena는 익명의 AI 모델을 사용자가 직접 비교 평가하는 방식으로 운영되며, AI 챗봇 간의 실제 사용자 피드백을 기반으로 순위를 산정한다. 이번 결과는 ‘그록3’가 실사용 환경에서 GPT-4o나 Gemini-2 Pro보다 더 나은 성능을 발휘했음을 시사한다.