"챗GPT·딥시크 거뜬히 능가"…머스크, '그록3' 베타 공개

서비스에 '딥서치' 기능 탑재…공식 버전·음성 기능 등 수 주 내 공개

컴퓨팅입력 :2025/02/18 14:45    수정: 2025/02/18 16:26

일론 머스크 테슬라 최고경영자(CEO)가 예고한 새 인공지능(AI) 모델 '그록3'를 라이브로 공개 시연했다. 블라인드 테스트에서 해당 모델이 오픈AI를 비롯한 구글, 딥시크 모델을 능가했다고 주장했다. 또 그록3에 딥서치 기능도 탑재한다고 밝혔다.  

18일 xAI는 소셜미디어 X(엑스) 라이브 시연을 통해 새 모델 그록3 베타버전을 이같이 공개했다. 

그록3 모델은 베타 버전과 미니 버전 형태로 이뤄졌다. 올해 1월 프리트레이닝을 마친 상태로 여전히 데이터 학습 중이다. 딥서치는 그록3에 탑재될 예정이다. 전문 지식을 통해 수백 개 출처와 보고서를 만들어 주는 기능을 갖췄다. 그록3 공식 모델을 비롯한 API, 딥서치는 수 주 내 출시될 계획이다.

xAI는 소셜미디어 X(엑스) 라이브 시연을 통해 새 모델 그록 3 베타버전을 공개했다. (사진=그록3 라이브 시연 캡처)

xAI는 콜로서스(Colossus) 슈퍼컴퓨터로 그록3를 개발했다. 우선 엔비디아 H100 그래픽처리장치(GPU) 10만개를 활용했다. 이어 GPU 규모를 92일 만에 두 배로 늘렸다. 훈련 기간은 총 2억 시간이다. 

xAI 관계자들은 "자체 데이터센터 구축이 필수적이었다"며 "4개월 만에 이를 구축할 수 있었으며, 3개월 만에 용량을 더 늘린 것"고 말했다. 그러면서 "대규모 연산 자원을 추가해 더 방대한 데이터셋을 더 짧은 시간 안에 처리하면서 정확도까지 높였다"고 덧붙였다. 

xAI는 그록3가 합성 데이터셋과 자체 오류 수정, 강화 학습을 통해 그록2보다 정교한 결과를 제공한다고 자신했다. 특히 논리적 추론, 연산 능력, 적응력이 기존 대비 대폭 향상됐다고 평가했다. 

머스크 CEO는 "그록3는 환각 현상을 스스로 줄일 수 있다"며 "데이터를 주고받으며 논리적 일관성을 유지할 수 있기 때문"이라고 강조했다. 이어 "현실과 맞지 않는 잘못된 데이터가 있으면 이를 수정할 수도 있다"고 덧붙였다. 

그러면서 "17개월 동안 지속적으로 그록 업데이트를 진행했다"며 "무서운 속도로 전 세계 모든 모델 성능을 추월했다"고 주장했다.

xAI는 17개월 동안 지속적으로 그록 업데이트를 진행했다. (사진=그록3 라이브 시연 캡처)

이날 시연에서 예정됐던 음성 모드는 제외됐다. 시연 막판에 음성 모드 기능을 잠시 보여준 게 전부다. 머스크 CEO는 "음성 모드가 다소 불안정하다"며 "다음 주 선보일 수 있을 것"이라고 말했다. 

머스크 CEO는 xAI 챗봇을 그록으로 지은 이유를 설명했다. 그록은 로버트 하인라인 소설 '낯선 땅의 이방인'에서 유래됐다. 이는 화성에서 자란 캐릭터가 사용하는 표현으로, 무언가를 완전히 그리고 깊이 이해한다는 것을 일컫는다.

머스크 CEO는 "그록은 깊은 이해를 의미한다"며 "공감 또한 그 이해의 중요한 요소 중 하나"라고 설명했다.

그는 이번 베타 버전과 미니 버전이 미완성된 상태라는 것을 재차 강조했다. 그는 "처음에는 불완전한 점이 있을 것"이라며 "공식 버전을 수 주 내 공개할 것"이라고 설명했다. 

블라인드 테스트서 챗GPT 능가딥서치 탑재

그록 3 베타와 미니 버전이 가장 높은 점수를 받았다. (사진=그록3 라이브 시연 캡처)

xAI는 그록3 벤치마크 결과도 공개했다. 그록3는 과학, 코딩, 수학 분야에서 오픈AI '챗GPT-4o'를 비롯한 구글 '제미나이 2.0 프로', 딥시크 '딥시크 V3'보다 더 높은 점수를 기록한 것으로 나타났다. 

블라인드 테스트 결과도 마찬가지였다. xAI 연구진은 '챗봇 아레나' 벤치마크 결과를 공개했다. 챗봇 아레나는 미국 UC 버클리대 내 스카이 컴퓨링 램과 LMSYS가 개발한 오픈 플랫폼이다. 

블라인드 테스트 결과. (사진=그록3 라이브 시연 캡처)

블라인드 테스트 결과 그록3는 수학, 과학, 코딩 분야 벤치마크에서 모든 모델을 능가했다. 특히 초기 버전의 그록3는 1천400점을 기록했다. 타 모델은 1천300점 수준에 그쳤다. 

xAI는 그록3를 직접 시연했다. 그록3에게 물리학 문제를 풀도록 하고, '비주얼드(Bejeweled)'와 '테트리스(Tetris)'를 결합한 게임을 제작하도록 요청했다. 머스크 CEO는 해당 게임을 직접 진행한 경험을 언급하면서 "꽤 괜찮다"고 평가했다.

머스크 CEO는 "벤치마크 결과에서 미니버전이 베타버전을 능가할 때가 있다"며 "미니버전이 큰 잠재적 능력을 갖춘 것이 분명하다"고 말했다.

xAI는 그록3에 딥서치 기능을 도입했다고 밝히면서 구글, 오픈AI와 검색 경쟁을 본격화한다. 딥 서치는 새 검색 엔진으로 에이전트 기능을 갖췄다. 

관련기사

xAI 연구진은 딥 서치 기능도 시연했다. 이 서비스는 수백 개 출처에서 정보를 수집해 종합적 보고서와 핵심 포인트를 보여줬다.

머스크 CEO는 그록3의 고급 기능을 '슈퍼그록(SuperGrok)'이라는 새 구독 서비스에 우선 제공할 예정이라고 말했다.