xAI가 출시한 인공지능(AI) 모델 '그록3' 성능에 대한 우려가 나왔다. 모델 데이터 상당수가 합성데이터로 구성돼 결함과 환각 현상을 높일 수 있다는 염려 때문이다. 이에 오픈AI를 비롯한 구글, 딥시크를 뛰어넘는다는 xAI 주장에 의문점이 생겼다.
18일 업계에 따르면 일론 머스크 테슬라 최고경영자(CEO)가 '지구상에서 가장 똑똑한 모델'이라며 출시한 그록3 성능에 대해 이같은 의문이 제기된 것으로 전해졌다.
xAI는 소셜미디어 X(엑스) 라이브 시연을 통해 새 모델 그록3 베타버전과 미니버전을 공개했다. 공식 버전과 그록3 API, 딥서치 기능은 추후 배포 예정이다.

xAI 연구진은 "그록3가 대량의 합성 데이터셋과 자체 오류 수정, 강화 학습을 통해 그록2보다 정교한 결과를 제공한다"고 라이브 시연을 통해 자신했다. 특히 논리적 추론, 연산 능력, 적응력이 기존 대비 대폭 향상됐다고 평가했다. 그러면서 "대규모 그래픽처리장치(GPU) 자원을 추가해 방대한 데이터셋을 더 짧은 시간 안에 처리했다"며 "정확도까지 높였다"고 덧붙였다.
AI 업계에서는 그록3이 학습한 데이터셋 다수가 합성이라는 점을 우려했다. 합성데이터가 모델 결함을 높이고 환각 현상을 높일 수 있기 때문이다.
합성데이터는 실제 데이터 특성·분포를 모방해 인공적으로 생성된 데이터다. 보통 AI 모델서 나온 결과물을 다시 모델에 넣어 재활용되는 식으로 쓰인다. 생성형 AI 모델 개발에 필요한 데이터가 곧 고갈될 것이란 전망이 나온 가운데 합성데이터가 대안으로 떠오르고 있다. 다만 품질이 낮거나 오류를 생성하는 합성데이터가 모델에 들어갈 경우 모델 자체 성능을 떨어뜨릴 수 있다.
이같은 우려는 이미 학계에서 거론된 바 있다. 지난해 옥스퍼드대 연구진은 합성데이터가 모델 결함을 증가시키고 환각 현상을 초래할 수 있다고 경고했다. 모델이 소량의 합성 데이터만 학습해도 성능에 큰 영향을 줄 가능성이 있다는 지적이다.
한 업계 관계자는 "합성데이터를 반복적으로 사용할 경우 오류 전파(Error Propagation)로 인해 현실과 괴리가 심해질 것"이라고 지적했다. 그러면서 "합성 데이터로 모델 사이즈를 늘리는 것보다 데이터 품질이 얼마나 좋은지가 관건일 것"이라고 덧붙였다.
그록3, GPT보다 정말 똑똑할까

해외 업계에서는 그록3가 오픈AI, 구글 등 타사 모델을 실제 능가했을지 의문이라는 분위기다. 최근 그록3를 개발에 참여한 개발자가 해당 모델 성능을 낮게 평가하는 게시글이 퍼지면서다.
벤자민 데크라커 전 xAI 개발자는 "그록3이 코딩 측면에서 오픈AI의 ChatGPT o1, o1프로, o3미니 모델만큼 뛰어나지 않다"는 의견을 소셜미디어 X에 게시했다.
xAI는 해당 게시글이 회사 기밀 정보를 포함한다고 주장하면서 삭제를 요청했다. 이에 데크라커는 "단순한 개인 의견일 뿐이며 게시글 삭제를 강요받아 사임을 결정했다"고 해외 언론에 밝혔다.
관련기사
- "챗GPT·딥시크 거뜬히 능가"…머스크, '그록3' 베타 공개2025.02.18
- [김미정의 SW키트] 정부, 연내 GPU 1만5000개 확보 공언…업계 "현실성 부족"2025.02.04
- "AI로 누구나 게임 만든다"....일론 머스크, '그록3' 게임개발 혁신 예고2025.02.18
- 머스크 AI '그록3', 국내 게임사도 주목…"참신함 중요성 커졌다"2025.02.18
반면 xAI는 이번 라이브 시연에서 그록3가 과학, 코딩, 수학 분야에서 오픈AI '챗GPT-4o'를 비롯한 구글 '제미나이 2.0 프로', 딥시크 '딥시크 V3'보다 더 높은 점수를 기록한 벤치마크 결과를 공개했다.
업계 관계자는 "공식 버전이 내놓는 결과물을 봐야 한다"며 "벤치마크에서 모든 모델 성능을 능가했다는 결과도 무의미하다"고 평가했다.