구글 엔지니어 "GLM-5.2, 美 모델 증류 없이도 미토스급 간다"

중국 Z.ai(지푸AI)의 오픈소스 모델 GLM-5.2가 클로드 오퍼스(Claude Opus 4.8)에 필적하는 코딩 성능으로 주목받고 있다. 구글 엔지니어 패트릭 툴메(Patrick Toulme)는 이 모델의 훈련 방식을 두고 “이제 중국 모델은 미국산 모델을 증류(distillation)하지 않고도 더 높은 성능에 도달할 수 있다”는 분석을 내놨다.

GLM-5.2는 6월 17일 MIT 라이선스로 공개된 약 750B(활성 약 40B) 규모의 전문가 혼합(MoE) 모델로, 100만 토큰 컨텍스트를 지원한다. 프런티어SWE에서 74.4%를 기록해 GPT-5.5를 앞섰고 클로드 오퍼스 4.8(75.1%)에 1%포인트 안쪽까지 따라붙었다. API 비용은 오퍼스의 약 6분의 1 수준이다.

툴메의 핵심 주장은 “증류가 성능을 만든 게 아니다”라는 것이다. 그는 증류가 강화학습(RL)의 ‘콜드 스타트’ 문제만 해결했다고 설명했다. 강화학습은 모델이 실제로 작업을 완수한 ‘성공 궤적(trajectory)’이 있어야 학습되는데, 어려운 작업에서는 성공 사례가 없어 학습이 막힌다. 더 똑똑한 클로드·GPT에서 지식을 주입해 일단 성공 궤적을 만들면, 그 궤적으로 RL을 돌려 에이전틱 코딩 능력을 점진적으로 끌어올릴 수 있다는 것이다.

그는 “맨바닥에서 오퍼스 4.8 수준에 도달하는 것이, 오퍼스 4.8에서 페이블·미토스 등급으로 올라가는 것보다 더 어렵다”며 “GLM-5.2는 이미 성공 궤적을 만들고 있어, 더는 증류 없이 강화학습만으로 미토스급까지 계속 올라갈 것”이라고 했다.

GLM-5.2는 벤치마크 점수뿐 아니라 실사용 코딩에서도 근접한 평가를 받는다. 다만 가장 어려운 추론 과제에서는 여전히 오퍼스 4.8에 뒤진다. 경량화도 빠르게 진행돼, 언슬로스(Unsloth)의 2비트 동적 양자화는 원본 대비 약 82% 정확도를 유지하면서 용량을 84% 줄였고, 1비트 버전도 76%대 정확도를 보였다. 큰 모델임에도 로컬 구동 비용을 크게 낮출 수 있다는 뜻이다.

앤트로픽이 알리바바의 클로드 무단 증류 의혹을 제기하는 등 증류 논쟁이 거센 시점에, 툴메의 분석은 “증류는 출발점일 뿐 결국 강화학습이 성능을 가른다”는 관점을 더한다.

자세한 내용은 OfficeChai에서 확인할 수 있다.

이미지 출처: Z.ai