
강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이 최근 320억 개의 파라미터만으로 6710억 개 파라미터를 가진 대형 모델과 맞먹는 성능을 발휘하는 'QwQ-32B'를 공개했다. 퀜이 6일(현지 시간) 공식 블로그에 발표한 내용에 따르면, 이 모델은 단 320억 개의 파라미터로 6710억 개 파라미터를 가진 딥시크-R1(DeepSeek-R1)과 비슷한 성능을 달성하는 놀라운 결과를 보여줬다.
QwQ-32B는 강화학습을 통해 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현했다. 특히 주목할 점은 320억 개의 파라미터만으로 6710억 개 파라미터(활성화된 것은 370억 개)를 가진 대형 모델과 대등한 성능을 보여준다는 것이다. 이 모델은 수학적 추론, 코딩 능력, 일반적인 문제 해결 능력을 평가하는 다양한 벤치마크에서 우수한 성과를 입증했다.
퀜 팀은 콜드 스타트 체크포인트에서 시작하여 결과 기반 보상으로 강화학습을 적용했다. 개발 첫 단계에서는 수학과 코딩 작업에 특화된 강화학습을 진행했으며, 이후 두 번째 단계에서는 지시 따르기, 인간 선호도와의 일치 등 일반적인 능력을 향상시키는 훈련을 추가했다. 이러한 단계적 접근 방식을 통해 주요 성능 저하 없이 다양한 영역에서의 능력을 균형 있게 발전시켰다.
QwQ-32B는 아파치 2.0 라이선스 하에 허깅페이스(Hugging Face)와 모델스코프(ModelScope)에서 오픈 웨이트로 제공되며, 사용자들은 퀜 챗(Qwen Chat)을 통해 쉽게 접근할 수 있다. 이는 개발자와 연구자들이 이 강력한 모델을 자유롭게 활용하고 추가 연구를 진행할 수 있는 기회를 제공한다.
관련기사
- 기자는 살아남을까…생성형 AI가 바꿀 5대 미디어환경 변화2025.03.06
- 인간의 메모습관 배운 AI의 놀라운 변신2025.03.05
- 챗GPT와 클로드가 쓴 글, 97% 정확도로 구분…어떻게 가능?2025.03.04
- 양자컴퓨팅 시대 안보 위협…유럽, AI로 어떻게 대응하나2025.03.04
퀜 팀은 다음 세대 모델 개발에 있어 더 강력한 기초 모델과 확장된 컴퓨팅 리소스로 구동되는 강화학습의 결합을 통해 인공 일반 지능(AGI)에 더 가까워지는 것을 목표로 하고 있다. 또한 장기적 추론을 가능하게 하는 에이전트와 강화학습의 통합을 적극적으로 탐구하여 인공지능의 추론 능력을 한 단계 더 발전시키고자 한다.
■ 기사는 클로드와 챗GPT를 활용해 작성되었습니다.