마이크로소프트, 소형 언어모델 '파이 2' 출시

메타 라마 2보다 성능 좋아…연구용으로 활용 가능

컴퓨팅입력 :2023/12/13 16:03    수정: 2023/12/14 08:15

마이크로소프트가 노트북이나 모바일 기기에서 구동 가능한 소형 언어모델(SLM)을 출시했다고 발표했다.

12일(현지시간) 마이크로소프트 연구소는 공식 블로그를 통해 새로운 오픈소스형 SLM '파이 2'를 공개했다. 

파이 2는 27억 파라미터를 갖춘 모델이다. 연구소는 일반 상식을 비롯한 과학 지식, 마이크로소프트 독자 데이터셋 등을 모델에 넣었다고 설명했다. 엔비디아의 그래픽처리장치(GPU) A100 96대를 활용해 약 2주 동안 훈련 과정을 거쳤다.

마이크로소프트가 소형 언어모델 파이 2를 오픈소스 형태로 공개했다. (사진=마이크로소프트)

연구소 측은 파이 2가 오픈AI의 챗GPT처럼 인간의 피드백을 통한 강화학습을 거치지 않았다고 했다. 추가적인 미세 조정 작업도 거치지 않았다. 그럼에도 이전 버전인 파이 1.5나, 메타의 라마 2보다 환각 현상이나 편향성이 낮다는 테스트 결과를 보인다는 입장이다.

점수가 높을수록 환각 현상이나 편향성이 낮다는 의미다. 파이 2는 라마 2보다 수치가 모두 낮다. (사진=마이크로소프트)

마이크로소프트는 상식 추론을 비롯한 윤리, 언어 이해, 수학, 코딩 등 여러 범주에 걸쳐 파이 2를 타사 오픈소스 모델과 비교했다. 연구진은 마이크로소프트 독점 데이터셋을 파이 2에 추가로 훈련한 후 분석을 진행했다. 

파이 2는 타사 오픈소스 모델보다 높은 성능을 보였다. (사진=마이크로소프트)

평균적으로 파이 2는 미스트랄 70억 매개변수 모델을 능가했으며, 라마 2의 70억, 130억, 700억 모델 버전보다 높은 성능을 보였다.

파이 2가 제미나이 나노 2보다 크기는 작지만 더 높은 성능을 보였다. (사진=마이크로소프트)

연구진은 최근 공개된 구글 제미나이 나노 2와도 비교했다. 제미나이 나노 2도 파이 2처럼 모바일 기기에 특화용으로 출시된 모델이다. 테스트 결과, 파이 2는 제미니 나노 2보다 비슷하거나 더 높은 성능을 보였다.

관련기사

마이크로소프트는 "미래 AI 연구는 일반 노트북이나 휴대전화로 간단히 할 수 있는 분야가 될 것"이라며 "파이 2는 소형 SLM 시대를 주도할 것"이라고 강조했다.

당분간 파이 2는 연구 목적으로만 활용될 수 있다. 상업적 사용은 불가하다. 회사는 "파이 2가 오픈소스 모델인만큼 비상업적, 비수익 창출, 연구 목적으로만 개방하겠다"고 했다.