MS, 신규 SLM '파이3.5' 공개…"일부 성능 GPT-4o 미니 제쳐"

산업과 제한된 컴퓨팅 환경에 최적화 가능한 AI 모델…오픈소스로 제공

컴퓨팅입력 :2024/08/21 09:43

마이크로소프트가 신규 소규모언어모델(SLM) '파이3.5'를 공개했다. 벤치마크 결과 일부 성능은 오픈AI의 GPT-4o 미니를 넘어서는 것으로 나타났다.

21일 벤처비트 등 외신에 따르면 마이크로소프트는 파이3.5의 AI모델 3종을 허깅페이스를 통해 출시했다.

파이3.5는 합성 데이터와 필터링한 공개 웹사이트 기반 데이터를 학습한 오픈 멀티모달 모델이다.

마이크로소프트에서 공개한 AI 벤치마크 측정 결과(이미지=마이크로소프트)

공개한 3종은 파이3.5 미니, 파이3.5 전문가 혼합(MoE), 파이3.5 비전이다. 각각 빠른 추론, 복잡한 추론 그리고 이미지 및 비디오 분석 등 비전 작업을 위해 설계됐다.

파이3.5 미니는 38억개의 매개변수로 학습된 SLM으로 노트북이나 모바일 디바이스 등 제한된 컴퓨팅 환경에서도 추론을 비롯한 코드 생성, 수학 문제 해결 작업을 위해 설계됐다.

특히 다국어 및 복잡한 대화에 관련 성능이 최적화됐으며, 128k 토큰 컨텍스트를 지원해 대량의 텍스트도 한 번에 검토하는 것이 가능하다.

파이-3.5 MoE는 복잡한 작업을 효율적으로 처리하기 위해 설계된 모델이다. 서로 다른 역할이나 작업에 특화된 소규모AI를 여러 개 결합한 형태가 특징이다.

덕분에 총 419억 파라미터 규모지만 주어진 업무에 필요한 소규모 모델만 처리를 담당하기 때문에 실제는 66억 개의 파라미터만 활성화해 작업을 수행한다. 이를 통해 자원 효율성을 높임과 동시에 높은 성능을 유지할 수 있다.

이를 통해 파이3.5 MoE는 일부 작업의 벤치마크 결과에서 GPT-4o 미니를 넘어서는 결과를 달성했다.

과학, 인문학, 사회과학 등 다양한 분야의 이해도를 평가하는 다중 작업 언어 이해(MMLU)의 경우 파이3.5 MoE는 GPT-4o 미니보다 평균 2-3% 더 높은 점수를 기록했다.

코드를 이해하거나 긴 문맥에서의 정보 추출을 평가하는 레포QA에서도 파이3.5 MoE가 높은 성과를 거뒀다.

파이3.5 비전은 이름에서 알 수 있듯 텍스트와 이미지 처리 기능에 최적화한 모델이다. 41억5천만 파라미터 기반으로 이미지 및 문자 인식, 차트 해석, 비디오 요약 관련 학습을 중점적으로 훈련했다.

관련기사

세 모델은 모두 오픈소스로 허깅페이스에서 다운 받아 사용할 수 있다. 또한 마이크로소프트의 MIT 라이선스 기반으로 상업적 사용 및 수정, 배포에 제한이 없다.

마이크로소프트 측은 "파이3.5는 저렴한 비용과 낮은 대기 시간을 제공하는 SML모델"이라며 "개발자들이 이러한 AI를 활용해 상업 및 연구 분야 전반에서 혁신을 촉진할 수 있도록 오픈소스로 제공하고 있다"고 밝혔다.