마이크로소프트가 신규 소규모언어모델(SLM) '파이3.5'를 공개했다. 벤치마크 결과 일부 성능은 오픈AI의 GPT-4o 미니를 넘어서는 것으로 나타났다.
21일 벤처비트 등 외신에 따르면 마이크로소프트는 파이3.5의 AI모델 3종을 허깅페이스를 통해 출시했다.
파이3.5는 합성 데이터와 필터링한 공개 웹사이트 기반 데이터를 학습한 오픈 멀티모달 모델이다.
공개한 3종은 파이3.5 미니, 파이3.5 전문가 혼합(MoE), 파이3.5 비전이다. 각각 빠른 추론, 복잡한 추론 그리고 이미지 및 비디오 분석 등 비전 작업을 위해 설계됐다.
파이3.5 미니는 38억개의 매개변수로 학습된 SLM으로 노트북이나 모바일 디바이스 등 제한된 컴퓨팅 환경에서도 추론을 비롯한 코드 생성, 수학 문제 해결 작업을 위해 설계됐다.
특히 다국어 및 복잡한 대화에 관련 성능이 최적화됐으며, 128k 토큰 컨텍스트를 지원해 대량의 텍스트도 한 번에 검토하는 것이 가능하다.
파이-3.5 MoE는 복잡한 작업을 효율적으로 처리하기 위해 설계된 모델이다. 서로 다른 역할이나 작업에 특화된 소규모AI를 여러 개 결합한 형태가 특징이다.
덕분에 총 419억 파라미터 규모지만 주어진 업무에 필요한 소규모 모델만 처리를 담당하기 때문에 실제는 66억 개의 파라미터만 활성화해 작업을 수행한다. 이를 통해 자원 효율성을 높임과 동시에 높은 성능을 유지할 수 있다.
이를 통해 파이3.5 MoE는 일부 작업의 벤치마크 결과에서 GPT-4o 미니를 넘어서는 결과를 달성했다.
과학, 인문학, 사회과학 등 다양한 분야의 이해도를 평가하는 다중 작업 언어 이해(MMLU)의 경우 파이3.5 MoE는 GPT-4o 미니보다 평균 2-3% 더 높은 점수를 기록했다.
코드를 이해하거나 긴 문맥에서의 정보 추출을 평가하는 레포QA에서도 파이3.5 MoE가 높은 성과를 거뒀다.
파이3.5 비전은 이름에서 알 수 있듯 텍스트와 이미지 처리 기능에 최적화한 모델이다. 41억5천만 파라미터 기반으로 이미지 및 문자 인식, 차트 해석, 비디오 요약 관련 학습을 중점적으로 훈련했다.
관련기사
- 에이모, MS 애저 마켓에 '스마트 큐레이션' 서비스 출시2024.08.19
- 마실 물도 없는데…美 버지니아주 가뭄에도 데이터센터서 물 '펑펑'2024.08.19
- "민감정보 유출 주의"…마이크로소프트, 새 보안 취약점 공개2024.08.11
- 메타·엔트로픽·미스트랄, AI 新무기 내놔도 오픈AI 못 넘는다…이유는?2024.07.26
세 모델은 모두 오픈소스로 허깅페이스에서 다운 받아 사용할 수 있다. 또한 마이크로소프트의 MIT 라이선스 기반으로 상업적 사용 및 수정, 배포에 제한이 없다.
마이크로소프트 측은 "파이3.5는 저렴한 비용과 낮은 대기 시간을 제공하는 SML모델"이라며 "개발자들이 이러한 AI를 활용해 상업 및 연구 분야 전반에서 혁신을 촉진할 수 있도록 오픈소스로 제공하고 있다"고 밝혔다.