"GPT 넘을까"...미스트랄, 신규 아키텍처 적용한 코드 생성 AI 공개

GPT에 쓰인 트랜스포머보다 긴 문장 처리할 수 있는 AI아키텍처 '맘바' 적용

컴퓨팅입력 :2024/07/17 10:43

프랑스 AI스타트업 미스트랄이 새로운 아키텍처를 활용해 성능을 개선한 코드 생성 인공지능(AI) 모델을 공개했다. 오픈AI의 GPT 등 트랜스포머 모델을 주로 활용한 기존 AI 모델을 넘어서기 위한 시도로 분석된다.

17일 벤처비트 등 외신에 따르면 미스트랄은 최근 '코드스트랄 맘바(Codestral Mamba)'라는 AI 모델을 공개했다.

새로운 AI아키텍처가 적용된 미스트랄의 '코드스트랄 맘바'(이미지=미스트랄)

코드스트랄 맘바는 카네기멜론대학의 알버트 구 연구원과 플린스턴대학의 트리 다오 AI 과학자가 개발한 AI 아키텍처 맘바(Mamba)를 기반으로 개발됐다.

맘바는 선택적 상태 공간 모델(SSM) 기술을 활용해 시퀀스의 각 토큰을 현재 입력에 따라 선택적으로 처리할 수 있다. 이를 통해 관련 정보는 유지하고 불필요한 정보는 버리는 방식으로 효율적인 학습이나 작업이 가능하다.

덕분에 기존 트랜스포머 기반 AI 모델에 비해 보다 긴 문장을 처리할 수 있으며 추론 속도도 개선할 수 있다.

미스트랄에서 공개한 벤치마크 표에 따르면 코드스트랄 맘바는 70억 개의 매개변수만 사용했다. 그럼에도 220억 개의 매개변수를 사용한 '코드스트랄'과 수학적 문제 해결이나 코드 특정 작업에 최적화된 '딥시커'와 비교해 비슷하거나 좀 더 나은 수준의 성능을 기록했다.

코드스트랄 맘바 벤치마크표(이미지=미스트랄)

휴먼이벌 벤치마크에선 파이썬 코드 생성에서 81.1%의 통과율을 기록했다. 스파이더 벤치마크의 SQL 생성 작업에서도 63.5%의 성공률을 보였다.

깃허브와 허깅페이스를 통해 공개된 코드스트랄 맘바는 오픈 소스 아파리 2.0 라이선스로 제공된다. 사용자는 라이선스 규약 안에서 자유롭게 AI 모델을 수정해 사용하거나 배포할 수 있다.

미스트랄은 "이 모델은 수학적 추론을 위해 설계된 모든 모델보다 성능이 우수하다"며 "더 많은 추론 시간 계산을 통해 벤치마크에서 상당히 더 나은 결과를 얻을 수 있을 것"이라고 밝혔다.

관련기사

이어 "코드스트랄 맘바는 새로운 아키텍처를 연구하고 제공하려는 노력의 또 다른 단계로 누구나 무료로 사용하고 수정 및 배포할 수 있다"며 "이번 AI가 아키텍처 연구에 새로운 관점을 열어주기를 바란다"고 덧붙였다.

그러면서 "맘바는 트랜스포머와 달리 선형 시간 추론과 무한 길이의 시퀀스를 모델링하는 이론적 능력의 이점을 제공한다"며 "사용자는 입력 길이와 관계없이 빠른 응답으로 광범위하게 모델과 상호작용 할 수 있어 수학적 추론을 위해 설계된 기존 AI보다 우수한 성능을 제공할 수 있을 것"이라고 강조했다.