올거나이즈, 한국어 문서 생성·요약 특화 모델 출시

'알파-인스트럭트' 오픈소스로 공개…"한국어 추론·글쓰기 점수도 높아"

컴퓨팅입력 :2024/06/03 11:13

한국어 문서 생성과 요약을 전문으로 하는 경량화 언어모델이 등장했다. 

올거나이즈(대표 이창수)는 한국어 실무용 모델 '알파-인스트럭트'를 출시한다고 3일 밝혔다. 

알파-인스트럭트 모델은 메타 오픈소스 모델 '라마3'로 이뤄졌다. 매개변수 80억 개로 구성됐다. 한국어를 잘 이해할 수 있도록 라마3를 개량한 모델과 지시사항을 따르는데 특화된 라마3의 인스트럭트 모델을 결합해 제작됐다.

올거나이즈는 한국어 실무용 모델 '알파-인스트럭트'를 출시했다.

보편적인 답변 선호도를 반영한 지시사항 데이터셋 2천 개를 추가 학습시켰다. 동일 대답 반복, 불필요한 영어 대답 등의 오류를 최소화한 셈이다.

올거나이즈는 알파-인스트럭트 모델이 한국어 이해도가 높아 문서 생성과 요약 등 실무에 특화됐다는 입장이다. 한국어 언어모델의 다분야 사고력을 측정하는 리더보드 '로지코'에서도 높은 점수를 기록했다는 설명도 덧붙였다. 로지코는 한국어 추론, 수학, 글쓰기, 코딩, 이해 등의 요소를 점수 매긴다. 올거나이즈의 알파-인스트럭트 모델은 글쓰기 및 이해 부분에서 타 모델보다 높은 점수를 보였다.

관련기사

올거나이즈는 알파-인스트럭트 모델을 오픈소스로 공개했다. 라이센스 제한 없이 누구나 자유롭게 사용 가능하다. 올거나이즈의 알리 플랫폼 내에서 알파-인스트럭트 모델을 사용할 수 있다. 기업 맞춤형 특화모델로 파인튜닝하거나 모델을 내부 데이터에 연결해 검색증강생성(RAG) 솔루션과 결합할 수 있다.

이창수 올거나이즈의 대표는 "완성도 높은 한국어 모델을 만들기 위해 공들여 데이터셋을 구성하고, 다양한 방법론들에 대한 수많은 테스트를 거침으로써 극히 적은 리소스만으로 성능 좋은 모델을 만들 수 있었다"며 "앞으로 최신 오픈소스 모델의 성능을 계속 평가하고, 고객이 효율적으로 잘 활용할 수 있는 모델을 지속적으로 만들어 나갈 것"이라고 밝혔다.