노타, 업스테이지 '솔라' 73% 압축…로봇·자율주행 AI 탑재 길 열어

독자 양자화 기술로 메모리 191GB→52GB 절감…성능 손실 없이 추론 속도 극대화

컴퓨팅입력 :2026/03/05 09:16

노타가 업스테이지의 대형언어모델(LLM) '솔라(Solar)'를 기존 대비 73% 수준으로 압축하면서도 높은 정확도를 유지하는 양자화 기술을 개발했다. 이번 성과로 1000억 개(100B) 파라미터를 가진 초대형 모델을 로봇이나 자동차 등 온디바이스 AI 환경에서 원활하게 활용할 수 있는 기반이 마련됐다.

노타는 업스테이지의 '솔라 오픈 100B'에 자사 기술을 적용한 결과, 기존 191.2GB에 달하던 솔라의 메모리 사용량을 51.9GB까지 줄였다고 5일 밝혔다. 약 72.8%의 절감 수치로, 사실상 모델을 73%가량 압축한 셈이다. 

성능 지표인 PPL(Perplexity·낮을수록 우수) 또한 6.81을 기록해 원본 모델(6.06)과 유사한 수준을 유지했다. 일부 범용 기법이 성능을 5배 이상 저하시키는 것과 대조적으로 성능 손실을 최소화하며 관련 특허도 출원했다.

(사진=노타)

과학기술정보통신부 주도의 '독자 AI 파운데이션 모델 프로젝트'의 일환으로 개발된 이 기술의 핵심은 '노타 MoE 양자화 방법론'이다. 차세대 LLM 구조인 '전문가 혼합 구조(MoE)'의 기술적 난제를 해결한 것이 특징이다. 

노타 측은 "기존 방식 경우 모델 전체를 일괄 압축해 성능이 급격히 떨어졌다"며 "우리 독자 알고리즘은 필요한 부분의 정밀도는 유지하고, 덜 중요한 부분만 압축해 양자화 왜곡을 최소화했다"고 강조했다. 

관련기사

이번 기술 개발로 기업들은 고사양 그래픽처리장치(GPU) 인프라 확보 부담을 덜고, 동일한 하드웨어에서 더 많은 사용자에게 빠른 AI 서비스를 제공할 수 있게 됐다는 설명이다. 

채명수 노타 대표는 "이번 성과는 한국형 AI 파운데이션 모델인 솔라 100B에 노타만의 양자화 기법을 적용해 메모리를 대폭 줄이면서도 성능을 유지했다는 점에서 의미가 크다"며 "디바이스에 대규모 모델을 구현해야 하는 수요가 커질수록 노타의 경량화·최적화 기술이 고성능 AI를 실현하는 핵심 역할을 할 것"이라고 말했다.