스퀴즈비츠, LLM서빙 최적화 '핏츠 온 칩스' 선보여

모델 선택부터 서빙 옵션 조정·장치 및 프레임워크 설정·성능 평가·배포까지 모든 단계 원스톱 지원..."기존보다 시간 줄고 비용 절감"

컴퓨팅입력 :2024/12/03 09:16

- LLM 서빙에 필요한 모든 단계를 원스톱으로 지원…시간과 비용 획기적으로 줄여

- 엔비디아의 GPU, 인텔의 가우디 등 비교 가능한 하드웨어 범위 확대

AI 경량화 및 최적화 전문 스타트업 스퀴즈비츠(대표 김형준)는 대형언어모델(LLM) 서빙을 위한 맞춤형 솔루션 ‘핏츠 온 칩스(Fits on Chips)’를 출시했다고 3일 밝혔다.

'핏츠 온 칩스'는 LLM 서빙 전 과정을 단순화하고 최적의 설정을 찾을 수 있도록 돕는 솔루션이다. 모델 선택 단계부터 서빙 옵션 조정, 장치 및 프레임워크 설정, 성능 평가, 배포까지 LLM 서빙에 필요한 모든 단계를 원스톱으로 지원한다. 허깅페이스 등 오픈소스 라이브러리와 연동해 다양한 LLM 모델을 손쉽게 통합하고 성능을 비교 평가해 최적의 LLM 서빙 설정 값을 찾아 적용하는 방식이다. 이를 통해 엔지니어의 기존 작업 시간을 30시간에서 3시간까지 기존보다 10분의 1로 줄일 수 있고, 비용도 약 2배 이상 절약할 수 있다고 회사는 설명했다.

 '스퀴즈비츠'는 최근 인텔, 네이버와 함께 인텔의 가우디 하드웨어에서 LLM을 효율적으로 작동시키기 위한 협업 프로젝트를 진행하고 있다. 이번 협업을 통해 엔비디아의 GPU에 이어 인텔의 가우디까지 '핏츠 온 칩스'의 지원 범위를 확장했다. 추후 다양한 하드웨어를 비용, 속도 관점에서 비교할 수 있도록 제공할  방침이다.

하드웨어뿐 아니라 vLLM, TensorRT-LLM과 같은 프레임워크를 다각도로 비교 분석하는 기능도 제공한다. 사용자는 분석 결과를 바탕으로 최적화한 LLM 서빙 환경을 구축해 인프라의 전체적인 효율을 극대화할 수 있다. 추후 AI에이전트를 연동하거나 AMD, 아마존, 구글 등의 하드웨어를 지원하는 등 더 다양한 모델과 하드웨어, 서버 환경 등을 지원할 수 있게 확장할 계획이다.

관련기사

스퀴즈비츠 김형준 대표는 “누구나 쉽게 LLM 서빙을 시뮬레이션하고 분석해볼 수 있도록 제품을 설계하고 개발했다”며 “앞으로도 LLM 서빙 솔루션을 비롯한 다양한 기술 개발을 통해 AI 서비스 기업의 성능 최적화와 비용 절감을 적극 지원하겠다”고 밝혔다.

한편 2022년 3월 설립한 스퀴즈비츠는 AI 서비스 비용 절감을 위해 AI 경량화 및 최적화 기술을 개발하는 딥테크 스타트업이다. 서울대, 포스텍, 카이스트 AI 연구진과 AI 분야에서 오랜 기간 경험을 쌓아 온 전문가들을 중심으로 구성된 팀이다. AI 경량화와 가속화 기술에 전문성을 가지고 있으며, 주요 AI/ML 학회에서 연구 논문을 70편 이상 제출했다. 카카오벤처스, 네이버 D2SF, 삼성넥스트, 포스텍 홀딩스, 포스코기술투자 등 국내 주요 투자사에서 투자를 유치했다.