"MS 애저보다 빠르다"…美 스타트업 그로크, AI 칩으로 시장 판도 흔들까

언어모델 추론 속도 높인 AI 칩 'LPU' 출시…엔비디아 GPU도 능가

컴퓨팅입력 :2024/02/22 11:05

거대언어모델(LLM)의 추론·응답 속도를 높인 인공지능(AI) 칩이 나왔다. 엔비디아 그래픽처리장치(GPU)보다 더 빠른 속도를 갖췄다는 점에서 업계의 주목을 받고 있다.

22일 미국 IT 매체 뉴아틀라스에 따르면 미국 AI 스타트업 그로크는 지난 20일 LLM의 추론과 응답 속도를 높이는 AI 칩 '언어처리장치(LPU)'를 출시했다. 그로크는 구글 개발자 출신들이 모여 2016년 설립한 반도체 기업이다. 설립자 중에는 구글 머신러닝(ML) 칩을 개발한 조나단 로스가 최고경영자(CEO)다.

보도에 따르면 LPU는 LLM을 탑재한 챗봇인 오픈AI의 '챗GPT', 구글의 '제미나이' 등의 응답 속도 향상에 특화됐다. 사용자 질문에 1초도 안 되는 시간에 영어 기준 수백 단어의 답변을 생성할 수 있다.

LLM이 그로크를 탑재할 경우, 18배 이상 빠른 추론 속도를 갖출 수 있다. (사진=그로크 홈페이지)

벤치마크 테스트에서도 LPU는 마이크로소프트의 애저 클라우드 인프라 성능을 능가했다. 메타의 700억 매개변수 '라마 2'는 마이크로소프트 애저 클라우드상에서 초당 19개 토큰을 생성했지만, 그로크를 탑재했을 때 초당 241개 토큰을 만들었다. LLM이 그로크를 탑재할 경우 18배 이상 빠른 추론 속도를 갖출 수 있는 셈이다. 또 LPU는 100개 토큰을 생성하는 데 0.8초가 걸렸지만, 마이크로소프트의 애저 클라우드는 10.1초 소요됐다.

관련기사

현재 개발자는 그로크챗 인터페이스에서 LPU 엔진을 이용할 수 있다. 승인된 사용자는 라마 2, 미스트랄, 팰컨 등을 통해 엔진을 시험해 볼 수 있다.

조나단 로스 그로크 CEO는 "LLM의 추론 속도는 개발자의 아이디어를 사업화할 수 있다"며 "이는 AI 사업 생태계 필수 요소"라고 밝혔다.