GPU 의존 낮추는 中…알리바바, AI 추론 효율 높인 독자 기술 공개

알리바바클라우드가 인공지능(AI) 모델 서비스에 필요한 엔비디아 그래픽처리장치(GPU) 사용량을 최대 82% 절감할 수 있는 새로운 컴퓨팅 풀링 시스템을 선보였다.

19일 사우스차이나모닝포스트(SCMP)에 따르면 알리바바클라우드는 '아이게온(Aegaeon)'이라 불리는 시스템을 세 달 넘게 자사 마켓플레이스에서 베타 테스트했다.

그 결과, 수십 개 AI 모델을 서비스하는 데 필요한 엔비디아 H20 GPU 수가 1천192개에서 213개로 줄어드는 효과를 보였다고 밝혔다. 이 연구 결과는 최근 서울에서 열린 '제31회 운영체제 원칙 심포지엄(SOSP)'에서 발표됐다.

알리바바클라우드와 베이징대 공동 연구팀은 "아이게온은 현재 시장에서 대형언어모델(LLM) 동시 처리 과정에 따른 과도한 비용 문제를 처음 구체적으로 보여준 사례"라고 강조했다.

아이게온은 GPU가 여러 모델을 동시에 처리할 수 있도록 '토큰 단위 오토스케일링'을 적용한 점이 특징이다.

이를 통해 GPU는 하나의 모델 출력을 생성하는 도중에도 다른 모델로 전환할 수 있으며 모델 간 전환 시 발생하는 지연시간을 기존 대비 97% 줄였다. 결과적으로 한 개 GPU가 최대 7개의 모델을 동시에 지원할 수 있게 됐다.

이 시스템은 현재 알리바바의 기업용 모델 마켓플레이스인 '바이롄'에 적용돼 있으며 회사의 자체 개발 모델 '큐원' 서비스에도 활용되고 있다.

관련기사