알리바바클라우드가 인공지능(AI) 모델 서비스에 필요한 엔비디아 그래픽처리장치(GPU) 사용량을 최대 82% 절감할 수 있는 새로운 컴퓨팅 풀링 시스템을 선보였다.
19일 사우스차이나모닝포스트(SCMP)에 따르면 알리바바클라우드는 '아이게온(Aegaeon)'이라 불리는 시스템을 세 달 넘게 자사 마켓플레이스에서 베타 테스트했다.
그 결과, 수십 개 AI 모델을 서비스하는 데 필요한 엔비디아 H20 GPU 수가 1천192개에서 213개로 줄어드는 효과를 보였다고 밝혔다. 이 연구 결과는 최근 서울에서 열린 '제31회 운영체제 원칙 심포지엄(SOSP)'에서 발표됐다.

알리바바클라우드와 베이징대 공동 연구팀은 "아이게온은 현재 시장에서 대형언어모델(LLM) 동시 처리 과정에 따른 과도한 비용 문제를 처음 구체적으로 보여준 사례"라고 강조했다.
아이게온은 GPU가 여러 모델을 동시에 처리할 수 있도록 '토큰 단위 오토스케일링'을 적용한 점이 특징이다.
이를 통해 GPU는 하나의 모델 출력을 생성하는 도중에도 다른 모델로 전환할 수 있으며 모델 간 전환 시 발생하는 지연시간을 기존 대비 97% 줄였다. 결과적으로 한 개 GPU가 최대 7개의 모델을 동시에 지원할 수 있게 됐다.
이 시스템은 현재 알리바바의 기업용 모델 마켓플레이스인 '바이롄'에 적용돼 있으며 회사의 자체 개발 모델 '큐원' 서비스에도 활용되고 있다.
관련기사
- 美·中 무역 전쟁에 또 발목 잡힌 엔비디아2025.09.22
- 젠슨 황 엔비디아 CEO "AI 인프라 시장 성장세 폭발적"2025.08.28
- 엔비디아, 2분기 영업이익 36.8조... 전년比 59% ↑2025.08.28
- 트럼프 "엔비디아 中 수출 수익 20% 요구했다 15%로 합의"2025.08.12
H20은 미국의 수출 통제 조치 이후 엔비디아가 중국용 맞춤형 제품으로 개발한 GPU다. 최근 중국 규제 당국의 백도어 의혹 조사 대상에 올라, 중국 내에서는 화웨이·캄브리콘 등 주요 반도체 기업들이 자체 GPU 개발을 가속화하고 있다.
알리바바클라우드 측은 "아이게온은 LLM의 동시 추론 효율을 혁신적으로 끌어올린 시스템"이라며 "AI 컴퓨팅 자원 활용의 새로운 기준을 제시했다"고 말했다.