아크릴, 글로벌 3대 클라우드서 'GPUBase' 검증…"AI 학습 최대 24배 향상"

인공지능 전환(AX) 인프라 전문기업 아크릴(대표 박외진)은 자사 AI인프라 운영 플랫폼 ‘GPU베이스(GPUBase)’의 성능을 세계 주요 클라우드 환경에서 대규모로 검증한 결과, AI 학습 속도가 최대 24배 향상된 것으로 나타났다고 1일 밝혔다.

이번 검증은 ‘K-스케일 이밸류에이션(K-Scale evaluation)’의 첫 단계인 '허라이즌털 페이지(Horizontal Phase)'를 완료한 결과다. 'K-Scale evaluation'은 GPUBase의 성능과 확장성을 천개 단위 GPU 환경에서 검증하기 위한 프로젝트다. 'Horizontal evaluation(HE)'는 넓이를 증명하는 것으로, 애저(Azure)·AWS·GCP 여러 글로벌 클라우드 환경에서 GPUBASE가 어디서든 돌아간다(호환성·이식성·안정성)를 보여준다. 도입 리스크를 없애고 멀티 CSP·마켓플레이스 전략을 뒷받침한다. 단, 얼마나 빠른가는 증명하지 못한다.

이번 아크릴의 'Horizontal Phase'는 네트워크 아키텍처와 운영 환경이 서로 다른 글로벌 3대 클라우드 서비스 제공사(CSP)에서 GPUBase의 성능을 각각 독립적으로 검증하는 방식으로 진행됐다. 평가에는 총 1272개의 GPU와 서로 다른 세대와 종류로 구성한 7종의 이기종 GPU를 활용했다.

아크릴은 이번 검증에서 ▲네트워크 성능 ▲GPU 공유와 자원 활용 ▲이기종 가속기 통합 ▲ 확장성 ▲스토리지 연동 ▲장애복구 등 실제 대규모 AI 인프라 운영에 필요한 기능을 종합적으로 점검했다. 이를 통해 GPUBase가 특정 클라우드에 종속되지 않고 다양한 인프라 환경에서 일관된 성능을 구현할 수 있다는 점을 확인했다.

검증 결과, 네트워크 부하가 커질수록 GPUBase 적용 여부에 따른 성능 차이가 확대됐다. 대규모 언어모델(LLM) 분산학습 시험에서 GPUBase 적용 환경의 학습 스텝 타임(Step Time)은 부하 수준과 관계없이 거의 일정하게 유지한 반면, 미적용 환경에서는 고부하 시 학습시간이 급격히 증가했다. 고부하 기준 GPUBase 적용 시 학습시간은 약 96% 단축됐고, 성능 격차는 최대 24배 수준으로 벌어졌다.

염익진 아크릴 CTO(성균관대 SW학과 교수). (사진=지디넷코리아 DB)

GPU 간 대규모 데이터 교환이 이뤄지는 NCCL All-Reduce 통신 시험에서도 GPUBase의 효과가 확인됐다. GPUBase 적용 시 통신 대역폭은 미적용 대비 저부하 141%, 중부하 560%, 고부하 2,375% 향상됐다. 이는 GPUBase가 GPU 자원 배분을 넘어 분산학습 과정에서 발생하는 네트워크 혼잡과 통신 병목을 줄이는 데 기여한 결과로 풀이된다.

서비스 응답 단계에서도 안정적인 성능이 나타났다. 대규모 언어모델 추론 시험에서 GPUBase는 무부하와 고부하 환경 간 응답시간 차이를 거의 발생시키지 않았으며, 학습과 추론을 동시에 수행하는 혼합부하 환경에서도 추론 서비스의 서비스수준협약(SLA)을 안정적으로 충족했다.

네트워크 외 운영 항목에서도 성과가 확인됐다. GPUBase는 7종의 이기종 GPU 환경에서 서로 다른 가속기를 요구하는 수천 건의 워크로드를 장애나 실패 없이 안정적으로 스케줄링했다. GPU 분할·공유 및 스케줄링 기술을 적용해 GPU 활용률을 90% 이상으로 끌어올렸으며, 전체 작업 완료 시간은 최대 34%, 작업 큐 대기시간은 최대 93% 단축했다. 또한 네트워크, 서버(VM), 소프트웨어 등 총 18종의 장애 시나리오를 모두 5분 이내에 감지·복구해 운영 안정성도 입증했다.

GPUBase의 핵심 기술은 아크릴 CTO이자 성균관대학교 소프트웨어학과 교수인 염익준 CTO가 25년 이상 수행해 온 컴퓨터 네트워크 연구를 기반으로 개발됐다. 아크릴은 해당 연구를 GPU 환경에 적용해 트래픽 차등화 기술인 PeRF와 다중경로 RDMA 기술인 UL-MPRDMA를 GPUBase에 구현했다. 관련 원천기술은 USENIX ATC와 IEEE Access 등 국제 학술 무대에서도 발표된 바 있다.

아크릴은 과학기술정보통신부가 지원하는 ‘AI 클라우드 경쟁력 강화 기술개발 사업’에서도 네트워크 분야 주관기관으로 선정됐다. 주관 과제는 ‘대규모 GPU 클러스터 환경에서의 네트워크 효율성 극대화를 위한 이더넷 기반 GPU 클러스터 네트워크 패브릭 시스템 및 최적화 기술 개발’이다.

염익준 아크릴 CTO는 “대규모 AI 인프라 성능은 GPU 한 장 연산 성능보다 수많은 GPU가 얼마나 효율적으로 연결되고 데이터를 교환하는지에 의해 결정된다”며 “GPUBase는 단순한 GPU 관리 소프트웨어가 아니라 GPU, 서버, 스토리지, 네트워크를 하나의 시스템으로 보고 최적화하는 AI 인프라 운영 플랫폼”이라고 말했다.