아크릴, AI플랫폼 성능 극대화 기술 미 학회서 소개 '주목'

RDMA 새 가능성 제시 'PeRF' 논문 10~12일 미국서 열린 'USENIX'서 발표

컴퓨팅입력 :2024/07/14 22:25    수정: 2024/07/14 22:35

 인공지능(AI) 전문기업 아크릴(Acryl, 대표 박외진)은 자사 AAAI 연구팀이 작성한 최신 논문 'PeRF: Preemption-enabled RDMA FRAMEwork'을 통해 원격 직접 메모리 액세스(RDMA, Remote Direct Memory Access) 기술의 새로운 가능성을 제시했다고 14일 밝혔다.

RDMA는 컴퓨터 네트워크에서 데이터를 전송하는 기술 중 하나다. 네트워크 통신은 보통 데이터를 보내거나 받을 때 CPU가 중간에서 개입해 데이터를 복사하고 전송하는데 RDMA를 사용하면 네트워크 어댑터가 직접 메모리에 접근해 데이터를 복사하고 전송한다. 이에, 데이터 전송에 필요한 프로세서 자원을 아낄 수 있고 전송 지연을 줄일 수 있다. 

 아크릴은 이번 논문을 미국 캘리포니아주 산타클라라에서 10일~12일 열린 'USENIX 연례 기술 컨퍼런스(USENIX Annual Technical Conference)에서 발표했다. 'USENIX ATC'는 시스템 소프트웨어와 네트워크 연구 분야에서 최고 권위를 인정받는 학술대회다. 유닉스OS 계열 및 연관 시스템 연구를 위해 1975년 결성했는데, 설립 당시 이름은 '유닉스 유저 그룹사용자 그룹(Unix Users Group)이였고 1977년 6월 현재의 USENIX로 이름을 변경했다. 설립때부터 '로긴(login)'이라는 이름의 기술저널을 발행하고 있다. 본부는 미국 버클리대학에 있다.

아크릴은 이번 논문 발표에 대해 "우리 회사의 연구 성과가 국제적으로 인정받는 계기가 될 것"이라고 강조했다. 기존 RDMA 기술은 단일 테넌트(Tenant) 환경에 최적화돼 다중 테넌트 클라우드 환경에서 성능 격리, 보안 및 확장성 문제를 해결하기 어려웠다. 아크릴의 PeRF(Preemption-enabled RDMA FRAMEwork)는 이런 한계를 극복하기 위해 설계됐다. 소프트웨어 기반 성능 격리를 제공하는 새로운 RDMA 프레임워크다.

아크릴 이수기 박사가 RDMA 기술의 새로운 가능성을 제시한 ReRF 논문을 설명하고 있다.

Tenant(임차인)는 클라우드 용어로 임차인이라는 뜻처럼 자신의 건물이 아닌, 다른 건물을 빌려 사용하는 주체를 말한다. 즉, 자신의 자원이 아닌 서비스 제공자의 클라우드 리소스를 사용한다. 복수 테넌시를 뜻하는 '멀티 테넌시(Multi Tenancy)'는 하나의 집을 쪼개 빌려주는 것처럼, 클라우드 자원 하나를 쪼개서 여러 사용자에게 제공하는 걸 말한다. 하나의 자원에 여러(multi) 세입자(tenant) 가 있는 상태로 비용 효율화를 위해 이뤄진다. 멀티 테넌시내 테넌트들은 서비스 제공자의 빠른 업데이트와 업그레이드 지원을 받는다.

아크릴은 PeRF에 대해 "혁신적인 RNIC(RDMA NIC) 선점 메커니즘을 활용해 각 테넌트의 RDMA 자원 사용을 동적으로 제어한다. 이를 통해 RDMA의 본래 성능을 유지하면서 유연한 성능 격리를 실현하고, 기존 방법보다 우수한 성능을 발휘한다"면서 "특히 PeRF는 데이터 집중형 애플리케이션에 최적화돼 빅데이터 분석, 머신러닝, 분산 스토리지, 키-값 저장소 등 다양한 분야에서 활용할 수 있다"고 강조했다. 

GPU 활용성 극대화: 비용 효율적 솔루션 제공

생성AI 시대를 맞아 GPU 가격이 급등하면서 GPU를 경제적으로 활용하는 것이 이슈로 부각했는데, PeRF는 이런 문제를 해결하는 데 큰 기여를 할 수 있다고 아크릴은 설명했다. 즉, PeRF는 RDMA 기술을 통해 GPU 자원의 효율적인 분배와 최적화를 가능하게 하는데, 사용자는 적은 수의 GPU로도 최대의 성능을 발휘할 수 있다는 것이다. 이에, 높은 비용의 GPU 구매 부담을 줄이고, 기존 GPU 인프라 활용성을 극대화할 수 있다고 아크릴은 말했다.

멀티 패스(Multi-path) RDMA와 결합 성능 극대화

특히 'PeRF'는 아크릴이 개발한 소프트웨어 기반 'Multi-path RDMA' 기술과 결합, 더 큰 시너지 효과를 발휘한다. 'Multi-path RDMA' 기술은 데이터를 여러 경로로 분산해 전송함으로써 네트워크 효율성과 신뢰성을 극대화한다. 특히 'PeRF'와 결합해 다중 테넌트 환경에서 성능 격리와 자원 활용도를 한층 더 향상시켜준다고 아크릴은 밝혔다. 

아크릴은 "이 결합은 특히 클라우드 기반 데이터 센터에서 다중 테넌트가 동시에 RDMA를 사용할 때 매우 유용하다. PeRF는 각 테넌트의 RDMA 사용을 실시간으로 모니터링하고, 필요에 따라 자원 할당을 조정해 성능 격리를 보장한다. 동시에 Multi-path RDMA는 데이터 전송 경로를 최적화해 네트워크 효율성을 극대화한다"면서 "이 두 기술 결합은 클라우드 환경에서 데이터 전송 속도와 안정성을 획기적으로 향상시킬 것"이라고 강조했다.

인공지능 플랫폼과 PeRF: MLOps 및 LLMOps 성능 향상

아크릴은 자사 주력 제품으로 MLOps 및 LLMOps 플랫폼인 '조나단(Jonathan)'에 PeRF를 적용해 이 제품의 성능과 안정성을 더 높인다.  회사는 "조나단을 사용하는 고객들은 최적의 머신러닝 모델 운영 환경을 구축할 수 있다"면서 "대규모 언어 모델 운영에서도 뛰어난 성능과 효율성을 경험할 수 있다"고 밝혔다.

PeRF 탁월한 성능, 실제 테스트서 입증

아크릴은 ReRF가 성능 테스트 결과 기존 성능 격리 기술들에 비해 월등히 우월한 성능을 보였다고 밝혔다. 이 테스트는 성균관대 염익준 박사가 주도(리드)하고 아크릴의 이수기 박사와 최민규 연구원, 그리고 성균관대 김영훈 교수가 참여한 공동 연구팀이 진행했다. 테스트 결과, PeRF가 다중 테넌트 클라우드 환경에서 RDMA 성능을 극대화하면서도 유연한 성능 격리를 제공, 앞으로 다양한 데이터 집중형 애플리케이션에서 활용이 기대된다고 연구팀은 밝혔다. 

LLMOps 플랫폼 연구 비전과 미래 계획

관련기사

아크릴 AAAI 연구소장인 성균관대학교 염익준 교수는 "PeRF는 RDMA 기술 한계를 극복하고 다중 테넌트 환경에서도 뛰어난 성능을 제공할 수 있는 혁신적인 솔루션"이라면서 "이를 통해 MLOps 및 LLMOps 플랫폼 '조나단'의 성능과 안정성이 크게 향상될 것"이라고 강조했다. 아크릴 연구팀은 이번 연구 결과를 바탕으로 더욱 발전한 RDMA 기술을 개발하는 한편 클라우드 컴퓨팅 환경에서 활용하는 걸 확대할 계획이다. 

박외진 아크릴 대표는 "이번 발표로 많은 학계 및 산업계 관계자들이 PeRF와 조나단의 가능성을 확인할 수 있을 것"이라면서 "아크릴은 대한민국을 대표하는 인공지능 전문 기업으로, 누구나 쉽게 사용하고 경제적인 인공지능 인프라를 만들기 위해 노력하고 있다"고 밝혔다. 이어 "아크릴은 다양한 혁신 기술을 통해 AI산업을 선도하고 있으며, 고객들에게 최고의 AI 솔루션을 제공하기 위해 매진하고 있다"고 덧붙였다.