WARRP 레퍼런스 아키텍처는 RAG 기반 추론 환경의 개발을 가속화하는 포괄적인 모듈식 솔루션을 제공한다
애틀란타, 캘리포니아주 캠벨, 2024년 11월 20일 /PRNewswire/ -- 슈퍼컴퓨팅 2024에서: AI 네이티브 데이터 플랫폼 기업 웨카(WEKA)는 엔터프라이즈 AI 추론 환경의 개발과 구현을 간소화하고 효율화하는 새로운 레퍼런스 아키텍처 솔루션을 선보였다. 웨카 AI RAG 레퍼런스 플랫폼(WARRP)은 생성형 AI(GenAI)개발자 및 클라우드 아키텍트에게 강력한 추론 인프라 프레임워크의 개발을 위한 설계 청사진을 제공한다. 이는 검색 증강 생성(RAG)을 통합하는 것으로, 대규모 언어 모델(LLM)이 외부 소스에서 새로운 데이터를 수집할 수 있도록 AI 추론 프로세스에서 사용되는 기술이다.
안전하고 신뢰할 수 있는 AI 운영 구축에 있어 RAG의 중요성
S&P 글로벌 마켓 인텔리전스가 최근 실시한 글로벌 AI 트렌드 연구에 따르면, 생성형 AI는 기업에서 다른 모든 AI 애플리케이션을 제치고 가장 많이 채택된 AI 방식으로 빠르게 부상했다. [1]
기업이 LLM을 배포할 때 직면하는 주요 과제는 여러 환경과 외부 소스에서 새로운 데이터를 효과적으로 검색하고 상황에 맞게 구성하여 AI 추론을 지원할 수 있도록 하는 것이다. RAG는 AI 추론을 위한 선도적인 기술이며, 외부 데이터 소스에서 새로운 인사이트를 안전하게 검색하여 학습된 AI 모델을 향상시키는 데 사용된다. 추론 프로세스에서 RAG를 사용하면 AI 모델의 착시를 줄이고 출력의 정확도, 신뢰성 및 풍부함을 개선하여 비용이 많이 드는 재학습 주기를 줄일 수 있다.
그러나 아키텍처, 모범 사례, 도구, 테스트 전략이 여전히 빠르게 진화하고 있기 때문에, 대규모로 RAG 프레임워크를 지원할 수 있는 강력한 프로덕션 지원 추론 환경을 구축하는 것은 복잡하고 어려운 일이다.
추론 가속화를 위한 포괄적인 청사진
웨카는 WARRP를 통해 인프라에 구애받지 않는 퍼런스 아키텍처를 정의했으며, 이를 활용하여 프로덕션 품질의 고성능 RAG 솔루션을 대규모로 구축하고 배포할 수 있다.
고객이 RAG 기반의 AI 추론 파이프라인을 신속하게 구축하고 구현할 수 있도록 설계된 WARRP는 워크로드 이동성, 분산된 글로벌 데이터센터 및 멀티클라우드 환경에 최적화된 세계적 수준의 AI 추론 환경을 신속하게 개발하고 배포하는 데 사용할 수 있는 모듈식 구성 요소의 포괄적인 청사진을 제공한다.
WARRP 레퍼런스 아키텍처는 고객이 선호하는 클라우드나 서버 하드웨어에서 실행되는 웨카® 데이터 플랫폼 소프트웨어를 기본 계층으로 구축한다. 그런 다음 엔비디아 AI 엔터프라이즈 소프트웨어 플랫폼의 일부인 엔비디아NIM™ 마이크로서비스 및 엔비디아NeMo™ 리트리버를 비롯한 엔비디아의 동급 최고의 엔터프라이즈 AI 프레임워크, 런(Run):ai의 고급 AI 워크로드 및 GPU 오케스트레이션 기능, 데이터 오케스트레이션용 쿠버네티스, 데이터 수집용 밀버스 벡터 DB 등 인기 있는 상용 및 오픈 소스 데이터 관리 소프트웨어 기술을 통합한다.
웨카의 최고 기술 책임자 시몬 벤 데이비드(Shimon Ben-David)는 "2023년 생성형 AI 기술의 첫 번째 물결이 기업에 도입되기 시작했을 때, 대부분 조직의 컴퓨팅 및 데이터 인프라 리소스는 AI 모델 학습에 집중되어 있었다"면서 "생성형 AI 모델과 애플리케이션이 성숙해지면서, 많은 기업이 이러한 리소스를 전환하여 추론에 집중하도록 준비를 하고 있지만, 어디서부터 시작해야 할지 모르는 경우가 많다"며, "대규모로 AI 추론을 실행하는 것은 매우 어려운 일이다. 당사는 웨카, 엔비디아, 런:ai, 쿠버네티스, 밀버스 등의 선도적인 AI 및 클라우드 인프라 솔루션을 기반으로 웨카 AI RAG 아키텍처 플랫폼을 개발하여, 엔터프라이즈 AI 모델 실행의 정확성, 보안 및 비용을 개선하기 위해 RAG 구현 프로세스를 간소화하는 강력한 프로덕션 지원 청사진을 제공하고 있다"고 말했다.
WARRP는 다양한 LLM 배포를 지원할 수 있는 유연한 모듈식 프레임워크를 제공하여, 프로덕션 환경에서 확장성, 적응성 및 탁월한 성능을 제공한다. 주요 이점은 다음과 같다.
- 프로덕션 지원 추론 환경을 더 빠르게 구축한다: 생성형 AI 개발자와 클라우드 아키텍트는 WARRP의 인프라와 클라우드에 구애받지 않는 아키텍처를 사용하여, 생성형 AI 애플리케이션 개발을 간소화하고 추론 작업을 대규모로 더 빠르게 실행할 수 있다. 이는 조직의 기존 및 향후 AI 인프라 구성 요소, 크고 작은 언어 모델, 선호하는 서버, 하이퍼스케일 또는 전문 AI 클라우드 제공업체와 원활하게 통합되어, 조직이 AI 추론 스택을 설계할 때 탁월한 유연성과 선택권을 갖게 한다.
- 하드웨어, 소프트웨어, 클라우드에 구애받지 않는다: WARRP의 모듈식 설계는 대부분의 주요 서버 및 클라우드 서비스 제공업체를 지원한다. 이 아키텍처는 AI 실무자가 선호하는 하이퍼스케일 클라우드 플랫폼, AI 클라우드 서비스 또는 내부 서버 하드웨어에서 최소한의 구성 변경을 통해 동일한 워크로드를 실행할 수 있도록 함으로써, 조직이 성능 저하 없이 워크로드 이동성을 쉽게 달성할 수 있도록 해준다. 공용, 민간 또는 하이브리드 클라우드 등 어떤 환경에 배포되든, AI 파이프라인은 안정적인 동작과 예측 가능한 결과를 보여주며, 하이브리드 및 멀티클라우드 운영을 간소화한다.
- 엔드투엔드 AI 추론 스택을 최적화한다: 특히 대규모 모델 리포지토리와 복잡한 AI 워크로드를 처리할 때, RAG 파이프라인을 실행하는 것은 매우 까다로울 수 있다. 조직은 특히 다중 모델 추론 시나리오에서 웨카 데이터 플랫폼을 AI 추론 스택에 통합함으로써 성능 향상을 크게 도모할 수 있다. 모델을 효율적으로 로드하고 언로드하는 웨카 데이터 플랫폼의 기능은 특히 여러 AI 모델을 포함하는 복잡한 연쇄 추론 워크플로우에서, 사용자 프롬프트에 대한 토큰을 더욱 가속화하고 효율적으로 전달한다.
런:ai의 최고 기술 책임자 로넨 다르(Ronen Dar)는 "AI 도입이 가속화되면서 프로덕션 워크로드를 대규모로 배포할 수 있는 간소화된 방법이 절실히 요구되고 있다. 한편, RAG 기반 추론은 AI 혁신 경쟁에서 중요한 영역으로 떠오르며, 조직의 기본 데이터 인프라에 대한 새로운 고려 사항을 제시하고 있다"면서 "WARRP 레퍼런스 아키텍처는 추론 환경을 구축하는 고객에게 탁월한 솔루션을 제공하여, 민간, 공용 및 하이브리드 클라우드 환경 전반에서 GPU 활용도를 극대화하기 위해 엔비디아, 웨카 및 런:ai의 업계 최고의 구성 요소를 사용하여 빠르고 유연하며 안전하게 개발할 수 있는 필수 청사진을 제공한다. 이 조합은 AI 혁신의 최전선에서 경쟁사를 앞서고자 하는 고객에게 윈윈이 될 것이다"고 말했다.
엔비디아의 엔터프라이즈 생성 AI 소프트웨어 담당 디렉터인 아만다 손더스(Amanda Saunders)는 "기업들은 데이터를 활용하여 RAG 파이프라인을 구축하고 배포할 수 있는 간단한 방법을 찾고 있다"면서 "웨카와 함께 엔비디아 NIM 및 NeMo를 사용하면 기업 고객은 고성능 AI 추론 및 RAG 작업을 대규모로 개발하고 배포하며 실행할 수 있는 빠른 경로를 확보할 수 있다"고 말했다.
https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ 을 방문하면, WARRP 레퍼런스 아키텍처의 첫 번째 릴리스를 무료로 다운로드할 수 있다.
슈퍼컴퓨팅 2024 참석자는 부스 #1931의 웨카를 방문하여 자세한 내용과 새로운 솔루션의 데모 버전을 확인할 수 있다.
AI 클라우드 서비스 제공업체 언급
어플라이드 디지털(Applied Digital)
어플라이드 디지털의 최고 기술 책임자 마이크 매니스칼코(Mike Maniscalco)는 "점점 더 많은 기업이 고객과 직원의 역량을 강화하기 위해 고급 AI 및 생성형 AI 추론을 활용하면서, 단순성, 기능성 및 효율성을 향상시키는 데 RAG를 활용하는 이점을 인식하고 있다"면서 "웨카의 WARRP 스택은 강력한 엔비디아 기술과 안정적이고 확장 가능한 클라우드 인프라의 지원을 받아 RAG 파이프라인을 대규모 프로덕션 배포에 적용하는 데 매우 유용한 레퍼런스 프레임워크를 제공한다"고 말했다.
오리 클라우드(Ori Cloud)
오리 클라우드의 설립자 겸 CEO인 마흐디 야히야(Mahdi Yahya)는 "선도적인 생성형 AI 기업들이 세계 최대 규모의 LLM을 학습하기 위해 오리 클라우드에서 실행하고 있으며, 웨카 데이터 플랫폼과의 통합 덕분에 GPU 활용도를 극대화하고 있다"면서 "웨카와 협력하여 WARRP 아키텍처를 사용한 강력한 추론 솔루션을 구축함으로써, 오리 클라우드 고객이 RAG 파이프라인의 이점을 극대화하여 AI 혁신을 가속화할 수 있기를 기대한다"고 말했다.
웨카
웨카는 AI 시대를 위해 구축된 기업 데이터 스택에 대한 새로운 방식을 설계하고 있다. 웨카® 데이터 플랫폼은 클라우드와 어디에나 설치할 수 있는 AI 기반 아키텍처가 갖춰진 AI 인프라의 표준을 설정함으로써 온- 프레미스, 클라우드와 엣지 환경에서 데이터를 원활하게 이동할 수 있게 한다. 이 플랫폼은 종래의 데이터 사일로를 GPU, AI 모델 트레이닝과 추론 그리고 기타 성능 집약적인 워크로드를 가속하는 동적 데이터 파이프라인으로 변환하여 보다 효율적으로 작업하고 에너지를 덜 소비하며 관련 탄소 배출량을 줄일 수 있도록 지원한다. 웨카는 전세계에서 가장 혁신적인 기업과 연구 조직들이 복잡한 데이터 문제를 해결하여 더 빠르고 지속 가능하게 발견, 통찰과 결과에 도달할 수 있도록 해주는데 여기에는 포춘 50대 기업 중 12개가 포함되어 있다. 상세 정보가 필요할 경우 www.weka.io를 방문하거나 링크트인, X와 페이스북에서 웨카와 연결하기 바란다.
WEKA와 WEKA 로고는 웨카아이오 주식회사의 등록상표이다. 여기에서 사용된 기타 트레이드 명칭들은 그들 각 소유자들의 상표일 수도 있다.
[1] 2024 글로벌 AI 트렌드, 2024년 9월, S&P 글로벌 마켓 인텔리전스
사진 - https://mma.prnasia.com/media2/2561543/4304845.jpg?p=medium600
로고 - https://mma.prnasia.com/media2/1796062/WEKA_v1_Logo.jpg?p=medium600