엔비디아, AWS·구글·MS·OCI와 손잡고 '다이나모'로 AI 추론 가속화

블랙웰·쿠버네티스·분산형 서빙 결합…멀티 노드 LLM·MoE 추론 효율 극대화

컴퓨팅입력 :2025/11/17 17:55

엔비디아가 대규모 생성형 인공지능(AI)·전문가 혼합(MoE) 모델 서비스 가속화에 나섰다.

엔비디아는 자체 추론 플랫폼 '엔비디아 다이나모'를 통해 멀티 노드 추론 성능과 효율성을 높이고 주요 클라우드 사업자와 통합했다고 17일 밝혔다.

주요 참가기업으로는 아마존웹서비스(AWS), 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드 인프라스트럭처(OCI) 등이다. 

엔비디아, AWS·구글·마이크로소프트·OCI와 협력해 다이나모 기반 AI 추론 가속화(이미지=엔비디아)

이를 통해 기업들은 GB200, GB300 NVL72를 포함한 엔비디아 블랙웰 시스템 전반에서 동일한 소프트웨어 스택으로 분산형 AI 추론을 확장할 수 있게 됐다.

엔비디아에 따르면 블랙웰 아키텍처는 최근 세미애널리시스가 수행한 인퍼런스MAX v1 벤치마크에서 테스트된 모든 모델과 활용 사례 전반에 걸쳐 가장 높은 성능과 효율성, 가장 낮은 총소유비용(TCO)을 기록했다. 

젠슨 황 엔비디아 창립자 겸 CEO는 엔비디아 GTC 워싱턴 D.C. 기조연설에서 블랙웰이 기존 엔비디아 '호퍼(Hopper)' 대비 10배 성능을 제공해 10배 수익을 창출할 수 있다고 강조한 바 있다. 회사 측은 "이 성능을 실제 서비스 환경에서 구현하려면 멀티 노드 분산 추론이 필수"라고 설명했다.

최근 대규모 전문가 혼합(MoE) 모델과 초거대 언어 모델(LLM)이 확산되면서 서비스 사업자는 수백만 명 동시 사용자를 대상으로 긴 입력 시퀀스를 처리해야 하는 상황에 직면하고 있다.

이 경우 하나의 GPU·서버에 모델을 올려 쓰는 방식만으로는 응답 지연과 자원 낭비가 발생하기 쉽다. 

엔비디아는 다이나모 플랫폼이 이러한 환경에서 추론 작업을 여러 서버(노드)에 지능적으로 분산해, 벤치마크에서 입증된 성능과 효율성을 실제 클라우드·온프레미스 환경에서도 재현할 수 있도록 지원한다고 밝혔다.

엔비디아는 특히 추론 작업을 '프리필(prefill)'과 '디코드(decode)'라는 두 단계로 나눠 최적화하는 분산형 서빙(disaggregated serving) 방식을 강조했다. 

기존에는 두 단계가 동일한 GPU에서 실행돼 메모리·연산 자원이 비효율적으로 사용되는 경우가 많았다. 분산형 서빙은 프리필과 디코드를 서로 다른 특화 GPU·노드에 분리 배치해 각 단계에 가장 적합한 최적화 기법으로 처리할 수 있게 한다. 딥시크-R1과 같은 최신 대규모 AI 추론 및 MoE 모델에서는 이러한 분산 서비스가 사실상 필수라는 설명이다.

엔비디아는 외부 벤치마크 사례도 제시했다. 시그널65의 러스 펠로우즈 수석 애널리스트는 최근 보고서에서 여러 노드에 동일 모델 복제본을 병렬 배치하는 방식으로 72개 엔비디아 블랙웰 울트라 GPU를 활용해 초당 110만 토큰(TPS)을 처리하는 기록적인 처리량을 달성했다고 분석했다. 

또 AI 인프라 플랫폼 기업 베이스텐은 엔비디아 다이나모를 도입해 장문 코드 생성 추론 속도를 2배, 처리량을 1.6배 높이면서도 추가 하드웨어 없이 성능을 끌어올렸다고 소개했다. 엔비디아는 "소프트웨어 기반 최적화만으로도 AI 서비스 제공 비용을 크게 낮출 수 있음을 보여주는 사례"라고 강조했다.

클라우드 환경에서는 쿠버네티스 통합이 핵심 축이다. 컨테이너 오케스트레이션 표준인 쿠버네티스를 기반으로 수십·수백 개 노드에 걸쳐 모델 복제본과 분산형 서빙 컴포넌트를 관리하는 구조가 이미 대규모 AI 훈련에서 검증된 만큼 추론 영역으로 확장되고 있다는 것이다. 

엔비디아는 이번 통합으로 AWS 아마존 EKS, 구글 클라우드, 마이크로소프트 애저 쿠버네티스 서비스, OCI 슈퍼클러스터 등 주요 관리형 쿠버네티스 서비스에서 다이나모 기반 멀티 노드 추론을 공식 지원하게 됐다고 설명했다.

구체적으로 AWS에서는 아마존 EKS와 다이나모 통합을 통해 생성형 AI 추론을 가속화한다. 구글 클라우드는 'AI 하이퍼컴퓨터(Hypercomputer)' 환경에서 엔터프라이즈급 거대 언어 모델 추론을 최적화하기 위한 다이나모 레시피를 제공한다.

마이크로소프트 애저는 애저 쿠버네티스 서비스(AKS)에서 ND GB200-v6 GPU와 다이나모를 기반으로 멀티 노드 LLM 추론을 지원하고, OCI는 OCI 슈퍼클러스터에 엔비디아 다이나모를 결합해 대규모 멀티 노드 LLM 추론을 구현한다. 

엔비디아는 "하이퍼스케일러 전반으로 다이나모 기반 분산 추론이 확산되면서 엔터프라이즈 AI 배포의 성능·유연성·안정성이 함께 향상될 것"이라고 전망했다.

이 같은 흐름은 하이퍼스케일 클라우드를 넘어 특화 클라우드 사업자로도 확장되고 있다. 예를 들어 네비우스(Nebius)는 엔비디아 가속 컴퓨팅 인프라를 바탕으로 대규모 추론 워크로드에 특화된 클라우드를 설계하고 있으며, 엔비디아 다이나모 생태계 파트너로 협력 중이다. 

엔비디아는 다이나모가 다양한 규모·형태의 클라우드 사업자가 대규모 추론 서비스를 보다 쉽게 구축하도록 돕는 공통 플랫폼 역할을 할 것으로 기대하고 있다.

또 다이나모 위에서 동작하는 '엔비디아 그로브(Grove)' API를 공개해, 쿠버네티스 환경에서 복잡한 분산 추론 구성을 단일 고수준 사양으로 정의하고 운영할 수 있도록 했다. 

사용자는 예를 들어 '프리필에는 GPU 노드 3개, 디코드에는 GPU 노드 6개를 할당하고, 단일 모델 복제본에 속한 모든 노드는 동일한 고속 인터커넥트에 배치한다'는 요구사항을 한 번에 기술할 수 있다. 그로브는 이 사양에 맞춰 각 구성 요소를 올바른 비율로 확장하고 실행 순서와 종속성을 관리하며, 클러스터 전반에 최적 배치하는 작업을 자동으로 처리한다.

엔비디아는 AI 추론이 점점 더 분산 구조로 옮겨가면서 쿠버네티스, 엔비디아 다이나모, 엔비디아 그로브 조합이 개발자의 애플리케이션 설계 방식을 크게 단순화할 것이라고 내다봤다. 

관련기사

회사는 자체 대규모 AI 시뮬레이션(AI-at-scale simulation)을 통해 하드웨어 구성과 배포 방식 선택이 성능·효율·사용자 경험에 미치는 영향을 검증하고 있으며, 결과를 기반으로 블랙웰·GB200 NVL72 시스템과 다이나모가 협력해 추론 성능을 높이는 최적 구성을 제시하겠다고 밝혔다.

엔비디아는 마지막으로 풀스택 추론 플랫폼 최신 동향을 다루는 '엔비디아 띵크 스마트(Think SMART)' 뉴스레터를 통해 선도적인 AI 서비스 제공업체와 개발자, 기업이 추론 성능과 투자 대비 수익(ROI)을 높일 수 있는 방법을 지속적으로 공유하겠다고 전했다.