엔비디아, AI 팩토리용 추론 운영체제 '다이나모 1.0' 공개…블랙웰 성능 최대 7배 향상

엔비디아가 대규모 생성형 인공지능(AI)와 에이전틱 AI 추론을 지원하기 위한 새로운 오픈소스 소프트웨어(SW)를 선보이며 AI 인프라 시장 확대에 나섰다.

엔비디아는 미국 새너제이에서 열린 'GTC 2026' 행사에서 AI 추론 운영 소프트웨어 '엔비디아 다이나모(NVIDIA Dynamo) 1.0'을 17일 발표했다.

다이나모 1.0은 대규모 AI 추론을 효율적으로 운영할 수 있도록 설계된 오픈소스 기반 SW다.

엔비디아, 다이나모 프로덕션 단계 진입… AI 팩토리용 추론 운영 체제 공개(이미지=엔비디아)

AI 데이터센터에서 GPU와 메모리 자원을 효율적으로 관리하고 다양한 추론 작업을 분산 처리할 수 있도록 돕는다. 특히 엔비디아의 차세대 GPU 플랫폼인 블랙웰(Blackwell)과 결합해 대규모 AI 서비스 환경에서 높은 확장성과 성능을 제공하는 것이 특징이다.

최근 생성형 AI 서비스가 실제 산업 환경으로 빠르게 확산되면서 데이터센터에서는 다양한 AI 요청을 동시에 처리해야 하는 상황이 늘고 있다. 이러한 환경에서는 GPU 자원 관리와 작업 분배를 효율적으로 수행하는 오케스트레이션 기술이 핵심 과제로 떠오르고 있다.

엔비디아는 다이나모를 통해 이러한 문제를 해결하겠다는 전략이다. 컴퓨터에서 운영체제가 하드웨어와 애플리케이션을 조율하듯, 다이나모는 AI 데이터센터에서 GPU와 메모리를 통합적으로 관리하며 복잡한 AI 추론 작업을 조정하는 역할을 수행한다.

엔비디아에 따르면 최근 진행된 벤치마크 테스트에서 다이나모는 블랙웰 GPU 기반 AI 추론 성능을 최대 7배까지 향상시킨 것으로 나타났다. 또한 무료 오픈소스 형태로 제공돼 AI 서비스 기업들이 토큰 처리 비용을 낮추고 GPU 인프라 활용도를 높이는 데 도움을 줄 것으로 기대된다.

젠슨 황 엔비디아 창립자 겸 최고경영자(CEO)는 "AI 추론은 모든 AI 애플리케이션과 에이전트의 핵심 엔진"이라며 "다이나모는 AI 팩토리를 위한 최초의 운영 체제와 같은 역할을 하며 전 세계 AI 생태계 확장을 가속화할 것"이라고 말했다.

다이나모는 GPU 간 데이터 이동과 메모리 활용을 최적화하는 기능도 포함하고 있다. 예를 들어 AI 에이전트가 긴 프롬프트를 처리할 때 이전 단계에서 생성된 정보를 가장 많이 보유한 GPU로 작업을 자동 배분하고, 필요 없는 데이터는 외부 스토리지로 이동시켜 메모리 부담을 줄인다.

엔비디아는 다이나모를 다양한 AI 개발 프레임워크와도 연동했다. 랭체인, vLLM, SG랭(SGLang), LM캐시(Cache), llm-d 등 주요 오픈소스 프로젝트에 엔비디아 텐서RT-LLM 최적화 기능을 통합해 추론 성능을 향상시켰다.

또한 GPU 간 데이터 전송을 위한 NIXL, 메모리 관리를 위한 KVBM, 대규모 확장을 지원하는 그로브(Grove) 등 핵심 기술도 모듈 형태로 제공한다.

엔비디아의 AI 추론 플랫폼은 글로벌 클라우드 기업과 AI 스타트업, 대형 기업 등 다양한 파트너사에서 활용되고 있다. 주요 클라우드 사업자로는 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드, 오라클 클라우드 인프라스트럭처(OCI)가 있으며, 알리바바 클라우드, 코어위브, 네비우스, 투게더 AI 등도 파트너로 참여하고 있다.

AI 스타트업 가운데서는 퍼플렉시티와 커서 등이 플랫폼을 도입했으며, 글로벌 기업 중에서는 페이팔, 바이트댄스, 핀터레스트, 쿠팡, 소프트뱅크 등도 활용하고 있다.

코어위브의 제품·엔지니어링 부문 수석 부사장 첸 골드버그는 "AI 서비스가 시험 단계에서 대규모 운영 환경으로 확장되면서 이를 지원할 인프라 역시 더욱 유연하게 변화해야 한다"며 "다이나모는 복잡한 AI 에이전트 환경에서도 안정적인 운영과 높은 성능을 제공한다"고 말했다.