[라스베이거스(미국)=권봉석 기자] 엔비디아가 5일(이하 현지시간) 오후 라스베이거스 퐁텐블로 시어터에서 진행한 기조연설에서 AI 추론 병목현상을 줄일 수 있는 새로운 스토리지 플랫폼을 공개했다.

AI 모델이 다루는 매개변수(패러미터)는 수십 억 개 수준에서 수 조개까지 확장되고 다단계 추론을 통해 정밀도를 높이고 있다. 또 추론 과정에서 오류를 줄이기 위한 컨텍스트 데이터가 성능과 효율을 좌우하는 핵심 요소로 꼽힌다.

기존에는 추론을 실행하는 GPU와 연결된 메모리에 컨텍스트 데이터를 키밸류(KV, 핵심값) 캐시 형태로 담아 활용했다. 그러나 컨텍스트 데이터 용량이 커지면서 이를 GPU 메모리에 담아 두는 것은 비용과 확장성, 효율성 면에서 문제가 있었다.

엔비디아 블루필드4 DPU 기반 추론 컨텍스트 메모리 스토리지 플랫폼. (사진=엔비디아)

엔비디아는 이날 데이터센터 내 GPU 사이의 데이터 이동을 효율적으로 관리하는 블루필드4 데이터처리장치(DPU)를 활용한 '추론 컨텍스트 메모리 스토리지 플랫폼'을 제안했다.

이 플랫폼은 GPU 메모리 대신 키밸류 캐시를 담아 둘 수 있는 전용 인프라를 제공해 랙 스케일 AI 시스템 전반에서 컨텍스트 데이터를 효율적으로 활용할 수 있도록 설계됐다.

이를 통해 초당 토큰 처리량을 최대 5배까지 끌어올리고, 기존 스토리지 대비 전력 효율 역시 최대 5배 높아진다는 것이 엔비디아 설명이다.

블루필드4는 엔비디아 DOCA 프레임워크를 기반으로 NIXL 라이브러리, 다이나모(Dynamo) 소프트웨어와 긴밀히 통합돼 하드웨어 가속 키밸류 캐시 공유를 구현한다.

DPU가 KV 캐시의 배치와 접근을 직접 관리함으로써 메타데이터 오버헤드를 제거하고, 데이터 이동을 최소화하며, GPU 노드와 분리된 보안 접근을 보장한다.

여기에 스펙트럼-X 이더넷을 활용한 RDMA 기반 네트워크 패브릭을 결합해 AI 노드 간 고대역폭 컨텍스트 공유를 지원한다. 이를 통해 AI 에이전트 반응성 개선, AI 팩토리 처리량(스루풋) 증가, 추론 효율 향상 등을 거둘 수 있다.

엔비디아는 DPU를 중심으로 AI 인프라 전반을 통합하며, 데이터센터 아키텍처의 주도권 강화에 나설 예정이다.

관련기사

이날 젠슨 황 엔비디아 CEO는 "AI는 이제 컴퓨팅과 네트워크를 넘어 스토리지까지 재정의하고 있다"며 "블루필드4를 중심으로 한 스토리지 스택은 차세대 지능형 AI를 구현하기 위한 핵심 인프라가 될 것"이라고 말했다.

델테크놀로지스, HPE, IBM, 퓨어스토리지 등 엔비디아 주요 파트너사는 블루필드4 기반 AI 스토리지 플랫폼을 구현해 올 하반기 출시 예정이다.