엔비디아, 구글 '디퓨전젬마' 지원…"로컬 AI 추론 속도 높여"

지포스 RTX·RTX 프로·DGX 스파크 적용…클라우드 없이 실행 가능

컴퓨팅입력 :2026/06/12 11:13    수정: 2026/06/12 11:13

엔비디아가 구글딥마인드 디퓨전 언어 모델을 그래픽처리장치(GPU)와 개인용 인공지능(AI) 시스템에 최적화했다. 

엔비디아는 구글딥마인드 '디퓨전젬마'를 지포스 RTX GPU와 RTX 프로 플랫폼, DGX 스파크 시스템 전반에서 더 빠르게 실행할 수 있도록 최적화했다고 12일 밝혔다.

디퓨전젬마는 텍스트를 한 단어씩 순차 생성하는 기존 자기회귀 방식과 달리 여러 단어를 병렬로 생성한다. 각 단계에서 최대 256개 토큰을 디노이징해 텍스트 블록 전체를 출력하는 구조다.

엔비디아가 구글딥마인드 디퓨전 언어 모델을 그래픽처리장치(GPU)와 개인용 인공지능(AI) 시스템에 최적화했다. (사진=엔비디아)

이 방식은 대화형 채팅과 에이전틱 루프, 온디바이스 어시스턴트처럼 응답 속도가 중요한 단일 사용자 작업에 적합하다. 개발자와 연구자, AI 사용자는 로컬 기기에서 기존보다 빠른 텍스트 생성을 활용할 수 있다.

디퓨전젬마는 젬마 4 기반으로 구축됐다. 젬마 4는 260억 개 파라미터를 갖춘 전문가 혼합 모델이며, 단계마다 38억 개 파라미터를 활성화한다.

엔비디아는 디퓨전젬마가 동급 자기회귀 모델보다 최대 4배 빠른 성능을 제공한다고 설명했다. 단일 엔비디아 H100 텐서 코어 GPU에서는 초당 1천 개 토큰, DGX 스파크에서는 초당 150개 토큰, DGX 스테이션에서는 최대 초당 2천 개 토큰 성능을 낸다.

구글딥마인드는 디퓨전젬마를 연구·실험 목적용이라고 당부했다. 속도와 병렬 생성에 초점을 맞춘 만큼 전체 출력 품질은 기존 자기회귀 기반 젬마4 모델보다 낮다고 밝혔다.

디퓨전젬마는 아파치 2.0 라이선스 기반 오픈 웨이트 모델로 제공된다. RTX와 DGX 스파크에서 완전히 실행될 수 있으며 클라우드나 토큰당 비용 없이 허깅페이스 트랜스포머, vLLM, 언슬로스에서 기본 지원된다.

관련기사

엔비디아는 DGX 스파크와 RTX 프로 6000 워크스테이션, DGX 스테이션에서 디퓨전젬마 실행을 지원한다. 지포스 RTX 그래픽처리장치에서는 향후 라마.cpp 지원도 추가될 예정이다.

개발자는 허깅페이스 트랜스포머를 통해 지포스 RTX 5090이나 DGX 스파크에서 디퓨전젬마를 테스트할 수 있다. 더 높은 처리량이 필요한 경우 vLLM을 활용할 수 있으며 언슬로스와 엔비디아 네모 프레임워크를 통해 파인튜닝도 가능하다.