"1억 달러 넣으면 50억 달러 번다"…엔비디아, AI 추론 수익 모델 제시

엔비디아가 인공지능(AI) 추론 시장의 판도를 바꿀 특수 목적 그래픽처리장치(GPU)를 앞세워 '긴 컨텍스트' 시대의 기술 패권 장악에 나섰다.

엔비디아는 9일(현지시간) 회사 공식 블로그를 통해 새로운 루빈 아키텍처 기반의 '루빈 씨피엑스(CPX)' GPU와 이를 탑재한 '베라 루빈 엔브이엘144 씨피엑스(NVL144 CPX)' 랙 시스템을 공개했다.

이번에 공개된 '루빈 CPX'는 AI 추론의 두 단계 중 컴퓨팅 성능이 많이 필요한 '컨텍스트 단계'를 가속화하는 데 초점을 맞춘다. 기존 인프라가 방대한 데이터를 처리하며 겪던 병목 현상을 해결하는 것이 핵심이다.

엔비디아가 인공지능(AI) 추론 시장의 판도를 바꿀 특수 목적 그래픽처리장치(GPU)를 앞세워 '긴 컨텍스트' 시대의 기술 패권 장악에 나섰다. (사진=엔비디아)

이 GPU는 ▲30페타플롭스의 NVFP4 연산 성능 ▲128기가바이트(GB) GDDR7 메모리 ▲하드웨어 비디오 인코딩·디코딩 기능을 갖췄다. 기존 모델 대비 어텐션 가속 성능은 3배 향상됐다.

함께 선보인 '베라 루빈 NVL144 CPX' 랙은 단일 시스템에 '루빈 CPX' GPU 144개, 루빈 GPU 144개, 베라 중앙처리장치(CPU) 36개를 통합했다. 이를 통해 8엑사플롭스의 연산 성능과 100테라바이트(TB)의 고속 메모리를 제공한다. 메모리 대역폭은 초당 1.7페타바이트(PB/s)에 달한다.

이러한 구조는 추론 과정을 컴퓨팅 집약적인 컨텍스트 단계와 메모리 대역폭이 중요한 생성 단계로 분리해 처리하는 '분리형 추론' 아키텍처에 기반한다. 각 단계에 최적화된 하드웨어를 할당해 전체 효율을 극대화한다.