엔비디아 "블랙웰 GPU 수율 개선 위해 마스크 변경"

"블랙웰 GPU, 추론 벤치마크서 H100 대비 최대 4배 성능 기록"

반도체ㆍ디스플레이입력 :2024/08/29 08:46    수정: 2024/08/29 10:14

엔비디아가 28일(현지시간) 2분기(5-7월, 회계연도 기준 2025년 2분기) 실적발표를 통해 올 연말 출시할 AI 가속용 GPU '블랙웰'(Blackwell) 생산 절차 중 일부를 개선했다고 밝혔다.

블랙웰은 엔비디아가 'GTC 2024'에서 공개한 차세대 AI 가속용 GPU로 오는 4분기부터 공급 예정이다. 대만 TSMC의 4나노급 공정(N4P)으로 만든 반도체 다이(Die) 두 개를 연결해 만든 칩이며 2천80억 개의 트랜지스터를 집적했다.

이달 초 미국 디인포메이션과 대만 공상시보는 소식통을 인용해 "블랙웰 출시 시기가 생산 과정 중 발견된 문제로 내년 1분기로 지연됐다"고 보도했다. 그러나 엔비디아는 "블랙웰 시제품이 여전히 공급되고 있으며 생산에 문제가 없다"는 입장을 고수했다.

지난 6월 컴퓨텍스 2024 기조연설에서 블랙웰 GPU를 공개한 젠슨 황 엔비디아 CEO. (사진=지디넷코리아)

이날 콜렛 크레스 엔비디아 CFO(최고재무책임자)는 "블랙웰 GPU 생산 수율 개선을 위해 마스크(Mask)를 변경했다"고 밝혔다.

마스크는 반도체 생산 공정에서 실리콘에 회로 패턴을 새기기 위해 쓰이는 유리판이며 한 번 만들어지면 수정이 불가능하다. 엔비디아가 '이미 설계를 마친(테이프아웃) 블랙웰 GPU에서 모종의 문제점을 발견해 이를 개선해야 했다'고 우회적으로 시인한 것이다.

엔비디아는 이날 블랙웰 GPU로 수행한 ML퍼프(MLPerf) 테스트 결과도 제출했다고 밝혔다.

ML퍼프는 전세계 AI 관련 반도체·소프트웨어 기업과 학계 등이 참여하는 컨소시엄 'ML커먼스'(MLCommons)가 주관하는 머신러닝 성능 측정 지표다. 엔비디아 뿐만 아니라 인텔 등 주요 제조사가 CPU와 GPU 성능 측정 결과를 제출한다.

엔비디아 사내에 구축된 블랙웰 기반 GPU 서버 클러스터. (사진=엔비디아)

엔비디아는 "블랙웰 GPU는 ML퍼프의 '추론 v4.1'(Inference v4.1) 테스트에 포함된 메타 라마2 700억개 매개변수 벤치마크에서 H100 대비 4배 이상의 성능을 냈다"고 밝혔다.

엔비디아는 지난 해 11월 공개한 호퍼 기반 AI 가속기인 H200이 예정대로 출시돼 미국 클라우드 컴퓨팅 스타트업 코어위브(CoreWeave)에 공급됐다고 밝혔다.

관련기사

8개의 GPU로 구성된 엔비디아 H200 칩 (사진=엔비디아)

H200은 H100 GPU를 업그레이드한 제품이며 SK하이닉스가 공급한 HBM(고대역폭메모리)인 HBM3e 141GB를 탑재했다. H100 대비 메모리 용량은 1.8배, 대역폭은 1.4배 늘어났다.

엔비디아가 ML퍼프에 제출한 벤치마크 자료에 따르면, H200 GPU 8개로 구성한 클러스터는 모든 워크로드에서 H100 대비 최대 1.5배 이상 높은 성능을 낸다.