엔비디아의 최신형 AI 가속기 '블랙웰'을 기반으로 한 서버가 과열 문제를 겪고 있다고 미국 IT전문매체 디인포메이션이 17일 보도했다.
디인포메이션은 소식통을 인용해 "최대 72개의 칩을 장착하도록 설계된 서버 랙에 블랙웰 GPU를 연결하면 과열 현상이 일어난다"며 "과열 문제 해결을 위해 랙 설계 변경을 여러 차례 요청했다"고 밝혔다.
블랙웰은 2천80억개의 트랜지스터를 집적해, 이전 세대인 H100 대비 데이터 연산 속도를 2.5배 가량 향상시켰다. 엔비디아가 올 연말부터 양산을 본격화한 제품이다.
엔비디아의 블랙웰 GPU와 '그레이스' CPU를 연결하면 'GB200'이라는 AI 가속기가 된다. 이 GB200이 랙에 집적되는 개수에 따라 'GB200 NVL32', 'GB200 NVL72' 등으로 나뉜다.
관련기사
- AMD, 직원 1000명 줄인다…엔비디아와 경쟁 집중2024.11.14
- "日 AI로 리셋"…소프트뱅크, 엔비디아 이어 레드햇 손도 잡았다2024.11.14
- 엔비디아, 지포스 RTX 4070 구매자에 게임 증정2024.11.13
- 엔비디아, GPU 설정 제어하는 '엔비디아 앱' 정식 출시2024.11.13
이와 관련해 엔비디아 측은 로이터통신에 성명을 보내 "엔비디아는 선도적인 클라우드 서비스 제공업체와 협력하고 있다"며 "지속적으로 엔지니어링을 하는 일은 정상적이고 예상된 일"이라고 밝혔다.
이번 과열 문제가 심화될 경우 마이크로소프트나 메타, 구글 등 주요 CSP(클라우드서비스제공자) 기업들의 AI 서버 투자 계획은 당초 예상 대비 늦춰질 전망이다. GB200 NVL의 가격이 최대 300만 달러로 추정되는 만큼, 업계에 미칠 파장은 적지 않을 것으로 관측된다.