엔비디아의 차세대 그래픽처리장치(GPU) '블랙웰'의 발열 문제가 다시 불거진 가운데 서버업체들이 크게 개의치 않고 기존 계획대로 고객사에 납품할 채비에 나섰다. 열을 잡기 위해 수랭식(흐르는 물)도 잇따라 도입하는 모습이다.
26일 업계에 따르면 델 테크놀로지스와 슈퍼마이크로, 대만 폭스콘, 콴타 등 서버 업체들은 최근 '블랙웰'이 탑재된 서버를 잇따라 고객사에 납품하기 시작했다.
엔비디아 '블랙웰'은 2천80억 개 트랜지스터를 탑재한 AI칩으로, 트랜지스터 800억 개인 엔비디아의 차세대 AI칩 'H100' 보다 2.5배 많은 수준이다. 트랜지스터가 많을수록 칩 성능이 좋아진다. 그러나 '블랙웰'은 올 들어 생산 과정에서 수차례 결함이 발견되면서 출시가 계획대로 이뤄지지 않았다.
엔비디아는 지난 3월 '블랙웰'을 처음 공개하며 2분기 중 출시할 수 있다고 공언했다. 하지만 이후 설계 결함이 발견되면서 출시 시기가 예정보다 최소 3개월 늦춰졌다. 또 지난 8월에는 블랙웰을 4분기부터 양산할 계획이라고 발표했으나, 최근 다시 서버 과열 문제가 불거졌다.
이에 '블랙웰'을 사전 주문한 마이크로소프트(MS)·메타·오픈AI·xAI 등 빅테크 업체들은 제품 출시 지연에 대비해 엔비디아의 AI 칩인 'H100'과 'H200' 등 '호퍼' 제품군 주문을 늘리는 방안을 검토하고 있는 것으로 알려졌다.
하지만 서버업체들의 분위기는 다르다. 델 테크놀로지스는 최근 '델 파워엣지 XE9712'를 인공지능(AI) 하이퍼스케일러 기업인 '코어위브(CoreWeave)'에 공급했다. 엔비디아 'GB200'을 탑재한 서버를 고객에 납품한 것은 델 테크놀로지스가 업계 처음이다.
'델 파워엣지 XE9712'는 엔비디아 기반 델 AI 팩토리 포트폴리오에 속한 제품으로, 대규모 AI 구축 환경의 거대언어모델(LLM) 학습 및 실시간 추론을 위한 고성능의 고집적 가속 컴퓨팅을 제공한다. 또 엔비디아의 차세대 '블랙웰' 아키텍처 기반인 'GB200 NV L72'를 탑재해 우수한 그래픽처리장치(GPU) 집적도를 보여준다.
이 플랫폼은 랙 스케일 설계에서 최대 36개의 엔비디아 그레이스 CPU(NVIDIA Grace CPU)와 72개의 엔비디아 블랙웰 GPU(NVIDIA Blackwell GPU) 연결을 지원한다. 72개의 GPU NV링크(NVLink) 도메인은 최대 30배 빠른 실시간 1조 개 파라미터 LLM 추론이 가능한 단일 GPU로서 구동된다. 수랭식 엔비디아 GB200 NVL72는 공랭식 엔비디아 'H100' 시스템 보다 최대 25배 더 효율적이다.
이번 출하와 관련해 마이클 델 델 최고경영자(CEO)는 지난 19일 "엔비디아 블랙웰 시리즈의 GB200 AI 가속기 플랫폼을 탑재한 서버가 운송을 시작했다"며 "수랭식 서버를 통해 공급될 것"이라고 설명했다.
경쟁사인 슈퍼마이크로 역시 최근 엔비디아 '블랙웰'을 탑재한 'HGX B200 8GPU' 시스템을 고객사에 공급 중인 것으로 파악됐다. 이 제품은 수냉식의 냉각 효율성을 바탕으로 기존 슈퍼클러스터보다 GPU 컴퓨팅 집적도를 향상시켰다. 또 열 관리와 전력 공급이 향상됐으며 듀얼 500W 인텔 제온6(8천800MT/s DDR5 MRDIMM 포함), AMD 에픽 9005 시리즈 프로세서를 지원한다. 새롭게 설계된 공냉식 10U 폼 팩터는 열전도 헤드룸이 확장돼 1천 W TDP 블랙웰 GPU 8개를 수용할 수 있다.
다만 엔비디아가 최근 슈퍼마이크로와 거리두기에 나선 것으로 알려져 향후 제품 출하가 계획대로 되지 않을 가능성도 제기됐다. 엔비디아가 '블랙웰'의 공급이 부족한 상황에서 슈퍼마이크로 대신 다른 업체에게 물량을 공급하고 있다는 주장이 나오고 있어서다. 디지타임즈에 따르면 엔비디아는 슈퍼마이크로의 여러 문제에 휘말리고 싶지 않아 이처럼 결정 내린 것으로 알려졌다.
하지만 슈퍼마이크로는 엔비디아와의 협업에 문제가 없다는 입장이다. 찰스 리앙(Charles Liang) 슈퍼마이크로 사장 겸 최고경영자(CEO)는 "세계 최대 규모의 수랭식 AI 데이터센터 프로젝트에 기여할 수 있는 전문성, 배포 속도, 배송 역량을 지니고 있다"며 "최근 엔비디아와 GPU 10만 개 규모의 AI 데이터센터도 성공적으로 구축했다"고 강조했다.
직접 서버를 만들어 판매하는 ODM 업체들도 일정 차질 없이 '블랙웰'을 탑재한 서버 공급을 진행할 예정이다. 대표적인 ODM 업체인 대만 폭스콘은 4분기에 소량 공급을 시작한 후 내년 1분기에 생산량을 확대할 계획이다. 콴타도 내년 1분기부터 대량 생산을 개시할 예정이다.
대만 경제일보는 "(블랙웰에 대한) 우려와 달리 서버업체들은 발열 문제에 대해 들어본 적이 없다고 전했다"며 "폭스콘과 콴타 모두 공급 계획에 차질이 없을 것이라고 밝혔다"고 보도했다.
HPE도 블랙웰의 발열 문제를 크게 신경쓰지 않는 분위기다. 이 회사는 지난 17일부터 22일까지 미국 애틀란타주에서 열린 '슈퍼컴퓨팅 2024(SC 2024) 콘퍼런스'에서 블랙웰이 탑재된 'HPE 프로라이언트 컴퓨트 XD685' 서버를 공개하며 제품 출시가 임박했음을 알렸다.
이처럼 서버업체들이 '블랙웰'의 발열 문제에 크게 신경쓰지 않는 것은 엔비디아가 일찌감치 이를 예고해 대비했기 때문으로 분석된다. 앞서 젠슨 황 엔비디아 CEO는 "차기 GPU인 '블랙웰'부터는 데이터센터에 수랭식을 도입하기 바란다"고 밝힌 바 있다.
또 엔비디아가 설계 결함을 발견한 후 빠르게 해결책을 마련해 제품 공급에 나선 것도 주효한 것으로 보인다. 덕분에 엔비디아는 올 4분기 '블랙웰' 매출이 당초 예상인 50~60억 달러를 넘어설 것으로 전망됐다.
관련기사
- ‘나스닥 퇴출 위기’ 슈퍼마이크로, 새 감사인 지정2024.11.19
- 델 테크놀로지스, 新 인프라·서비스 공개…AI 팩토리 '확대'2024.11.19
- 엔비디아 '블랙웰'에 또 문제?…빅테크, AI 기술 고도화 '타격'2024.11.18
- [유미's 픽] "美 217분의 1수준"…투자 뒷받침 안되는 韓, 'AI 3대 강국' 꿈 멀어진다2024.07.10
젠슨 황 CEO는 "블랙웰 수요가 공급을 여전히 초과하는 현상이 이어지고 있으며 이를 충족하기 위해 노력 중"이라며 "올 4분기에 과거 예상보다 더 많은 블랙웰 GPU를 공급할 수 있을 것으로 기대한다"고 밝혔다.
이어 "모든 업체가 블랙웰 GPU를 원하는 상황"이라며 "TSMC와 몰렉스(커넥터 제조사), SK하이닉스와 마이크론, 폭스콘과 콴타, 델테크놀로지스와 HPE, 슈퍼마이크로 등 공급망 관련 모든 업체와 협력해 수요에 대응하고 있다"고 덧붙였다.