MS, '블랙웰' 적용한 애저 ND GB200 V6 공개..."역대급 성능"

[이그나이트 2024] 인피니밴드 네트워킹 활용 GPU 수 만개 연결 지원

컴퓨팅입력 :2024/11/20 09:30

마이크로소프트가 엔비디아의 차세대 그래픽처리장치(GPU) 블랙웰 GB200을 도입한 인공지능(AI) 인프라를 공개했다. 수만 개의 블랙웰 GPU를 연결해 역대 최대 성능의 컴퓨팅 환경을 구축하는 것도 가능하다.

사티아 나델라 마이크로소프트 최고경영자(CEO)는 20일 미국 시애틀에서 개최한 연례 개발자 컨퍼런스 '마이크로소프트 이그나이트 2024'에서 애저 ND GB200 V6을 선보였다.

애저 ND GB200 V6 VM 시리즈는 최첨단 AI 모델을 활용해 대규모 데이터를 보다 빠르고 효율적으로 훈련시켜 비즈니스 성과를 확대하고 AI 경쟁 우위를 점하기 위해 개발된 AI전용 서버다. 두 개의 GB200 그레이스 블랙웨 슈퍼칩을 갖춘 블랙웰 전용으로 제작됐다.

엔비디아 블랙웰을 도입한 애저 ND GB200 V6를 소개하는 사티아 나델라 CEO(이미지=마이크로소프트)

각 GB200 슈퍼칩은 엔비디아 NV링크-C2C 인터페이스를 통해 두 개의 블랙웰 GPU와 그레이스 CPU를 연결한다. NV링크-C2C를 통해 애플리케이션은 통합 메모리 공간에 대한 고속의 일관된 액세스를 통해 프로그래밍을 간소화하고 1조 규모의 매개변수를 갖춘 대용량 언어 모델(LLM)을 처리할 수 있는 고속 메모리를 갖췄다.

ND GB200 v6는 이전 세대 인프라 대비 성능, 네트워킹, 보안 면에서 대규모 개선이 이뤄지며 AI 및 머신러닝 관련 워크로드에서 최대 2배 이상의 처리 속도가 향상됐다. 또 민감 데이터를 주로 사용하는 의료, 금융, 국방 등의 분야에 맞춰 데이터 보안 기능이 강화됐다.

사티아 나델라 CEO는 "애저 ND GB200 V6는 최신 대규모 AI 모델의 학습 및 추론 기능을 대폭 가속화한다"며 "클라우드에서 AI 슈퍼컴퓨팅 성능과 확장성에 대한 새로운 표준을 제공할 것"이라고 강조했다.

마이크로소프트에서 AMD와 공동으로 개발한 HBv5 VM를 소개하는 사티아 나델라 CEO(이미지=마이크로소프트)

현장에서는 AMD와 공동 개발한 애저 HBv5 가상머신(HBv5 VM)도 공개했다. AMD 에픽(EPYC) 9V64H 프로세서 기반으로 높은 성능과 비용 효율성을 지원하는 것을 목표로 개발됐다.

특히 애저 클라우드 환경에서 최적화된 HBv5 VM은 타 베어메탈이나 클라우드에 비해 최대 8배 더 높은 성능을 제공하며 온프레미스 시스템의 경우 최대 35배 더 빠른 속도를 지원한다.

또 기존 AMD 에픽 플랫폼 프로세서에 비해 2배 더 많은 CPU를 탑재했으며, 모든 CPU에 엔비디아 인피니밴드 네트워킹을 적용해 기상 모델링, 자동차 및 항공 우주 시뮬레이션 등 수만 개 이상의 GPU 성능을 요구하는 서비스도 안정적으로 수행할 수 있는 환경을 갖췄다.

사티아 나델라 CEO는 "이러한 성능 향상은 고대역폭 메모리(HBM)와 고성능 젠(Zen)4 코어, AMD 에픽 프로세서 플랫폼과 엔비디아 인피니디 밴드 네트워킹 기술을 통해 실현됐다"며 "오늘 공개한 서버 인프라는 내년 정식으로 출시될 것"이라고 설명했다.

이어 마이크로소프트에서 직접 개발한 애저 마이아(Maia)와 콜뱃(Cobalt)도 선보였다. 마이아는 애저 클라우드 환경에서 대규모 AI 워크로드를 위해 특별히 설계된 마이크로소프트의 1세대 맞춤형 AI 가속기다. 콜뱃은 Arm 기반 프로세서로 전력 소비를 40% 줄이는 등 비용 및 에너지 효율적인 서비스에 특화됐다.

사티아 나델라 CEO는 "마야는 현재 동부 지역에서 애저 오픈AI 추론을 담당하고 있다"며 "우리가 구축한 가장 영향력 있는 서비스 중 하나를 마야에서 모두 처리하고 있다는 것에 기쁘게 생각한다"고 밝혔다.

데이터센터 보호를 위한 하드웨어 보안 모듈(HSM)을 소개 중인 사티아 나델라 CEO(이미지=마이크로소프트)

고성능 AI 인프라와 함께 마이크로소프트는 이를 보호하기 위한 하드웨어 인프라도 함께 선보였다. 하드웨어 보안 모듈(HSM)은 사내 클라우드 보안 칩으로 암호화 및 키 서명을 관리하는 전용 하드웨어다. 전 세계 애저 데이터 센터 하드웨어에 적용돼 외부 접근 차단하고 위협을 사전에 방지한다.

관련기사

또 애저부트DPU(ADP)는 내부 데이터 처리 장치(DPU)로 클라우드 인프라를 위한 스토리지, 네트워킹, 가속 등 전반에 걸쳐 발생하는 부하를 방지하고 병목 현상을 완화해 클라우드 스토리지 워크로드의 전력을 3분의 1 수준으로 낮추고 성능을 최대 4배 향상시킨다.

사티아 나델라 CEO는 "우리는 비용대비 성능을 극대화하고 가장 효율적인 방식으로 업무를 수행할 수 있는 환경을 마련하는 것에 주력하고 있다"며 "업계의 혁신 속도는 경이로운 수준으로 이를 뒷받침하기 위해서 많은 파트너사와 적극적으로 협력하고 있다"고 강조했다