AMD, 10테라플롭스급 GPU 가속기 ‘인스팅트 MI100’ 출시

컴퓨팅입력 :2020/11/17 09:51    수정: 2020/11/17 10:07

AMD는 온라인으로 진행된 SC20  행사에서 ROCm 4.0 개방형 에코시스템를 지원하고 10테라플롭스(Tflops) 연산속도를 제공하는 GPU 가속기 AMD 인스팅트 MI100을 17일 발표했다.

AMD는 이와 함께 EPYC 프로세서 및 인스팅트 액셀러레이터를 도입한 파트너사 확장을 발표하고, 클라우드 기반 HPC 플랫폼 조성을 위한 마이크로소프트 애저와 협업을 설명했다. AMD는 ‘젠 3’ 코어 기반 3세대 EPYC 프로세서의 내년 1분기 공식 출시를 앞두고 HPC 및 클라우드 고객사에 사전 공급할 예정이다.

새로운 AMD 인스팅트 M100 액셀러레이터는10테라플롭스(FP64)의 성능 장벽을 뛰어넘은 HPC GPU 액셀러레이터다. 새로운 AMD CDNA 아키텍처를 기반으로 개발된 인스팅트 MI100 GPU는 2세대 AMD EPYC 프로세서와 함께 HPC 및 AI를 위한 새로운 수준의 가속 시스템을 가능하게 한다.

AMD 인스팅트 MI100 GPU와 EPYC 프로세서

HPC 워크로드에서 최대 FP64 성능과 23.1테라플롭스의 최대 FP32 성능을 지원한다. FP32, FP16, bFloat16, Int8, Int4 등 모든 범위의 단일 및 혼합 정밀 매트릭스 연산을 위해 개발된 매트릭스 코어 기술로, HPC와 AI의 융합을 촉진한다. 2세대 AMD 인피니티 패브릭 기술은 최대 2배 높은 PCIe® 4.0 이상의 P2P 최대 I/O 대역폭과 GPU당 초당 최대 340GB의 통합 대역폭을 지원한다. 서버 내에서 MI100 GPU는 최대 두 개의 연결된 쿼드 GPU 하이브를 구성할 수 있으며, 초당 552GB의 P2P I/O 대역폭으로 빠른 데이터 공유를 지원한다.

32GB의 고대역폭 HBM2 메모리를 통해 1.2GHz의 클럭 속도와 초당 1.23GB의 초고대역 메모리 대역폭으로 대용량의 데이터를 지원하고 메모리에 데이터를 저장하고 추출하는 과정에서 발생하는 병목현상을 해결하는 데 도움을 준다.

최신 PCIe 4.0 기술 적용으로 CPU와 GPU 간 초당 최대 64GB의 최고 이론 데이터 전송 대역폭을 지원한다.

AMD 인스팅트 MI100 GPU

MI100은 델, HPE, 기가바이트, 슈퍼마이크로의 가속 컴퓨팅 플랫폼을 지원한다. AMD는 EPYC CPU 및 ROCm 4.0 소프트웨어와 결합해 새로운 엑사스케일 시대를 열었다고 강조했다.

마이크로소프트 애저는 2세대 AMD EPYC 프로세서로 HPC 워크로드용 HBv2 가상머신(VM)을 구동한다. HBv2 가상 머신은 1세대 HB 시리즈 대비 최대 2배 높은 성능을 제공하며, MPI 작업에 최대 8만개의 코어를 지원한다. 동급 x86 제품 대비2세대 AMD EPYC 프로세서의 메모리 대역폭을 최대 45% 더 활용할 수 있다.

HBv2 가상 머신은 일리노이 대학교 어바나-샴페인 베크만 첨단과학기술연구소등 여러 곳에서 사용된다. 베크만 연구소는 이전 최고 성능의 슈퍼컴퓨터가 필요했던 식물 바이러스 모델링을 86,400개의 코어를 사용한 HBv2 가상 머신으로 대체했다. 정확한 날씨 및 해양 패턴 예측 필요성을 느낀 미 해군 역시 신속하게 가상 머신을 설치했다. 2세대 AMD EPYC 프로세서 기반의 HBv2가상 머신은 마이크로소프트가 올해 초 발표한  오픈AI 환경을  지원한다.

AMD EPYC 프로세서는 NAMD 기반 클라우드 MPI 확장 신기록 갱신, 그래프500의 상위 20 기록, 최초의 초당 1테라바이트 클라우드 HPC 병렬 파일 시스템 등 HBv2의 새로운 클라우드 HPC 기록 수립을 지원해왔다. 기타 애플리케이션 벤치마크에서도 HBv2는 퍼블릭 클라우드에서 12배 높은 확장성을 제공했다.

마이크로소프트는 2세대 AMD EPYC 프로세서 기반 기존 HBv2 HPC 가상머신에 더해, 차세대 AMD EPYC 프로세서(코드명 밀란) 역시 HPC용 HB 시리즈 가상머신에 사용할 것이라고 밝혔다.

AMD 인스팅트 MI100

AMD EPYC 프로세서 및 인스팅트 액셀러레이터는 다양한 HPC 워크로드를 위한 성능과 기능을 제공한다. AMD는 연구 센터의 소규모 클러스터에서 상용 HPC, 사내외 클라우드, 그리고 엑사스케일 컴퓨팅까지 HPC 솔루션을 위한 성능과 옵션을 지속적으로 지원한다.

HPE, CSC 핀란드 및 유로HPC는 최근 새로운 프리-엑사스케일 시스템 LUMI를 도입했다. HPE 크레이 EX 슈퍼컴퓨터 아키텍처를 기반으로 하는 LUMI는 차세대 AMD EPYC CPU와 인스팅트 액셀러레이터를 사용하며, 2021년까지 최대 552 페타플롭스(petaflops)의 성능을 자랑하는 세계에서 가장 빠른 슈퍼컴퓨터가 될 것으로 예상된다.

LUMI 이외에도 AMD 기반 HPC 시스템은 계속 증가할 예정이다. SC19 이후 개별 AMD EPYC CPU, 인스팅트 GPU 또는 모두를 사용하는 슈퍼컴퓨팅 시스템이 15개 이상 발표됐다.

엑사스케일 시대를 대비하기 위해, AMD는 오크릿지 국립 연구소에 향상된 컴퓨팅과 인터커넥트 성능을 제공하는 새로운 AMD 인스팅트 MI100 액셀러레이터를 지원했다. 인스팅트 MI100 액셀러레이터는 새로운 수준의 가속 시스템으로 HPC와 AI를 위한 진정한 이기종 컴퓨팅 기능을 지원한다. AMD 인스팅트 MI100 액셀러레이터는 2세대 AMD EPYC 프로세서를 보완하도록 설계되었으며, AMD 인피니티 아키텍처를 기반으로 한다.

오크릿지 컴퓨팅 연구소 과학 부문 소장 브론슨 메서(Bronson Messer)는 "AMD 프론티어는 오늘날의 시스템 대비 크게 향상된 컴퓨팅 파워를 보여준다”며 "몇 십억 개의 원자를 확인 가능한 분자 시뮬레이션을 실행할 수 있어 과학 연구를 보다 사실적으로 표현할 수 있게 되었으며, 과학자들이 이전에는 몰랐던 질문에 답할 수 있게 됐다"고 말했다.

관련기사

AMD는 연구 기관 지원, 자동차 제조업체의 공기역학 효율성 향상, 의료 혁신에 대한 통찰력 제공 등 다방면에 HPC 워크로드에 필요한 성능, 기능 및 확장성을 지속적으로 제공하고 있다.

포레스트 노로드 AMD 데이터센터 및 임베디드 솔루션 비즈니스 그룹 총괄 수석 부사장은 "HPC에서 동일한 고객은 없으며, AMD는 소규모의 자체 클러스터에서 클라우드 가상 머신 그리고 엑사스케일 슈퍼컴퓨터까지 모든 HPC 작업에 최첨단 기술과 기능을 제공한다"며 “AMD EPYC 프로세서와 인스팅트 액셀러레이터를 필수 애플리케이션 소프트웨어 및 개발 툴과 결합해 최고의 HPC 워크로드 성능을 전달할 것"이라고 강조했다.