AWS는 성능향상과 비용 절감을 어떻게 함께 달성하는가

하드웨어, 소프트웨어, 아키텍처 등 성능 개선 위해 총체적 노력

컴퓨팅입력 :2022/11/29 16:37    수정: 2022/11/29 16:43

[라스베이거스(미국)=김우용 기자] 아마존웹서비스(AWS)는 창업 이래로 쉬지 않고 성능을 높이면서 사용료를 낮춰왔다. 새로운 하드웨어, 소프트웨어, 도구 등이 매년 쉬지도 않고 쏟아진다.

피터 데산티스 AWS 유틸리티컴퓨팅 수석부사장은 28일(현지시간) 개막한 'AWS 리인벤트 2022' 첫날 저녁 진행된 '먼데이나이트라이브' 기조연설에서 자사의 컴퓨팅 성능 개선 성과와 신규 서비스를 소개했다.

피터 데산티스 수석부사장은 "AWS는 보안에 타협하지 않고, 비용도 낮추면서, 컴퓨팅 성능을 개선해왔다"며 "클라우드의 여러 장점은 매뉴얼에 나오지 않는 장기 투자에서 나온다"고 강조했다.

피터 데산티스 AWS 유틸리티컴퓨팅 수석부사장

AWS가 클라우드 서비스의 기본적인 성능을 높이는 방법은 총체적이다. 하드웨어, 소프트웨어, 프로토콜, 아키텍처, 프레임워크, 알고리즘 등 다양한 방면으로 이뤄진다.

이날 피터 데산티스 수석부사장은 하드웨어 개선부터 강연을 열었다.

올해 리인벤트2022에서 AWS EC2 환경 전용 가상화 환경인 '니트로'의 5번째 버전이 공개됐다.

니트로는 AWS에서 직접 설계한 특수 제작 프로세서 '니트로' 칩셋에 기반한다. 보안을 강화했고, 스토리지 암호화 등을 제공한다.

니트로 V5는 이전 세대보다 2배 많은 트랜지스터를 구동하며, 50배 빠른 메모리 접근, 초당 60% 향상된 패킷처리성능, 30% 낮은 전력소비량, 와트당 성능 40% 증가 등의 개선점을 가졌다.

니트로5를 탑재하는 신규 EC2 인스턴스로 'C7gn 인스턴스'가 출시됐다. C7gn 인스턴스는 그래비톤3 ARM 아키텍처 칩셋을 기반으로 네트워크 대역폭 200Gbps를 지원해 패킷 처리 성능을 50% 높였다. 그래비톤3는 x86 아키텍처 대비 60% 높은 와트당 성능을 제공하고, 그래비톤2 대비 25% 빠른 성능을 제공한다.

고성능컴퓨팅(HPC) 전용으로 개발된 '그래비톤 3E' 프로세서도 공개됐다. 부동소수점 연산과 백터 연산을 수행하는데 최적화된 프로세서로, HPL 성능이 35% 증가했다. 분자역학모델 연산 성능은 12%, 금융 옵션 가격 연산 성능은 30% 개선됐다.

그래비톤3E 프로세서는 'EC2 HPC7g 인스턴스'를 통해 이용할 수 있다. HPC7g 인스턴스는 에너지 효율성과 성능은 높이면서, 가격은 낮추고, 성능은 개선했다.

소프트웨어 측면으로는 네트워킹 관련 기술이 주로 공개됐다.

엘라스틱 패브릭 어댑터(EFA)는 니트로 컨트롤러와 직접 작동하도록 설계돼 네트워크 지연시간을 줄이고, 성능을 높이는 기술이다. AWS는 EFA를 HPC와 머신러닝 프레임워크에서 사용할 수 있도록 인텔, 엔비디아 등의 소프트웨어 스택에 통합해 제공한다.

피터 데산티스 수석부사장은 AWS의 다중 경로 데이터센터 네트워크 구조에서 전통적인 TCP 기술의 근본적 한계를 제거하는 전용 네트워킹 프로토콜 '스케일러블 릴라이어블 데이터그램(SRD)'을 소개했다.

TCP는 패킷 손실 없이 전송하기 위해 하나의 네트워크 경로로 모든 패킷을 보낸다. 다중 경로 데이터센터 네트워킹 환경에서 TCP는 수많은 경로 중 하나만 활용하므로, 이용 경로 중간의 장애 발생 시 지연시간 증가와 성능 저하 등의 문제를 유발할 수 있다.

SRD는 여러 경로로 패킷을 쪼개 전송한다. 이용하던 경로에 장애가 있다면 마이크로초 속도로 재송출을 하게 만들어졌다.

AWS 최적화 네트워크로 개발된 SRD의 이점은 일반 고객에게도 제공된다. 내년초 AWS의 블록스토리지 서비스인 아마존 EBS io2 볼륨에서 SRD를 이용할 수 있게 된다. EBS의 지연시간이 SRD를 활용하면 90% 줄어들 수 있고, 스루풋 성능은 4배 향상된다.

TCP 환경에서 활용되는 '엘라스틱 네트워크 어댑터(ENA)'에 SRD를 접목한  'ENA 익스프레스'가 출시됐다. ENA 익스프레스를 활용해 저지연시간을 중시하는 애플리케이션에서 '엘라스틱캐시' 읽기 지연시간이 44% 개선된다.

머신러닝 부분의 개선도 소개됐다. 머신러닝 모델의 훈련 과정에서 발생하는 컴퓨팅의 병목 현상을 해소할 수 있는 여러 아이디어가 구현됐다.

머신러닝 전용 하드웨어인 'trn 1(트레이니엄)'에서 부동소수점 연산 크기를 16비트와 32비트를 상황에 맞게 혼용하는 '믹스드 프리시전'에 성능을 한층 더 높이는 '스토카스틱 라운딩' 기법이 활용된다. 이는 고정된 비트 연산 환경보다 63% 높은 성능을 보일 수 있다.

데산티스 수석부사장은 서버리스 컴퓨팅 서비스인 'AWS 람다'의 성능 개선 노력도 소개했다. AWS 람다는 여러 사용자에게 격리된 캐시 슬롯을 제공해 보안을 보장하는데, 하드웨어의 캐시 슬롯을 모두 사용하는 가운데 새로운 슬롯을 할당해야 할 경우 기존 슬롯을 삭제하므로 시간 지연을 일으킬 수 있다.

AWS는 이런 콜드스타트에 따른 지연을 줄이기 위해 일단 전용 마이크로VM인 '파이어크래커'를 사용한다. 파이어크래커는 캐시 슬롯을 가상화해 더 잘게 공간을 쪼갤 수 있다. 올해는 캐시 슬롯을 재할당하는 콜드스타트를 줄이기 위해 '초기화(initialization)' 과정의 공통 부분을 스냅샷 형태로 저장했다가 필요한 경우 바로 활용하는 'AWS 람다 스냅스타트'를 공개했다.

관련기사

AWS 람다 스냅스타트는 마이크로VM 부팅부터 초기화 단계까지 반복작업을 없애 콜드스타트의 지연시간을 90% 줄인다. 자칫 한 캐시 슬롯의 권한탈취가 발생할 경우 모든 슬롯의 권한탈취를 야기할 수 있으므로, 스냅샷의 암호화 키는 달리한다. AWS 람다 스냅스타트는 미국 동부와 서부 일부, 아시아태평양 리전 일부, 유럽 리전 일부에서 사용가능하다. 별도 비용은 없다.

피터 데산티스 수석부사장은 "AWS의 성능 개선 작업은 끝나지 않는다"며 "AWS는 항상 혁신하면서 가장 저렴하게, 보안을 손상시키지 않으며 높은 성능을 제공하려 맞춤형 실리콘, 니트로, EC2 인스턴스, 서버리스 모든 부분에서 한계를 계속 성장시키고 있다"고 강조했다.