아마존웹서비스(AWS)가 지난주 연례 컨퍼런스에서 자체 개발한 데이터센터 하드웨어를 이례적으로 공개해 IT업계를 놀라게 했다. ASIC부터 네트워크 장비, 스토리지, 서버 등에 이르기까지 다양한 역량을 과시하며, 시스코 같은 기존 장비업체를 긴장시켰다.
AWS는 지난달 30일(현지시간) 미국 라스베이거스에서’AWS 리인벤트 2016’ 컨퍼런스 전날 내부에서 개발해 사용중인 데이터센터 네트워크를 위한 하드웨어를 공개했다.
제임스 해밀턴 아마존 부사장은 자체 개발한 커스텀 실리콘 ‘안나푸르나 ASIC’ 칩과 25기가비트이더넷(GbE) 네트워크 아키텍처를 소개했다.
아마존의 ASIC은 AWS 서버에 탑재돼 물리적 네트워킹 환경과 소프트웨어정의네트워킹(SDN) 환경을 제어한다. 네트워킹 관련 연산을 서버 CPU에서 ASIC로 옮겨 실행함으로써, CPU의 작업 부하를 줄여준다. 이 ASIC은 AWS의 네트워킹 장비에도 투입된다.
제임스 해밀턴은 안나푸르나 ASIC 전에 개발한 첫번째 커스텀 칩을 선보였다. 브로드컴 토마호크를 이용해 개발한 첫번째 커스텀 칩은 78개 트랜지스터를 내장했다. 25GbE 128포트를 지원하고, 310와트 미만의 전력을 소모한다. 카비움, 멜라녹스, 브로드컴, 이노비움, 베어풋, 마벨 등에서 생산했다고 한다.
올해 개발된 2세대 커스텀 칩인 안나푸르나의 경우 더 넓은 대역폭을 제공하며, 아마존웹서비스 인스턴스 당 20GbE의 대역폭을 제공할 수 있다. 그는 안나푸르나를 통해 AWS가 네트워크 환경에 대한 실리콘, 하드웨어, 소프트웨어 등의 완벽한 제어력을 갖게 됐다고 설명했다.
1세대 칩과 2세대 칩은 AWS의 전체 네트워킹 환경에 사용되고 있다.
이날 세부적으로 소개된 건 AWS 커스텀 라우터다. 제임스 해밀턴은네트워킹 전문벤더의 상용제품의 경우 복잡하고, 변경하기 어려우며, 비싸고, 문제해결에 6개월 이상 걸리는 문제점을 갖고 있다고 지적했다.
직접 제작한 라우터의 경우 AWS와 아마존닷컴의 요구사항을 쉽게 수용가능하게 제작됐다. 광전송 인터페이스를 포함한 네트워크 인터페이스는 일반적인 데이터센터 환경과 달리 25GbE을 쓴다. 그는 10GbE 4개를 묶어 40GbE을 구성하는데, 25GbE의 경우 2개면 50GbE을 구성할 수 있다며, 훨씬 효율적이라고 강조했다.
그는 "AWS는 EC2를 시작한 이래 줄곧 소프트웨어정의네트워킹(SDN) 기반이었다"며 "2012년 하드웨어를 커스텀 10기가비트 NIC으로 바꿨고, 커스텀 프로세서가 AWS 소프트웨어와 함께 작동하게 함으로써, 더 낮은 지연시간과 효율적인 네트워크를 구성하게 됐다"고 설명했다.
AWS의 네트워킹은 SR-IOV 기술을 활용하고 있다고 한다. 레이턴시는 80마이크로초 미만이다.
그는 지난 8월 발생한 델타항공의 전산장애 사례를 설명했다. 델타항공은 지난 8월 전산시스템 장애로 3일간 항공편 결항이 이어졌다. 사건 발생 당일 1천대 항공편이 취소됐고, 다음날 775대 항공편이 취소됐다. 셋째날에도 90대의 항공편이 취소됐다. 이에 델타항공은 3일만에 1억달러의 매출손실을 입었는데, 이는 회사의 월매출 2%에 해당하는 액수였다.
제임스 해밀턴은 당시 사고의 원인이 네트워크 장비의 장애였다고 설명했다. 화재로 인해 네트워크 장비로 전력공급이 중단됐고, 예비발전기까지 꺼져 복구에 실패했다고 지적했다. 데이터센터 장애는 5~10분 동안 전면중단됐는데, 그 피해는 막대했다.
그는 "AWS의 네트워크 펌웨어는 워크로드의 전면 장애를 보호한다"며 "만약 장애가 AWS 외부에서 일어난다면 전체 시설의 지속성이 유지될 것이고, AWS 내부에서 발생하는 장애라면, 브랜치만 차단되고, 전체 설비의 워크로드 장애를 방지한다"고 설명했다.
그는 자체적으로 개발한 스토리지 하드웨어의 새로운 디자인도 소개했다.
2014년 처음 공개됐던 AWS 스토리지는 42U 크기의 랙당 880개의 디스크를 수용할 수 있었는데, 새로운 디자인은 1천110개 디스크를 수용할 수 있다.
맨처음 디자인은 랙당 8.8페타바이트를 저장할 수 있었는데, 새로운 디자인은 랙당 11페타바이트를 저장할 수 있다. 이 스토리지는 이미 AWS 실제 서비스에 사용되고 있다.
그는 마지막으로 자체 제작한 서버를 소개했다. 1U 크기의 서버로 상용 제품보다 집적도와 에너지효율성이 더 뛰어나다고 한다. 그는 서버회사의 OEM 제품보다 3~5배 더 높은 집적도라고 설명했다. 집적도 대비 열순환 효율이 더 좋다고 덧붙였다. 그는 전력 효율성 1%만 개선해도 어마어마한 에너지를 절약할 수 있다고 강조했다.
관련기사
- AWS가 전통IT업계에 던진 폭탄들2016.12.11
- AWS "IoT기기 통신 끊겨도 IoT서비스 OK"2016.12.11
- AWS, 7개의 신규 EC2 서비스 출시2016.12.11
- 페이스북, 100G 네트워크 스위치 '백팩' 공개2016.12.11
그에 따르면, AWS는 전세계에 14개의 리전을 운영하고 있다. 내년 4개를 추가해 18개로 확대된다. 클라우드프론트 팝은 68개이며, 각 리전 및 클라우드프론트 팝은 100GbE 네트워크로 촘촘하게 연결돼 있다.
각 리전은 가용성존(AZ)으로 구분되는데, AZ는 기본 2곳 이상의 데이터센터로 이뤄진다. 거대한 AZ의 경우 8개 데이터센터로 구성된다고도 한다. 각 AZ는 건물당 약 30만대의 서버를 갖고 있다.