아마존 클라우드 서비스 EC2가 장애를 일으켰다. 최대 11시간까지 징가 등 해당 데이터센터를 사용하는 웹서비스들이 정상적으로 돌아가지 않는 사고를 겪었다.
월스트리트저널(WSJ) 등 외신들은 21일(현지시간) 아마존웹서비스(AWS)를 운영하는 미국 버지니아주 북부 데이터센터 전체가 다운돼 넷플릭스, 포스퀘어, 레딧, 퀘라 등이 오류를 일으키거나 중단됐다고 보도했다.
장애 원인은 명확히 밝혀지지 않았다. 아마존 측은 원인을 찾고 있다면서, 엘라스틱블록스토어(EBS)의 미러링 문제 때문인 것으로 추정된다고 설명했다. 미러링 과정에서 용량 부족 현상이 발생하면서 시스템 다운을 일으켰다는 것이다.
장애가 처음 발생한 시점은 미국 기준으로 당일 오후 6시부터였고 다음날 오전 9시쯤 수습됐다. 사고를 당한 사이트중 가장 오래 장애가 지속된 경우 11시간가량 서비스가 불통된 것으로 알려졌다. AWS의 EC2를 비롯한 클라우드 서비스는 인프라 장애가 발생하면 가용할 수 있는 백업 자원으로 곧바로 대체하게 된다. 그러나 이번 사태로 가용자원의 대체 작업이 원활치 않다는 점이 드러났다.
관련기사
- 아마존, 클라우드 영화 서비스 진출2011.04.22
- 아마존 클라우드, 세이프넷 보안솔루션 도입2011.04.22
- 아마존 클라우드, 일본 상륙…아시아 정조준2011.04.22
- 아마존, 영화·TV쇼 스트리밍 판매2011.04.22
미국 지디넷 보도에 따르면 버지니아주에 자리한 아마존 데이터센터와 그 '가용성존'을 잇는 네트워크가 제대로 작동하지 않아 벌어진 문제로 추정된다.
가용성존이란 특정 지역을 담당하는 데이터센터 한 곳이 장애를 겪을 때 이를 고치는 동안 원래 데이터센터를 보조하는 다른 시스템을 가리킨다. 원래 데이터센터가 돌아가던 서비스와 애플리케이션들의 상태를 옮겨와야 하기 때문에 이를 연결하는 네트워크는 매우 중요한 인프라에 속한다.