대표적인 클라우드 서비스 아마존웹서비스와 세일즈포스닷컴이 장애를 일으켰다. 인스타그램 등 인터넷 서비스들은 속수무책으로 연쇄적인 장애사태를 겪었다. 계속되는 대표 클라우드 서비스의 장애로 신뢰도에 금이 커지는 모습이다.
29일 버지니아 지역을 강타한 폭풍우로 아마존웹서비스의 동부 데이터센터가 정전사태를 맞았다. 이에 인스타그램을 비롯해, 넷플릭스, 핀터레스트, 헤로쿠 등의 서비스가 중단됐다.
아마존은 대시보드를 통해 EC2 서비스가 30일 오후 8시 21분부터 다시 연결됐다고 밝혔다. 전날인 29일 오후 8시40분까지 아마존은 단일 가용성존에서 구동됐던 수많은 인스턴스가 폭풍에 의한 정전 영향을 받았다고 설명했다. 전원은 9분 후 복구됐고, 영향을 받은 인스턴스를 복구하고, 데이터 볼륨을 업데이트하는 작업을 진행했다.
29일 오후 11시 19분 EC2 인스턴스의 절반과 데이터 볼륨 3분의1 정도가 복구됐다. 하지만 일레스틱 로드밸런서와 일레스틱 블록 스토리지가 또 다시 문제를 일으켰다. 이 서비스들은 복구작업이 지연됐다. 30일 오전 10시25분 아마존은 EC2 인스턴스의 대부분을 복구했지만, EBS 디스크 볼륨은 복구작업이 더뎌지고 있다고 밝혔다. 하지만 곧 일부 고객의 EBS 볼륨이 복구됐고, 로드밸런싱은 정상화됐다.
지난달 16일에도 AWS는 전력 문제로 서비스 장애를 일으켰다. 드롭박스, 핀터레스트, 헤로쿠, 힙챗, 쿼라 등의 인터넷 서비스가 중단됐다. 미국 노스버지니아 데이터센터가 또 문제를 일으켰다.
클라우드 기반 소프트웨어를 제공해온 세일즈포스닷컴도 27일 장애를 일으켰다. NA2 서비스가 스토리지 저장 실패를 보이며 중단됐고, 북미와 유럽 지역 서비스의 성능저하를 나타냈다.
트위터엔 세일즈포스닷컴의 장애가 7시간동안 지속됐다는 불만이 속출했다.
세일즈포스닷컴의 대시보드는 NA2가 오전 3시34분(PDT)부터 장애를 일으켰다. 대시보드의 오전 7시34분(PDT) 글에는 NA3와 EU0 성능 저하란 제목으로, 회사측이 해당 지역에 문제해결을 위해 작업중이란 글이 올라왔다. 7시간 뒤에나 문제를 해결했다는 공지가 올라왔다.
이 회사의 기술팀은 스토리지 티어가 문제를 일으켰다고 설명했다. 이어 스토리지 공급업체와 함께 문제를 해결하기 위해 작업했고, 유럽과 북미 지역 서비스 장애도 해결했다고 밝혔다.
하지만 세일즈포스의 해명에도 불구 고객들의 불만은 이어졌다. 계속해서 세일즈포스 애플리케이션을 사용할 수 없다는 불만이었다.
관련기사
- 아마존 클라우드, 1년만에 또 장애2012.07.01
- ‘오라클 vs. 아마존’ 클라우드 전쟁 발발2012.07.01
- 토플, 본사 서버장애로 취소…수험생 분통2012.07.01
- 카카오톡 서비스 장애, 공식 사과2012.07.01
계속되는 퍼블릭 클라우드의 장애로 서비스 신뢰성에 대한 중대한 문제제기가 이어질 것으로 예상된다. 퍼블릭 클라우드는 호스팅 서비스와 다르게 고개이 할 수 있는 일은 대시보드의 정상화 공지를 기다리는 것뿐이기 때문이다.
기술적 문제를 비롯해 자연재해에 의한 서비스 중단이 속출하면서 업계는 퍼블릭 클라우드 서비스 업체가 운영 투명성을 높이고 더 원활한 커뮤니케이션을 제공해야 한다고 입을 모았다.