AWS 도쿄 리전 운영장애 복구…냉각장치 오작동이 원인

"제어시스템 장애→냉각장치 오작동→과열로 성능저하"

컴퓨팅입력 :2019/08/24 09:24

아마존웹서비스(AWS) 도쿄 리전에 발생했던 일부 서비스의 운영 장애가 복구됐다.

2019년 8월 23일 오후 AWS 도쿄 리전 가용성존 한 곳에서 발생한 EC2 인스턴스 성능저하와 RDS 접속 장애가 복구됐다. [사진=Pixabay]

24일 9시 현재 AWS 서비스헬스대시보드 공지에 따르면 도쿄 리전의 가용성존 한 곳에서 일부 '아마존 엘라스틱컴퓨트클라우드(EC2)' 성능저하 현상과 '아마존 관계형데이터베이스 서비스(RDS)'에 발생했던 접속 장애 문제가 해결됐다.

AWS 측은 원인 분석 결과 리전을 구성하는 가용성존 가운데 한 곳의 제어시스템 장애로 냉각장치가 오작동해 장비의 과열을 유발했고 성능저하로 이어졌다고 설명했다.

AWS의 일본 도쿄 리전 아마존EC2 서비스 장애는 한국시간으로 지난 23일 12시36분부터 18시30분까지 약 6시간에 걸쳐 발생했다.

AWS는 태평양일광절약시간(PDT) 기준 지난 22일 20시36분부터 도쿄 리전 가용성존 한 곳의 EC2 서버 일부가 과열 때문에 꺼지기 시작했다고 설명했다. 이로 인해 EC2 인스턴스가 손상돼 가용존 영역내 리소스에 영향을 줄만큼 EBS 볼륨 성능을 떨어뜨렸다고 밝혔다.

가용성존에 영향을 미친 발열 원인은 제어시스템 장애에 따른 다중 중복 냉각시스템 오작동이었다. 냉각장치는 PDT 기준 22일 23시21분 복구됐고 과열 현상도 정상으로 되돌아가기 시작했다. 온도 정상화로 장애를 겪던 인스턴스 성능도 회복됐다.

AWS 측은 PDT 기준 23일 2시30분까지 대다수 인스턴스와 볼륨을 복구했고 전력손실에 불리한 영향을 받은 하드웨어에서 돌아가는 나머지 일부 인스턴스와 볼륨에도 복구 조치를 하는 중이라고 설명했다.

관련기사

AWS 측은 "가능하다면 여전히 영향을 받고 있는 인스턴스와 볼륨을 교체하라"고 권고했다. 이어 "영향을 받는 인스턴스 일부는 고객들의 조치를 필요로할 수 있으며 우리는 그런 고객들에게 후속 단계를 안내할 예정"이라고 덧붙였다.

아마존RDS 장애 상황은 한국시간으로 지난 23일 12시36분부터 22시5분까지 약 9시간반 동안 진행됐다. AWS 측은 이 시기 중 "일부 RDS 인스턴스가 연결성 문제를 겪었다"며 "이 문제는 현재 해결됐고 서비스는 정상적으로 운영되고 있다"고 밝혔다.