아마존웹서비스(AWS)의 한국 데이터센터에 장애가 발생해 국내 고객사 일부가 정상적인 이용을 할 수 없어 피해를 겪었다. 장애는 오전 11시 이후에야 정상화됐다.
22일 AWS 서비스상태 대시보드에 따르면, 같은날 오전9시2분부터 AWS EC2 서울리전에 DNS 오류(DNS resolution issues)가 발생한 것으로 나타났다. AWS EC2에서 내부 DNS 변환에 실패해 나타나는 장애로 알려졌다.
이후 장애가 아마존 API 게이트웨이, 아마존 키네시스 파이어호스, 아마존 MQ, AWS 엘라스틱빈스토크, AWS IoT, AWS 람다, AWS 레드시프트, 아마존 워크스페이스 등으로 확대됐다. AWS는 EC2 DNS 오류를 비롯한 서비스 장애를 모두 해결했다고 밝혔다.
이날 발생한 오류는 같은 시간 전체 AWS 리전 가운데 서울지역에서만 나타났다. 이에 한국 내 AWS 이용기업에서 장애가 속출했다. 레진코믹스 등 서울 리전 외에 다른 리전으로 이중화해둔 고객사의 경우 장애를 겪지 않았다. 도메인 네임을 IP로 변경해 해결한 경우도 많았다.
배달의민족, 쿠팡, 야놀자, 여기어때, 푹 등의 인터넷 서비스와, 업비트, 코인원, 고팍스 등 암호화폐 거래소, 스마일게이트 등의 게임 서비스, KB금융지주 '클래온(Clayon)' 사이트와 신한은행 '쿱' 등 금융사 서비스가 2시간 이상 정상적인 서비스를 제공하지 못했다. 오전 11시 이후 인터넷 서비스 다수가 조금씩 정상화됐다.
DNS 오류 후 타 서비스로 장애 범위가 확산되고, 순차적으로 복구된 것을 감안할 때 AWS 서울리전 내부의 DNS 서버 자체에 물리적 문제를 겪은 것으로 추정된다. AWS코리아는 현재까지 공식 입장을 밝히지 않았다.
■ AWS 장애, 한국서 피해 컸던 이유
AWS 내부 장애 시 복구 시점까지 이용자가 취할 방법은 거의 없다. AWS의 장애 복구를 기다리는 경우가 대부분이다.
국내 AWS 고객사 관계자는 "장애 발생 후 AWS 측에서 별도의 대응 방안을 안내받지 못했다"며 "커뮤니티와 지인에게 정보를 얻어 대응했다"고 말했다.
AWS 장애로 한국 고객사에서 피해가 속출했던 건 미리 멀티리전 이중화를 하지 않았거나, AWS에 인프라를 의존했기 때문이다. 인프라 구성 설계 시점부터 백업과 장애대응 시나리오를 감안했던 기업의 경우 장애 피해를 최소화했다.
멀티리전 이중화, 멀티 클라우드 등의 방법은 기본적인 운영비용을 증가시키기 때문에, 영세한 기업은 택하지 않는 경우가 많다.
AWS 인프라 구성 시 리전을 서울 외 도쿄나 싱가포르, 미국 등으로 이중, 삼중으로 만들어 운영할 수 있다. 그러나 동일한 인프라를 여러 리전에 거의 동일하게 유지해야 하므로 비용이 두배, 세배로 늘어날 수밖에 없다.
AWS는 Route53이란 라우팅 서비스를 제공하는데, 이 서비스를 이용해 여러 리전으로 워크로드를 분산해둘 수 있다. 그러나 이날 장애는 DNS 서버 자체의 문제로 발생했기 때문에 Route53 서비스도 제 역할을 하지 못한 경우가 많았다. AWS는 장애 대비책으로 Route53 서비스를 주로 권고해왔으나, 이번 사건으로 효용성에 의문표가 붙게 됐다.
클라우드 이용시 AWS 외에 마이크로소프트 애저나 구글 클라우드 등을 함께 사용하면 장애 피해를 줄일 수 있다. 이 방안도 비용 증가 때문에 쉽게 선택하기 어렵다.
IT 업계는 AWS 리전 별로 다른 가격체계를 갖고 있는 만큼 리전별 요금을 비교해 운영비용을 최적화하거나, 국내 클라우드 업체의 서비스를 함께 활용할 것을 조언했다.
■ 국내 클라우드업계 "외국기업 100% 의존은 위험"
한국 내 퍼블릭 클라우드 경쟁사 측은 글로벌 기업 의존에서 문제 원인을 찾았다.
클라우드 업계 관계자는 "우리나라 기업이 미국회사의 서비스에 100% 의존해 피해가 커지고 종속되게 된다"고 말했다.
관련기사
- 한국선 AWS 장애…美선 아마존 이용자 정보유출2018.11.22
- [7보]업비트·코인원 서비스 복구...정상 거래 가능2018.11.22
- [5보]아마존웹서비스 서울리전 장애 확산2018.11.22
- [3보]AWS 서울리전 DNS오류로 한국 고객사 장애2018.11.22
또다른 클라우드기업 관계자는 "국내의 클라우드 서비스는 워크로드 이중화 서비스를 기본적으로 갖춰 글로벌 기업보다 상대적으로 저렴하게 제공하고 있다"며 "미국 기업에게 완전히 의존하는 건 큰 문제"라고 말했다.
IT인프라 제공기업 측은 기업 내부 인프라를 병용하는 하이브리드 클라우드를 강조했다. 퍼블릭 클라우드에 장애가 발생해도 기업 내부 인프라로 대응할 수 있는 환경을 갖춰야 한다는 것이다.