AWS 15시간 먹통 후 복구…업계 "소수 클라우드 집중 구조 한계"

세계 최대 클라우드 서비스인 아마존웹서비스(AWS)에 대규모 장애가 발생해 전 세계 주요 인터넷 서비스가 마비됐다. 현재 대부분 복구가 완료됐지만 일부 서비스는 여전히 불안정한 상태로, 인터넷 인프라 집중화의 구조적 취약성이 다시 드러났다는 평가가 나온다.

21일 업계와 주요 외신에 따르면 이번 장애는 지난 20일 미국 버지니아 북부 리전(US-EAST-1)에서 발생했다. AWS의 핵심 데이터베이스(DB) 서비스 '다이나모DB'의 도메인 네임 시스템(DNS) 오류가 근본 원인으로 지목됐다.

DNS는 인터넷의 전화번호부 역할을 하는 핵심 인프라로, 주소(URL)를 실제 서버의 IP로 연결해주는 기능을 한다. 이 시스템이 멈추자 수많은 앱과 웹사이트가 데이터 접근을 잃고 동작을 멈췄다.

AWS 측은 "아마존 EC2 서버 내부 네트워크의 트래픽 분산 모니터링 서브시스템 문제로 인해 네트워크 부하가 급증했다"며 "DNS 오류와 맞물리면서 연쇄 장애가 확산됐다"고 설명했다.

AWS는 15시간가량 이어진 복구 작업 끝에 대부분의 서비스를 정상화했다. 회사는 "현재 모든 AWS 서비스에서 복구가 진행 중이며 일부 백로그 메시지는 몇 시간 내 처리될 예정"이라고 밝혔다.

다만 일부 지역에서는 여전히 접속 오류가 간헐적으로 발생 중이며 AWS의 서버 임대 서비스 '람다'와 일부 데이터 분석 서비스는 복구가 지연되고 있는 것으로 알려졌다.

이번 장애로 슬랙·퍼플렉시티·스냅챗·포트나이트·로블록스·챗GPT·스타벅스·디즈니플러스·페이팔·코인베이스·유나이티드항공 등 수천 개의 글로벌 서비스가 일시적으로 중단됐다. 국내에서도 삼성월렛·배틀그라운드·네이버웹툰·배달의민족 등 다수 기업 서비스가 멈춰 업무와 이용에 불편이 발생했다.

현재는 대부분 서비스가 정상화됐지만 일부 기업은 캐시 데이터 손상과 API 지연으로 복구 점검을 이어가고 있는 것으로 전해졌다.

AWS가 15시간 동안 서비스 복구를 진행했다. (사진=지디넷코리아 DB)

장애가 발생한 US-EAST-1은 AWS에서 가장 오래되고 많은 서비스가 연결된 리전으로, 일종의 허브 역할을 한다. DNS 오류로 다이너모DB 접근이 막히자 리전 간 장애 복구 시스템도 제대로 작동하지 못했다. 트래픽을 다른 리전으로 우회하려던 복구 시도마저 DNS가 마비되며 실패했고 복구에 최대 15시간이 소요됐다.

메흐디 다우디 캐치포인트 최고경영자(CEO)는 "이번 사태로 인한 생산성 손실과 사업 중단 등을 고려할 때 경제적 피해는 수천억 달러 규모에 이를 수 있다"고 전망했다. 이는 지난해 크라우드스트라이크 장애 이후 최대 규모의 IT 대란으로 평가된다.

업계는 이번 사건을 계기로 멀티 클라우드 전략과 독립적 DNS·네트워크 복원 구조의 중요성을 재조명하고 있다. 특히 정부·공공기관도 긴급 복구 체계와 데이터 이중화, 리전 분산 아키텍처를 도입해야 한다는 목소리가 커지고 있다.

AWS 15시간 먹통 후 복구…업계 "소수 클라우드 집중 구조 한계"

관련기사

지금 뜨는 기사

이시각 헤드라인

삼성전자, 2030년까지 신규 팹 4곳 구축…용인·평택·호남 전방위 투자

'코스피 1만피' 가능할까…개미 투자자들의 전망은

"국산 AI칩 생태계 구축에 수요·공급·대학 모두 힘 모아야"

[현장] 흥행 여부가 성적표…한국형 챗GPT, 이용자 수로 평가한다

ZDNet Power Center