세계 최대 클라우드 서비스인 아마존웹서비스(AWS)에 대규모 장애가 발생해 전 세계 주요 인터넷 서비스가 마비됐다. 현재 대부분 복구가 완료됐지만 일부 서비스는 여전히 불안정한 상태로, 인터넷 인프라 집중화의 구조적 취약성이 다시 드러났다는 평가가 나온다.
21일 업계와 주요 외신에 따르면 이번 장애는 지난 20일 미국 버지니아 북부 리전(US-EAST-1)에서 발생했다. AWS의 핵심 데이터베이스(DB) 서비스 '다이나모DB'의 도메인 네임 시스템(DNS) 오류가 근본 원인으로 지목됐다.
DNS는 인터넷의 전화번호부 역할을 하는 핵심 인프라로, 주소(URL)를 실제 서버의 IP로 연결해주는 기능을 한다. 이 시스템이 멈추자 수많은 앱과 웹사이트가 데이터 접근을 잃고 동작을 멈췄다.

AWS 측은 "아마존 EC2 서버 내부 네트워크의 트래픽 분산 모니터링 서브시스템 문제로 인해 네트워크 부하가 급증했다"며 "DNS 오류와 맞물리면서 연쇄 장애가 확산됐다"고 설명했다.
AWS는 15시간가량 이어진 복구 작업 끝에 대부분의 서비스를 정상화했다. 회사는 "현재 모든 AWS 서비스에서 복구가 진행 중이며 일부 백로그 메시지는 몇 시간 내 처리될 예정"이라고 밝혔다.
다만 일부 지역에서는 여전히 접속 오류가 간헐적으로 발생 중이며 AWS의 서버 임대 서비스 '람다'와 일부 데이터 분석 서비스는 복구가 지연되고 있는 것으로 알려졌다.
이번 장애로 슬랙·퍼플렉시티·스냅챗·포트나이트·로블록스·챗GPT·스타벅스·디즈니플러스·페이팔·코인베이스·유나이티드항공 등 수천 개의 글로벌 서비스가 일시적으로 중단됐다. 국내에서도 삼성월렛·배틀그라운드·네이버웹툰·배달의민족 등 다수 기업 서비스가 멈춰 업무와 이용에 불편이 발생했다.
현재는 대부분 서비스가 정상화됐지만 일부 기업은 캐시 데이터 손상과 API 지연으로 복구 점검을 이어가고 있는 것으로 전해졌다.

장애가 발생한 US-EAST-1은 AWS에서 가장 오래되고 많은 서비스가 연결된 리전으로, 일종의 허브 역할을 한다. DNS 오류로 다이너모DB 접근이 막히자 리전 간 장애 복구 시스템도 제대로 작동하지 못했다. 트래픽을 다른 리전으로 우회하려던 복구 시도마저 DNS가 마비되며 실패했고 복구에 최대 15시간이 소요됐다.
메흐디 다우디 캐치포인트 최고경영자(CEO)는 "이번 사태로 인한 생산성 손실과 사업 중단 등을 고려할 때 경제적 피해는 수천억 달러 규모에 이를 수 있다"고 전망했다. 이는 지난해 크라우드스트라이크 장애 이후 최대 규모의 IT 대란으로 평가된다.
업계는 이번 사건을 계기로 멀티 클라우드 전략과 독립적 DNS·네트워크 복원 구조의 중요성을 재조명하고 있다. 특히 정부·공공기관도 긴급 복구 체계와 데이터 이중화, 리전 분산 아키텍처를 도입해야 한다는 목소리가 커지고 있다.
관련기사
- AWS 서버 장애로 글로벌 서비스 '마비'…국내 기업도 여파 우려2025.10.20
- 행안부 "국정자원 화재 원인 감식 필요…복구는 안전 점검 뒤 단계적 착수"2025.09.27
- [현장] "AI·클라우드 공진화 이끈다"…오케스트로, 新 아키텍처 비전 제시2025.09.02
- KT클라우드, 'AI 파운드리' 몸집 키운다…금융·제조·이커머스까지 맞춤형 확산2025.08.26
AWS뿐 아니라 구글 클라우드, 마이크로소프트 애저 등 다른 사업자들도 최근 유사한 장애를 겪으면서 집중형 인프라의 한계가 업계 전반의 공통된 고민으로 떠올랐다.
업계 관계자는 "세계 인터넷 서비스 대부분이 3~4개의 클라우드 기업에 의해 운영된다"며 "하나의 사업자가 멈추면 전 세계가 영향을 받는 구조 자체가 문제"라고 지적했다. 이어 "대형 사업자 중심의 클라우드 의존을 낮추고 서비스 복원력과 다중 리전 분산 전략을 강화하는 것이 앞으로의 핵심 과제"라고 덧붙였다.