아마존 웹서비스 복구지연, '버그' 탓

일반입력 :2012/07/04 10:49

손경호 기자

아마존의 웹서비스에서 그동안 알려지지 않았던 버그가 발견됐다. 지난 주말 정전으로 가동이 중단됐던 이 클라우드 서비스의 복구작업을 지연시킨 주범으로 새로 발견된 '버그'가 지목됐다.

3일(현지시간) 주요 외신 및 아마존에 따르면 미국 동부지역에 위치한 10개의 데이터센터가 폭풍에 따른 정전사태로 가동이 중단됐다. 복구가 지연된 것은 버그로 인해 하나의 데이터센터가 백업 제너레이터를 가동하는데 실패하면서 무정전전원공급장치(UPS)를 통해 공급했던 에너지가 바닥이 나고, 지역 내 하드웨어가 다운됐기 때문이다.

아마존은 “많은 고객들에게 심각한 영향을 미쳤다”며 “고객들이 지역 내 서버를 통해 자원을 만들고, 제거하고, 바꾸는 기능을 구현하는 컨트롤패널의 저하가 상황을 악화시켰다”고 밝혔다.

문제는 여기서 끝나지 않았다. 아마존 서버의 부팅 프로세스에서 병목현상까지 발생했다. 아마존의 웹서비스용 주요 클라우드 서버인 EC2(Elastic Computer Cloud)와 EBS(Elastic Block Store) 백온라인 등이 예상보다 오랫동안 지연됐다.

EBS는 저장된 데이터를 보존하기 위해 다양한 기술적인 작동을 수행한다. 하드웨어에 미친 영향 탓에 EBS가 백로그를 완료하는데 수 시간이 걸린다.

관련기사

아마존이 발견한 버그 중 가장 심각한 문제는 ELB(Elastic Load Balancer)에서 나타났다. ELB는 서버 내에 트래픽이 흐르는 경로를 정하는데 사용된다. 아마존의 웹서비스에서 EC2 의 작동이 중지되면 ELB 시스템은 서버에 과부하를 주기 시작한다. 아마존의 클라우드 서비스가 재부팅 될 때 많은 수의 ELB가 전에 본적이 없는 버그를 생성했다고 아마존은 밝혔다.

아마존은 고객들에게 “수일에서 수 주일을 들여 이 문제를 해결하고, 서비스와 프로세스를 개선할 것”이라고 말했다.