MS, 클라우드 '애저' 업데이트 절차 강화

일반입력 :2014/11/24 10:00

마이크로소프트(MS)가 최근 성능 업데이트 과정에서 장애를 일으킨 애저 클라우드 서비스의 업데이트 절차와 관련된 정책을 강화했다.

MS 애저의 서비스 장애는 지난 18일 미국, 유럽, 아시아 지역에 걸쳐 다양한 애저 서비스를 사용 중인 일부 고객 환경에서 발생했다. 이 문제는 MS 빙 검색, 비주얼스튜디오 온라인, X박스라이브와 MSN 인터넷포털의 애저 기반 서비스에도 영향을 미쳤다.

상황을 악화시킨 건 애저 클라우드의 서비스 현황판인 '서비스헬스대시보드'와 '애저관리포털' 모두 애저 스토리지 서비스에 기반해 돌아간다는 사실이었다. 이는 다시 말해 애저 스토리지의 상태가 정상이 아닐 경우 이 서비스들은 클라우드의 서비스 상태를 제대로 반영해 주지 못한다는 뜻이었다.

지난 20일 이를 전한 미국 지디넷 MS전문기자 메리 조 폴리는 지난주 MS 애저 고객들에게 11시간 가까이 (클라우드 서비스의) 장애가 들이닥쳤다며 많은 사용자들이 실제로는 애저 서비스를 못 쓰는 상황에서 서비스 현황판을 통해 그게 제대로 작동 중이라는 (허위) 보고를 접했다고 묘사했다.

장애 원인은 '애저 테이블 스토리지 서비스'라는 실험적인 기능이었다. MS는 지난 몇주간 일부 고객들을 대상으로 이를 테스트했다. 그리고 이번에 애저 스토리지에 성능 업데이트가 적용돼, 해당 서비스의 성능이 향상됐다고 밝혔다. 하지만 MS는 이 성능 업데이트가 광범위하게 적용되기 전까지 문제가 생겼다는 걸 파악치 못했다.

제이슨 잰더 MS 애저 담당 부사장(CVP)은 (서비스 성능 업데이트 작업에 따라) 스토리지 블롭(blob) 프론트엔드가 무한루프에 빠지는 결과를 초래했는데, 이는 진행 과정에서 포착되지 않았다며 결과적으로 프론트엔드가 더 많은 트래픽을 받으면서 기능 정지를 일으켰고 다른 서비스에서도 문제를 야기했다고 설명했다.

MS는 문제를 확인하고 관련 업데이트를 원상복구시켰지만, 이를 완전히 되돌리려면 스토리지 프론트엔드 인프라를 재시작해야 했다. 장애 관련 공식 보고서는 업데이트가 제품 변화에 적용하는 표준 절차대로 점차 확대 적용되는 일괄처리 방식 대신, 운영중 문제에 대처하기엔 짧은 시간 내에 대다수 지역에 걸쳐 적용되도록 만들어졌다고 전했다.

관련기사

잰더 부사장은 이후에도 간헐적으로 문제를 겪고 있는 일부 애저 클라우드 고객들이 있으며 MS가 관련 문제를 해결하기 위해 조치를 취하고 있다고 밝혔다. 애저 담당 팀은 서비스 장애 사태를 초래하고 불편을 야기한 점에 대해 사과한다는 입장을 밝혔다.

MS는 향후 비슷한 문제가 발생할 가능성을 없애기 위해 ▲항상 일괄적인 제품 변화에 표준 절차 기반 도구를 쓰게 하고 ▲장애 복구 시간을 줄이기 위해 복구 방식을 개선하고 ▲블롭 프론트엔드의 CPU 이용률을 낮춰 무한루프 버그를 해결하고 ▲서비스헬스대시보드 인프라와 프로토콜을 향상시킬 방침이다.