스카이프 CIO, 22일 서비스 장애 MS 윈도 '탓'

일반입력 :2010/12/30 11:24

송주영 기자

스카이프 최고정보책임자(CIO)가 지난 22일 서비스 장애에 대해 MS 윈도 내 오류가 원인이 됐다고 밝혔다. 개인용 PC를 서버처럼 활용할 수 있는 피어-투-피어(P2P) 네트워크 시스템을 채택한 스카이프는 PC 내 오류에 영향을 받는 구조다.

29일 씨넷은 라스 레베 스카이프 CIO가 블로그에 글을 올려 최근 발생한 스카이프 서비스 장애 원인을 설명하며 윈도 오류 때문으로 분석했다고 보도했다.

인터넷 전화 서비스인 스카이프는 지난 22일 장애가 발생해 중단되면서 전 세계 수천만 이용자들이 큰 불편을 겪었다. 시스템을 복구하는 데만도 24시간이 걸렸다.

레베 CIO에 따르면 이번 서비스 장애는 오프라인 인스턴트 메시지를 수행하는 서버에 데이터가 몰리면서 발생했다. 스카이프 클라이언트가 응답 속도도 평소와 다르게 늦었다.

스카이프 분석 결과 문제가 된 클라이언트는 MS 윈도(버전 5.0.0.152)였다. MS 윈도 내 오류가 지연되던 서버 응답 처리를 막아 버린 것.

스카이프 P2P는 사용자 PC가 데이터를 처리하고 이동하는 하나의 노드로 작용한다. 클라이언트 PC가 여러명의 사용자가 접속할 수 있도록 돕는 수퍼노드 역할을 하기도 한다.

바로 이 같은 구조 때문에 많은 클라이언트가 오류가 있는 소프트웨어를 탑재했다면 장애에 취약한 상태가 된다. 이번에는 스카이프 이용자 약 절반이 오류가 있는 윈도 클라이언트 버전을 사용한 것으로 조사됐다. 이들 클라이언트 때문에 25~30%에 달하는 수퍼노드에서 장애가 발생했다.

스카이프 기술진은 서버 과잉적재를 해소하고 클라이언트 쪽에서 오는 요청을 강제 중단하는 등 노력을 했으나 결국 서비스 전체 장애로 이어졌다.

레베 CIO는 “유감스럽게도 장애들이 합류하면서 서버 과잉 적재, 윈도 클라이언트 오류, 슈퍼노드 감소 등이 이어졌고 사용자 중 상당수는 24시간 동안 서비스를 이용할 수 없었다”고 블로그에 적었다.

스카이프 기술진은 서비스 재가동을 위해 더 많은 수퍼노드를 생성할 수 있도록 했다. 네트워크에서 오류가 없는 PC를 찾아 수퍼노드로 활용하도록 했다. 네트워크는 점진적으로 재가동됐고 다음날인 23일 서비스는 정상화됐다.

관련기사

스카이프는 이같은 장애가 다시 발생하지 않도록 노력할 계획이다. 스카이프는 윈도5.50.0.156에 대한 오류를 이미 사전에 인지해 이를 개선하는 소프트웨어를 배포한 바 있다. 그러나 다운로드 횟수가 미미해 이를 자동으로 내려받도록 하는 소프트웨어를 설치하는 방안을 검토중이다.

장애 발생 원인을 빠르게 발견하고 개선하는 방안도 새롭게 모색할 계획이며 시스템 장애 발견 프로세스도 재평가할 계획이다.