카카오 사태로 살펴본 '재해복구 시스템'...국내 대부분 업체 3등급 수준

구글, 아마존 등에서 사용하는 1등급 미러사이트 수준 적용해야

컴퓨팅입력 :2022/10/17 17:09    수정: 2022/10/18 08:42

SK C&C 판교 데이터센터 화재로 인해 카카오 서비스 장애가 10시간 넘게 이어지면서 재해복구(Disaster Recovery, 이하 DR)의 중요성이 IT업계에 각인됐다.

16일 카카오에 따르면 이번 화재로 인해 판교 데이터센터에 위치한 3만2천대의 서버가 멈췄으며, 카카오톡 기반 카카오택시, 카카오페이 등 여러 서비스 이용객이 불편을 겪었다.

재해복구(DR)는 예상치 못한 재해로부터 서비스 연속성을 유지하기 위한 보호 전략이다. 빠르게 복구하기 위한 인프라를 비롯해 기업의 절차 및 정책을 포함한다.

SK C&C 데이터센터 화재현장

재해에는 지진, 태풍, 홍수, 화재 등의 자연재해를 비롯해 전쟁, 해킹, 통신장애, 전력공급차단 등 외부요인과 시스템 결함, 기계적 오류, 관리정책 오류 등 내부적 요인에 의한 장애를 모두 포함한다.

카카오 사태 이전에 DR센터 필요성을 각인 시키는 계기로 지난 2001년 9.11테러가 있다. 당시 뉴욕 세계무역센터에 본사를 두고 있던 수많은 금융 기업이 데이터를 잃어버리며 도산했다.

반면 백업시스템 구축한 모건스탠리는 업무연속성계획(BCP) 체계로 빠르게 전환해 위기 상황을 극복할 수 있었다.

DR은 재해가 발생할 경우 재해 복구 계획(DRP)을 통해 비즈니스와 서비스가 신속하게 운영을 재개하거나 기능을 유지할 수 있도록 지원한다. DR 프로세스에는 계획과 테스트가 포함되며, 운영 복구를 위해 백업 데이터 인프라를 보유한 DR센터를 구축한다.

DR센터는 운영방침에 따라 ▲미러사이트(1등급) ▲핫사이트(2등급) ▲웜사이트(3등급) ▲콜드사이트(4등급) 등으로 나뉘며, 클라우드 또는 온프레미스로 구축할 수 있다.

1등급 미러사이트는 데이터센터와 동일한 수준의 DR센터를 원격지에 구축해 실시간 동기화하는 방식이다. 재해 발생 시 실시간 복구 및 서비스가 가능해 구글, 아마존, 마이크로소프트 등 글로벌 빅테크가 활용하며 국내에선 장애가 일어나면 안 되는 1금융 전산센터에 강제하고 있다.

2등급 핫사이트는 대기(stand) 상태로 실시간 미러링을 통해 데이터센터와 같은 수준의 데이터를 유지하는 방식으로 재해 발생시 복구 시간은 4시간 이내다.

3등급 웜사이트는 중요성이 높은 데이터만 부분적으로 DR센터에 저장하고 일반 데이터는 통상 하루 단위로 백업을 실시한다. 미러사이트나 핫사이트에 비해 구축비용이 저렴한 대신 데이터 손실 발생 우려가 있고 복구소요시간은 수일에서 수주가 필요하다.

4등급 콜드사이트는 단순 데이터를 저장하기 위한 방안으로 미러사이트나 핫사이트를 보완하기 위해 주로 쓰인다. 단독으로 시스템을 복구하기위해선 긴 수주에서 수개월이 소요된다.

클라우드 전문가들은 현재 국내에 주로 사용하는 방식은 대부분 3등급에 해당하는 웜사이트 방식으로 무중단 서비스를 위해선 미러사이트 방식을 도입해야 한다고 지적했다.

한 전문가는 “웜사이트는 복구 과정 비롯해 그 과정에서 발생하는 데이터 변경을 등을 확인하기 위한 정합성 처리 등을 해결하기 위해선 더 많은 시간이 소비될 수밖에 없다”며 “수많은 사용사를 보유한 카카오톡 수준의 서비스라면 미러사이트를 도입하는 것이 맞다고 본다”고 말했다.

관련기사

더불어 데이터센터와 DR센터간의 거리의 중요성도 지적됐다. 지진, 해일 등 천재지변을 비롯해 전쟁 등을 고려한다면 두 센터간 거리가 길어야 동시에 무력화될 가능성을 줄일 수 있기 때문이다.

이번 데이터센터 화재로 인해 재해복구 및 백업 솔루션에 대한 문의도 늘어날 전망이다. 재해복구 솔루션은 아마존웹서비스(AWS), 마이크로소프트(MS) 애저, 구글클라우드 등 주요 CPS를 비롯해 효성인포메이션, 베리타스, 재해복구 등 주요 SI 및 백업 서비스 기업에서 지원한다.