‘최상’의 상황만을 가정하는 IT 재해 복구 활동들

최영석입력 :2008/11/14 11:36    수정: 2009/01/05 00:17

최영석

재해가 발생한 IT조직에게는 미안한 얘기지만, IT조직에 ‘장애’가 발생한 상황과 IT조직에 ‘재해’가 발생한 상황은 IT를 사용하는 사용자들 입장에서는 동일한 상황이다.

재해든 장애든 IT사용자에게는 비즈니스 수행에 단지 IT를 활용하지 못하는 상황일 뿐이라는 얘기다. 재해 복구에 대한 IT조직의 노력과는 상관없이 IT사용자는 언제 복구될 것인지에 대해서만 관심이 있다는 사실을 이해한다면 IT재해 복구의 의미는 단순하다.

어떤 최악의 상황이 IT조직에 발생하더라도 IT조직이 IT사용자에게, IT사용자가 참고 기다려야 하는 정확한 시간을 알려주기만 하면 된다. 따라서 약속된 IT복구 시간을 달성하느냐 아니냐가 IT재해 복구활동의 핵심이라고 볼 수 있다. 그런데 국내 IT조직들을 관찰한 결과, IT재해복구와 관련된 테스트 활동들이 약속된 정보와 자원이 항상 존재한다는 편리한 가정하에서 테스트 활동을 수행하고 있는 경우가 많다.

편리한 가정의 일부 요소가 차질이라도 생긴다면 결국 약속된 IT복구 시간을 달성하지 못하게 할 수 있다는 점을 알아야 한다. 이와 관련된 문제점들을 살펴보기로 하자.

문제점1: 재해 발생시 재해복구계획서를 당장 손에 쥘 수 있는가?

IT조직의 재해복구 계획서의 내용과 실제 테스트 한 결과를 살펴보면, 재해 발생시 재해복구계획서는 즉시 입수할 수 있다는 가정을 하고 있는 경우가 대부분이다.

실제로 재해가 발생하여 전산실에 접근이 불가능한 경우, 재해복구계획서를 즉시 얻을 수 있을까? 대부분의 IT조직은 재해복구계획서를 전산실 내부의 사무실 캐비닛과 재해복구 사이트에 보관하고 있다. 따라서 업무시간 이외에 재해가 발생한다면, 재해복구 사이트에 가야만 재해복구계획서를 얻을 수 있게 된다.

여기서 실질적인 문제가 발생한다. 재해복구계획서를 열어봐야지만 비상연락망이라든지 재해 발생 초기에 어떤 방법으로 어떻게 움직여야 하는 지의 정보가 모두 포함되어 있다는 점이다. 결국 재해복구계획서를 입수하기까지의 시간 동안은 재해 복구 활동이 ‘지체’될 수 밖에는 없다.

아니면 재해복구 계획서가 없이 임기응변으로 움직여야 하는 데 이 상황은 기껏 마련해놓은 재해복구계획서가 무의미하다는 것을 오히려 인정하는 것이다.

문제점2: 재해 발생시 IT복구 핵심 담당자가 늘 가용한가?

재해가 발생하는 경우 IT복구에 중요한 역할을 하게 되어 있는 핵심 담당자는 언제나 약속된 시간과 장소에 출현할 수 있는가? 만약 재해 발생 시에 IT복구 핵심담당자가 휴가를 갔거나, 불행하게도 재해 발생 사이트 내부에 있었다면 IT복구 핵심 담당자가 없이 복구 활동을 수행해야 하는 경우가 발생할 수도 있다.

국내 IT조직들의 IT복구 절차에 대해 핵심담당자와 인터뷰를 하다 보면 재해복구계획서에 정의된 IT복구 절차와는 다르거나 추가된 내용을 이야기하는 경우가 가끔 있다. 이것들은 IT복구를 위해서 IT담당자의 경험에 근거한 판단이 개입해야 하는 것들이므로 그만큼 재해복구계획서의 내용이 세밀하지 않다는 것을 의미한다.

이러한 재해복구 계획서를 보유하고 있는 IT조직의 경우, 재해 발생시 IT복구 핵심 담당자가 부재하게 되면, 제 3자(물론 유사한 기술 수준을 가진 사람이다.)가 IT복구를 정상적으로 수행하지 못하거나 IT복구 시간이 지체될 수 있다.

약속된 시간 내에 IT를 복구하기 위해서는 위와 같은 문제로 인해 지체되는 시간을 최소화해야 한다. 이를 위해 해결책 몇 가지를 소개해 보겠다.

해결책1: 배틀 박스 (Battle box)를 활용하라

배틀 박스는 국내에는 생소한 개념이지만 글로벌 기업에서는 많이 사용하는 방법이다. 재해나 비상상황이 발생하는 경우, 즉시 활용해야 하는 정보와 도구들을 평소에 배틀 박스에 저장하여 준비하는 것이다. 배틀 박스의 내용, 보관 위치, 업데이트, 보안 및 배틀 박스 입수 방법 등을 결정하는 것을 배틀 박스 전략이라고 한다.

IT 재해 복구 관리자는 이러한 배틀 박스의 전략을 결정하게 된다. 글로벌 기업의 배틀 박스 전략 사례는 소개하면 다음과 같다. 배틀 박스를 ‘가상 배틀 박스’와 ‘물리적 배틀 박스’ 두 가지를 동시에 유지한다. 가상의 배틀 박스에는 재해 시에도 접근이 가능한 인터넷 웹사이트를 활용하여 재해복구계획서와 관련 문서들을 유지한다.

물리적인 배틀 박스는 근무 공간에서 약간 떨어진 곳(ex. 주자창 주변 창고)에 두고 유지 관리한다. 비상연락망의 변경을 포함하는 재해복구계획서의 변경이 발생하는 경우 수시로 두 개의 배틀 박스를 업데이트 하게 된다. 배틀 박스를 잘 활용하게 되면 재해복구계획서를 항상 최신의 상태로 유지하게 할 수 있고 재해 발생 시 즉시 대응할 수 있는 신속성을 확보할 수 있게 된다.

해결책2: 객관적인 실행을 보장하는 수준으로 복구절차를 작성하라

재해복구계획서내의 IT복구절차를 핵심 담당자에게 전적으로 맡기지 말고 객관적인 입장의 IT담당자와 같이 작성하도록 해야 한다. 핵심 담당자가 경험으로 알고 있는 것 조차도 모두 절차상에 나타날 수 있도록 유도해야 한다.

실제 재해가 발생하게 되면 IT복구 핵심 담당자 조차도 당황해서 실수하게 되므로 최대한 상세하고 객관적으로 작성할 수 있도록 노력해야 한다. 작성 이후에는 절차 작성에 관여하지 않은 IT담당자가 작성된 내용의 실효성을 다시 한 번 검토하도록 한다.

해결책3: 복구절차가 변경될 수 있다는 점에 주목하라

어플리케이션 또는 IT장비가 추가되거나 변경되는 경우, 재해복구계획서상의 IT복구 절차도 수정되어야 한다. 세밀한 복구절차를 만들어놓고도 그새 변경된 내용을 반영하지 못하여 정작 재해 발생 시에 실패하는 경우를 목격할 수 있다.

하지만 복구절차의 작성 책임을 맡고 있는 IT복구 핵심담당자가 모든 어플리케이션이나 IT장비의 변경에 대한 정보를 알 수 없다는 것이 문제다. 이 문제는 체계적인 IT 프로세스로 해결할 수 밖에 없다. 많은 글로벌 IT조직들은 어플리케이션 또는 IT장비의 변경을 처리하는 변경프로세스 과정에서 재해복구계획서의 업데이트 항목이 존재하는지를 반드시 협의하는 견고한 프로세스를 만들어 두고 있다.

IT재해복구는 항상 최악을 가정하여야 한다

재해복구계획을 작성하거나 테스트를 수행하는 경우, 항상 최악의 시나리오를 염두에 두고 작성하는 훈련을 해야 한다. 정상 상황에서 늘 존재하는 정보나 도구들은 재해 발생 상황에서는 가용하지 않거나 작동하지 않을 가능성이 크다. 안 좋은 상황은 떼로 몰려온다는 속설은 실제 재해 상황에서 자주 겪게 되는 현실이다.

최상을 가정한 IT재해 복구 활동은 IT사용자와 그들의 비즈니스에게 예기치 못한 배신감과 신뢰 상실을 제공할 가능성이 있다는 것을 IT조직들은 깨달아야 한다. 특별한 노력 없이 재해 시 최상의 상태가 되기를 기대하는 것은 ‘기도’로 모든 것을 해결 하려는 무속신앙의 자세와 다를 바가 없다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.