막기 불가능한 IT장애, '회복탄력성'으로 대처해야

장애 발생시 빠른 위한 사전 매뉴얼 구축·전사적 대응 위한 임직원 교육 필수

컴퓨팅입력 :2024/07/23 16:49    수정: 2024/07/24 07:06

최근 IT시스템에 발생한 하나의 오류로 전세계적인 혼란이 발생했다. 이번 사태는 전 세계가 네트워크로 연결된 구조가 얼마나 큰 위험을 초래할 수 있는지 보여주는 사례다. 

특히 기업이나 개인 단독으로 이러한 장애를 사전에 방지할 수 없다는 점이 핵심적인 우려 사항으로 지목되고 있다.

클라우드 인프라의 경우 고객사에서 제어할 수 없을 뿐 아니라 서비스형 소프트웨어(SaaS) 방식으로 사용 중인 수많은 서비스와 앱 중 어디에서 문제가 발생할 것인지 사전예측하는 것도 불가능하기 때문이다.

이에 클라우드와 보안 업계에서는 장애가 발생하더라도 서비스를 유지하거나 빠르게 복구할 수 있는 회복탄력성(resilience)을 가장 중요한 요소로 꼽고 있다.

시스템이 복잡해지고 연결이 늘어나면서 IT장애는 피할 수 없는 문제로 부각되고 있다(이미지=DALL·E)

23일 관련 업계에서는 앞으로 우려되는 IT장애를 방지하기 위해 재해복구(DR) 시스템을 도입할 뿐 아니라 거버넌스 단계에서 회복탄력성 확보를 우선시해야 한다고 강조했다.

IT서비스에서 회복탄력성은 시스템에 일부 장애가 발생하더라도 안정적으로 서비스를 제공하거나 빠르게 복구하는 것을 말한다. 시스템이 복잡해지고 네트워크로 다양한 서비스, 장비와 연결되면서 발생하는 수많은 변수로 사전에 대처하거나 막을 수 없어 나온 대안 전략이다.

보안 및 클라우드 업계에선 단순히 백업 서버 등 DR 시스템을 구축하는 것에 그치지 않고 시스템 운영 방식 및 임직원 교육 등 거버넌스 단계에서 이를 고려하는 것이 중요하다고 강조하고 있다.

시스템 장애가 어디서 발생할지 모르는 만큼 장애가 발생할 수 있는 여지를 최소화하고, 문제 발생시 전사적으로 대응할 수 있는 체계를 구축하기 위함이다.

대표적으로 지난 19일 발생한 IT 시스템 장애로 항공편이 결항하고 방송사와 이동통신사의 운영에 차질이 발생하는 등 막대한 혼란이 발생했다.

분석 결과 크라우드스트라이크의 보안패치로 인한 윈도 시스템 장애가 원인으로 확인됐다. 이번 사태는 클라우드 시스템 자체의 문제는 아니었다. 하지만 클라우드와 네트워크를 통해 모든 시스템이 연결되고 동일한 방식으로 운영되기 때문에 확산이 빠르고 사고 규모도 더욱 커진 상황이다.

일부 기업은 백업 서버 등 DR환경을 갖췄음에도 복구가 제대로 이뤄지지 않은 사례도 있었다.

이번 장애는 클라우드가 아닌 운영체제(OS) 단계가 원인이기 때문에 서비스 환경과 백업 서버가 동일한 윈도 기반으로 동시에 업데이트하는 과정에서 두 시스템 모두 장애가 발생했다.

한 보안 기업 관계자는 "이번 장애는 하나의 열쇠로 2개의 창고를 지키던 상황과 비슷하다"며 "하나의 창고가 탈취된다면 다른 창고로 복구할 수 있겠지만 열쇠를 빼앗기면 두 창고 모두 제 역할을 할 수 없는 것과 비슷하다"고 설명했다.

이러한 문제를 방지하기 위해선 신규 업데이트나 데이터를 추가할 때 백업 서버와 동시에 진행하는 것이 아니라 시간차를 두고 안전성을 확인하는 과정을 마련할 필요가 있다는 것이다.

관련기사

이 밖에도 장애가 발생했을 때 대응 운영 방식이나 복구 과정 등을 체계적으로 사전에 정리하고 정기적인 훈련을 통해 임직원들이 즉시 대응할 수 있는 기반을 마련해야 한다는 설명이다.

클라우드 기업인 베스핀글로벌의 한 관계자는 "이번 장애나 판교 데이터센터 화제처럼 기업의 대처만으로 사전에 모든 사고를 막는 것은 이제 현실적으로 불가능한 시대"라며 "기업에게 있어서 가장 중요한 것은 장애가 발생하더라도 비즈니스 활동에 차질이 발생하지 않는 것인 만큼 만약의 사태를 대비한 매뉴얼과 운영 체계를 확보하는 것이 가장 중요하다"고 강조했다.