장애도 연결되는 초연결시대, 국내CSP 어떻게 대응하나

네이버클라우드·NHN클라우드 등 전사적 대응책 구성하며 무중단 운영 수행

컴퓨팅입력 :2024/07/29 18:15

전 세계 모든 시스템이 클라우드와 오픈소스를 중심으로 연결되는 초연결시대로 접어들고 있다. 하지만 그 이면에는 어느 한곳에서 발생한 장애도 모두 공유하는 위협도 도사리고 있다.

최근 발생한 크라우드스트라이트의 업데이트 장애로 인해 심각성이 알려졌지만 이러한 장애는 어제오늘 일이 아니다.

보안 업계에선 지난 국제적 재난으로 인한 피해가 적었다고 해서 한국이 안전지대라는 의미는 아니라고 지적한다. 그저 해당 보안 서비스를 사용하는 기업이 상대적으로 적었을 뿐이라는 설명이다.

데이터 센터 화재로 인한 카카오톡 마비, 인증서비스 장애로 인한 정부24 민원 먹통 등 일부 장애로 인한 대규모 시스템 오류가 국내에서도 지속해서 발생하는 상황이다. 이에 국내 클라우드 서비스 사업자(CSP)는 이러한 장애를 방지하기 위한 사전예방에 심혈을 기울이고 있는 상황이다.

네이버클라우드와 NHN클라우드

29일 관련 업계에 따르면 네이버클라우드, NHN클라우드 등 주요 CSP는 언제 발생할지 모르는 장애에 대응하기 위한 전사적인 체계를 구축 중이다.

네이버클라우드의 경우 국내 클라우드 기업(CSP) 중 정보기술(IT) 및 정보보호에 가장 많은 투자를 하고 있는 것으로 알려졌다. 이러한 역량을 바탕으로 네이버에서 자체 구축/운영 중인 춘천, 세종 IDC는 오픈이후 무중단으로 운영하고 있다.

또한 작년 기준 정보기술 대비 정보보호 투자비율 또한 국내 CSP 대비 상대적으로 높고, 국내외 보안 관련 인증 또한 국내 CSP에서 가장 많이 보유하고 있는 등 안전한 보안환경을 제공하기 위해 지속해서 개선 중이다.

NHN클라우드는 데이터센터 시설보호계획을 구축하고 주1회 이상 비상대응훈련 실시하는 등 재난재해 방지 시스템을 구축했다. 더불어 고객사 지원을 위해 기술지원 전문가인 테크니컬 어카운트 매니저(TAM)를 운영한다.

또한 장해에 따른 서비스 영향도에 따라 A,B,C(위험순위가 높으면 A)로 등급을 나눠 우선순위에 따라 대응할 수 있는 체계를 마련했다. 또한 장애발생 시 늦어도 15분 이내에 응답해 선제적인 조치를 취할 뿐 아니라 장애 조치 보고서까지 제공하는 프리미엄 서비스도 지원한다.

보안 업계에서는 사이버 재난을 방지하기 위해선 단순히 서버를 이중화하거나 백업 서버를 두는 것만으로는 부족하다고 지적한다.

사이버범죄조직인 랜섬웨어 그룹의 경우 백업 데이터 저장소를 먼저 공격해 기업 방어 체계를 무력화하려 시도하고 있으며, 일부는 공급망에 침투해 시스템을 복구하는 과정에 자연스럽게 악성코드를 감염시켜 핵심 데이터를 탈취하는 사례도 발생하고 있기 때문이다.

사이버위협이 아니더라도 운영체제(OS)나 업데이트 오류 등으로 인한 장애일 경우 서비스 중인 시스템과 백업 시스템을 동일하게 운영할 경우 장애가 해결되지 않을 가능성이 있다.

예를 들어 이번 크라우드스트라이트 업데이트 장애의 경우 보안 프로그램과 윈도OS의 충돌로 인한 것이다. 만약 보안 시스템도 윈도OS로 구동하며 동일하게 업데이트를 진행했다면 장애로 인해 백업이 원활하게 이뤄지지 않았을 가능성이 크다.

보안 및 클라우드 업계에선 단순히 백업 서버 등 DR 시스템을 구축하는 것에 그치지 않고 시스템 운영 방식 및 임직원 교육 등 거버넌스 단계에서 이를 고려하는 것이 중요하다고 강조한다.

시스템 장애가 어디서 발생할지 모르는 만큼 장애가 발생할 수 있는 여지를 최소화하고, 문제 발생 시 전사적으로 대응할 수 있는 체계를 구축하기 위함이다.

이러한 문제를 방지하기 위해선 신규 업데이트나 데이터를 추가할 때 백업 서버와 동시에 진행하는 것이 아니라 시간차를 두고 안전성을 확인하는 과정을 마련할 필요가 있다는 것이다.

이 밖에도 장애가 발생했을 때 대응 운영 방식이나 복구 과정 등을 체계적으로 사전에 정리하고 정기적인 훈련을 통해 임직원들이 즉시 대응할 수 있는 기반을 마련해야 한다는 설명이다.

관련기사

한 네이버클라우드 관계자는 "어떤 재난 상황에서도 비즈니스 연속성을 유지하고, 빠른 복구를 위한 업무연속성계획(BCP) 전담조직을 운영 중"이라며 "풍수해와 테러, 전염병, 대설 등 다양한 상황에 대한 대응조치 매뉴얼을 보유하고 있으며, 직무별 개인행동요령과 대응 프로세스 체계를 갖추고 재난별 위기 대응 매뉴얼에 맞춰 업무 연속성을 확보하고 있다"고 설명했다.

다른 보안 서비스 관계자는 "이제 IT서비스는 언젠가 중단이 발생한다는 사실을 인정해야 할 뿐 아니라 한 번의 장애가 비즈니스에 치명적일 수 있다는 것을 이해해야 한다"며 "이제 보안 서비스와 회복탄력성은 부가적인 요소가 아니라 기업 생존을 위한 필수적인 요소라는 것을 이해하고 기업에 가장 최적화된 방식을 도입해야 한다"고 말했다.