과학기술정보통신부가 지난해 SK C&C 판교 데이터센터 화재로 발생한 카카오 서비스 장애 재발 방지 대책을 내놨다.
우선, 인터넷데이터센터(IDC)는 배터리 간 이격거리를 두고 10초 주기로 배터리 탐지체계를 갖춰야 하며, 디지털서비스는 장애가 발생하더라도 빠르게 복구할 수 있도록 서비스 분산 체계를 마련해야 한다.
특히 기간통신사와 방송사에 한정됐던 방송통신재난관리 대상에 하루 이용자 수 1천만명 이상 또는 트래픽 비중 2% 이상인 부가통신사도 포함시켰다.
과학기술정보통신부는 이같은 내용을 담은 디지털서비스 안정성 강화 방안을 30일 발표했다.
과기정통부는 당시 ‘방송통신재난 대책본부’를 구성해 장애 복구를 지원하고, 사고 원인을 분석해 SK C&C, 카카오, 네이버 3사에 대해 주요 문제점을 시정 조치토록 했다. 이후 외부 전문가와 업계 의견 수렴을 거쳐 디지털서비스 안정성 강화방안을 마련했다.
데이터센터 화재 대응 미비...디지털서비스 특정 IDC에 집중
우선 사고조사 결과, 리튬이온 배터리의 이상 징후 탐지를 배터리모니터링시스템(BMS)에 의존하고 있었지만 순간적으로 발생하는 리튬이온 배터리 화재를 사전 탐지하는 데 한계가 있었다.
또 BMS 외 사전적 탐지체계가 미비해 배터리실 화재에 즉각적 대응이 곤란하고, 기존 천정식 가스 소화약제로는 화재 발생 시 초기 진화에 어려움이 있는 것으로 나타났다.
상당수 데이터센터는 리튬이온 배터리와 무정전전원장치(UPS), 전력선 등 타 전기설비가 같은 공간에 위치해 배터리 화재 시 전력을 끊김 없이 공급하는 데 한계가 있는 구조로 파악됐다.
아울러 비상 상황에서 데이터센터 내 전력차단이 불가피할 경우 차단구역을 최소화하기 위한 구역별 전력 관리, 원격 제어를 통한 우회전력 확보 등 재난 대응체계가 미흡한 것으로 드러났다.
카카오와 네이버 등 디지털서비스 장애 사고 원인조사를 통해 드러난 문제점은 서비스 다중화로 꼽힌다.
디지털서비스 제공에 필요한 핵심 기능이 데이터센터 간 이중화되어있지 않거나 특정 데이터센터에 편중되어 있는 경우, 데이터센터 작동 불능 상황에서 주요 서비스에 심각한 장애가 발생하거나 복구가 지연될 우려가 있음이 나타났다.
비상상황 전파와 대응 등을 수동적으로 운영하거나 장애 재난 전담인력 부재, 대형 재난상황에 대한 모의훈련이 미비한 경우 등 장애 재난 대응 역량이 저하되지 않도록 체계적인 재난관리의 필요성이 제기됐다.
데이터센터 화재 탐지 다중화...배터리 이격거리 제한
이같은 사고조사 결과에 따라 디지털서비스 안정성 강화 방안은 끊김 없는 디지털서비스 구현으로 안전한 디지털 기반을 조성하기 위해 ▲데이터센터 안정성과 생존성 강화 ▲신속한 장애 극복을 위한 디지털서비스 대응력, 복원력 제고 ▲디지털전환 가속화에 대비한 디지털 위기관리 기반 구축 등의 내용으로 구성됐다.
우선 화재와 같은 재난 상황에서도 데이터센터가 안정적으로 운영되기 위해 배터리 화재 사전탐지 시스템을 다중화하고 데이터센터의 구조적 안정성을 확보키로 했다.
이를 위해 10분 단위까지 다양하게 운영되고 있는 배터리 계측 주기를 10초 이하로 단축하는 등 BMS를 개선하고, BMS 외에도 다양한 배터리 이상징후 탐지체계를 병행 구축한다. 긴급 상황 탐지 시 재난 관리자에게 자동으로 통보하는 경보장치와 자동 수동 겸용 UPS-배터리 연결 차단 체계를 설치해야 한다.
리튬이온 배터리 화재 확산을 방지하기 위해 배터리실 내 UPS 등 타 전기설비 와 전력선 포설을 금지한다. 배터리 간 화재 확산 방지를 위해 배터리 랙 간 이격거리를 0.8~1m 이상 두기로 했다. 배터리실 내에서 내화구조 격벽으로 분리된 공간 1개당 설치 가능한 배터리의 총 용량을 제한(5MWh, 산업부 한국전기설비규정)한다.
재난 발생 시 전력 중단을 최소화하기 위해 UPS 등의 전력차단구역을 세분화한다. 설비에 접근해 직접 차단하는 것이 어려운 경우를 대비해 원격으로 전력을 차단하거나 UPS를 거치지 않고 전력을 우회 공급하는 전력 바이패스 체계를 구축해야 한다.
데이터센터 주전력(한전)과 예비전력(UPS) 동시 장애로 인한 전체 전력 차단에 대비해 지속적 전력공급이 가능하도록 예비 전력설비의 이중화 체계를 구축한다.
리튬이온 배터리 열폭주 방지를 위해 배터리 랙, 모듈 또는 셀에 내부적으로 소화약제가 설치된 ‘자체 소화약제 내장 배터리’를 도입하도록 할 계획이다. 이 배터리를 도입한 데이터센터는 배터리 이격거리 의무의 예외를 인정할 계획이다.
아울러 리튬이온 배터리 화재 발생 시 가연성 가스로 인해 고압가스가 폭발하거나 인명 피해가 나타날 우려가 있어 ‘급속 배기장치’를 설치해야 한다.
이밖에 데이터센터 안정성 제도를 개선하고 관련 기술을 개발한다.
과기정통부는 데이터센터 생존성 확보에 필수적인 사항을 반영해 ‘집적정보 통신시설 보호지침’ 세부기준 개정을 추진할 예정이다.
디지털서비스 장애 대응 능력 키운다
예기치 못한 장애 재난 상황이 발생하더라도 디지털서비스가 안정적으로 제공될 수 있도록 영역별 다중화 체계를 확립하고 장애 재난 전주기에 걸친 대응체계를 강화한다.
우선 특정 기반시설이 작동 불능이 된 상황에도 서비스가 끊김 없이 제공될 수 있도록 중요도, 구동순서 등을 고려한 다중화 체계 확립을 촉진할 계획이다. 장애 재난 피해의 대규모 확산 방지를 위해 핵심 서비스와 기능의 물리적 공간적 분산을 권고하고, 관리기술 개발 등 지원 방안을 검토한다.
장애관제시스템 고도화를 위해 ▲서비스 출시 전 테스트 강화 ▲장애 탐지 전파를 위해 서비스별 헬스체크 모니터링 시스템 구축 ▲장애 복구 목표와 지표 설정, 복구 매뉴얼 수립 ▲사후 관리 강화를 위해 장애 리포트 발간 지원 등을 추진한다.
디지털서비스 사업자가 장애 재난 대응 체계에서 자동화 가능 요소를 발굴토록 권고하고, 장애 재난을 전담하는 부서와 인력 운용을 통해 재난 대응력을 높이며, SW 오작동으로 인한 부가통신서비스 중단 등을 방지하기 위해 ‘기업수요 맞춤형 SW안전 진단’을 지원한다.
디지털서비스 위기관리 채계 상시화
디지털 재난의 예방과 대응을 위한 안정적 기반 마련을 위해 관련 법 제도를 정비하고, 신규 또는 잠재된 위협을 선제적으로 대비하고 위기관리 체계를 구축하기 위해 ‘디지털 위기관리 체계’ 상시화를 추진한다.
개정된 방송통신발전기본법에 따라 재난 예방, 훈련, 대응, 복구의 전주기적 재난관리를 사전에 점검해 보완하는 관리의무 대상이 국민생활에 영향이 큰 주요 디지털서비스 사업자로 확대된다.
현재 ‘방송통신재난관리 기본계획’은 기간통신사업자만을 대상으로 하고 있어 물리적 통신시설에 대한 관리 위주이므로 부가통신서비스와 데이터센터 사업자에 적합한 재난관리 내용을 추가할 계획이다.
데이터센터의 경우 매출액이 100억원 이상인 사업자 가운데 전산실 바닥면적이 2만2천500제곱미터 이상이거나, 전력공급량이 40MW 이상인 대규모 센터를 운영하는 자를 대상으로 한다.
부가통신서비스는 일평균 서비스 이용자 수 또는 국내 총 트래픽 발생량에서 차지하는 트래픽 양 비중이 상당해 재난 발생 시 국민 생활에 지대한 영향을 미치는 사업자 대상으로 한다.
또 기준에 미치지 않더라도 최근 서비스 장애가 대규모로 발생한 사업자로서 통신재난관리심의위원회의 심의를 거쳐 한시적으로 지정된 자를 대상에 포함하는 시행령 안을 마련했다.
디지털서비스 안전법 제정 추진
과기정통부는 여러 법에 산재된 디지털서비스 안정성 관련 현행 제도들을 통합하고 네트워크, 데이터센터, 디지털서비스의 디지털 기반 전반을 아우르는 종합적인 재난관리체계 구축을 위해 가칭 '디지털서비스 안전법 제정안'을 마련할 계획이다.
또 디지털 재난 예방과 점검 등 선제적 대응을 위해 ‘디지털 위기관리본부’를 상시 운영하고, 과기정통부 내에 디지털 장애 재난 예방과 대응을 위한 체계를 정비할 예정이다.
이를 위해 조직 정비를 통해 디지털 장애 대응 전담팀을 신설하고, ‘디지털 안전 협의체’를 구성하여 디지털 위기 상황에 대한 대응 역량을 강화한다.
관련기사
- "7월부터 네이버·카카오도 재난관리 의무화 대상"2023.03.30
- 이종호 장관 "부가통신 점검·관리 보완 방안 검토하겠다"2022.10.16
- 과기정통부, ‘디지털 위기관리 본부’ 세운다2022.10.21
- ‘카카오 먹통 방지법’ 국회 본회의 통과2022.12.08
이종호 과기정통부 장관은 “데이터센터, 부가통신서비스 재난 대응체계를 원점에서 엄중히 재검토해 디지털 시대에 걸맞는 안정성 강화방안을 마련했다”고 말했다.
이어, “상시적 디지털 위기관리 체계를 공고히 해 국민과 경제 사회 전반의 피해를 초래하는 디지털서비스 재난에 대한 예방과 대응에 최선의 노력을 다해 국민 모두가 신뢰하는 디지털 기반 사회를 구축하는 데 힘쓰겠다”고 강조했다.