지난해 10월15일 오후 3시30분께 경기 성남 판교 SK C&C 데이터센터에서 발생한 화재로, ‘국민 메신저’ 카카오톡을 비롯한 카카오 주요 서비스가 마비됐다. 카카오 서비스 먹통 사태는 불이 난 지 127시간30분 만에 완전 정상화됐다.
카카오는 재발 방지를 약속하며 비상대책위원회를 꾸렸다. 이상 징후가 발견되면 신속하게 대처할 수 있도록 다양한 모니터링 시스템을 갖추고, 서비스 안정성 확보를 위해 데이터센터 삼중화 구조를 구축하기로 했다. 기술과 장비 고도화, 사고 발생 시 빠른 대응을 위한 모의 훈련을 시행한다고 약속했다.
"먹통 사고 재발 방지" 기술 투자·인력 늘려
데이터센터 화재 발생 후 1년이 흘렀다. 카카오는 예고한 대로 사고 감시 체계를 강화했다. 실시간 점검으로 장애 확산을 최소화하고, 실시간 서비스 대시보드(모니터링 도구)를 활용해 복합적인 모니터링을 진행하고 있다.
투자 비중도 확대됐다. 올해 카카오 정보기술부문 투자액은 5천475억원, 정보보호투자액은 209억 이상으로 각각 전년 대비 52%, 49% 늘어났다. 정보보호전담 인력 또한 내부 73명, 외주 30명까지 총 103명으로 한 해 동안 70% 가까이 보강했다.
내년 1분기부터 자체 데이터센터 운영
기술적 조치와 재난 대응 설계를 기반으로, 첫 자체 데이터센터인 ‘카카오 데이터센터 안산’을 내년 1분기부터 본격적으로 운영한다. 하이퍼스케일(10만대 이상의 서버를 운영할 수 있는 초대형 데이터 센터) 데이터센터로, 최대 12만대 서버를 운영할 수 있으며 저장 가능한 데이터량은 6EB(엑사바이트)에 달한다.
24시간 무중단 운영을 위한 무정전 전력망과 전력, 냉방, 통신 등 주요 인프라를 이중화해 비상시 원활한 전력 공급이 가능한 백업을 갖췄다. 또 화재와 침수, 해일, 강풍, 지진 등 재난 재해 설비를 완비했다. 화재 시 데이터 보호를 위해 전산동 전체에 친환경 소화가스 적용하고 비상 상황 시 효율적인 소방 시스템을 즉시 가동한다.
무정전 전원장치(UPS)실과 배터리실은 방화 격벽으로 각각 분리 시공돼 배터리실에 화재가 발생하더라도 나머지 시설 작동에 영향을 주지 않게끔 설계됐다. 전기배전(EPS), UPS, 배터리를 묶어 섹터 하나로 구성해 총 4개 섹터를 확보하고, 전력 안정성을 극대화했다.
경기 시흥에도 친환경 데이터센터를 세운다. 카카오는 연면적 4만평 이상, 전력량 100MW 규모로 서울대 시흥캠퍼스 M1 부지에 데이터센터를 설립할 예정이다. 도시 계획 인·허가 등 행정 절차를 거쳐 내년 착공을 시작해, 2026년 준공을 완료할 계획이다.
다양한 모의 훈련 실시…"전 조직 역할 구체적으로 정의, 거버넌스 강화"
안산 데이터센터 운영과 장기적 재난재해 대응 능력을 강화하고자, 카카오는 최근 전사 규모 모의 훈련도 진행했다. 지난달 카카오 판교 오피스에서 홍은택 대표를 비롯한 전사 주요 임원, 실무 책임자 80여명이 참석한 가운데 재해복구 모의훈련을 실시했다. 전 부서가 정해진 프로세스와 업무연속성계획(BCP)에 따라 순차적으로 상황 전파, 복구 조치 등 체계적 시뮬레이션을 경험했다.
관련기사
- 구글 13조 투자하는 DR...한국은 여전히 ‘찔끔’2023.10.13
- 카카오, 안산에 첫 자체 데이터센터 준공2023.09.26
- 카카오 "먹통 사태원인 이중화 미흡…다중화·인프라 투자" 약속2022.12.07
- 최태원 "데이터센터 화재, 국민께 송구…빠르게 보상"2022.10.24
기존 비상대응조직을 강화해 최고경영자(CEO)를 위원장으로 하는 비상대책위원회와 함께 실무 컨트롤타워 역할을 하는 BCP 종합상황실을 별도로 구성하는 등 재난 발생 시 카카오 전 조직 역할을 구체적으로 정의하고 거버넌스를 강화했다.
외부 전문가들의 자문을 구해 BCP 취약성을 진단하고 개선 작업도 병행하고 있다. 카카오는 상시적으로 다양한 상황을 고려한 모의 훈련을 상시 진행하고, 대량의 트래픽이 발생하는 경우를 대비해 정기 훈련뿐만 아니라 카카오톡 장애 상황을 가정하고 진행하는 비정기 훈련도 펼치고 있다.