지난 10월 판교 SK C&C 데이터센터 화재에 따른 카카오 서비스 먹통 사태를 두고, 이확영 비상대책위원회 원인조사 소위원장은 센터와 운영 관리 도구 이중화가 미흡했고, 가용 자원이 부족한 점을 복구가 지연된 주요 원인으로 꼽았다.
이확영 원인조사 소위원장은 7일 열린 개발자 연례콘퍼런스 ‘이프 카카오’에서 “서비스 장애 원인을 제3자 입장에서 객관적으로 면밀히 분석하고자 노력했다”면서 “시스템 이중화에도, 왜 복구가 지연됐는지 등을 중점적으로 살펴봤다”고 운을 뗐다.
현재 그렙 대표로 있는 이확영 소위원장은 삼성SDS, 프리챌, NHN을 거쳐 2007년 카카오에서 최고기술책임자(CTO)를 지낸 바 있다. 이 소위원장은 “센터 전체에 문제가 발생하더라도, 다른 곳에 모두 이중화됐다면 빠른 복구가 가능했을 것”이라고 했다.
복구가 지연된 데 대해, 이 위원장은 데이터센터는 물론 서비스 외 개발관리를 위한 운영관리 도구 이중화에 소홀했던 점 등을 짚었다. 카카오톡 등 일부 시스템이 SK C&C 센터 내에서만 이중화된 까닭에 정상화가 늦어졌다는 것이다.
이 위원장은 “서로 다른 데이터센터로 이중화한 경우에도 한 곳에서 장애가 발생하면 자동으로 (데이터센터를) 전환해주는 시스템이 작동해야 하는데, 이 체계마저 판교 데이터센터에만 설치됐다”며 “수동으로 전환 작업을 진행했기 때문에 복구가 지연됐다”고 말했다.
또 이 위원장은 “가용 인력이 부족해, 센터 전원이 들어왔음에도 시스템을 정상화하기까지 시간이 걸렸다”면서 “카카오톡, 카카오 워크를 사용할 수 없어, 중요사항을 전달하거나 의사결정을 공유할 소통창구가 부재했다”고 말했다.
관련기사
- 카카오 "서비스 이중화 미흡…사회적 책임 다할 것"2022.12.07
- 카카오 먹통 피해 10만건…정부 "1개월내 재발방지책 보고"2022.12.06
- 이종호 장관 "데이터센터 화재 예방·관리 정책, 가능한 빨리 마련"2022.12.06
- 정부, 내년 초 '판교 데이터센터 화재' 개선방안 마련2022.12.06
서비스 장애를 총괄할 컨트롤 타워가 없던 점도 지적했다. 이 위원장은 “카카오 공동체가 동시다발적으로 장애에 대응했지만, 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 구축되지 않았다”고 말했다.
그는 “현재 원인 분석 결과보고서를 비대위에 제출한 상태”라며 “이전보다 높은 목표를 설정하고 노력해, 카카오 서비스가 다시금 이용자들로부터 신뢰를 회복하고 사랑받길 바란다”고 했다.