북한의 댐 방류로 인해 남한의 피서객 6명이 숨지는 사건이 발생했다. 아직 완전하게 원인이 가려지지는 않았지만, 상당한 책임이 무인경보시스템의 오작동, 즉 장애에 있는 것으로 밝혀지고 있다.
일반적으로 IT 장애의 피해는 비즈니스 중단 또는 업무 중단으로 이어지지만, 무인경보시스템과 같이 국가 인프라를 관장하는 설비 장애의 피해는 인명 사고와 같은 심각한 결과를 초래한다.
무인경보시스템이 IT시스템이냐 아니냐에 대해서는 여러 가지 의견이 있을 수 있겠지만, 적어도 물리적인 장치를 통해 수집한 정보를 필요한 사람들에게 ‘전달’한다는 관점에서는 전형적인 IT시스템의 특징을 지니고 있다고 볼 수 있다.
무인경보시스템과 관련되어 알려지고 있는 내용들은 사실 여부와는 상관없이 IT조직들에게 시사하는 바가 매우 크다. 왜냐하면 이 사건은 IT조직에서 많이 봐왔던 장애를 포함한 여러 가지 사건들과 매우 유사한 점이 많기 때문이다. 이번 칼럼에서는 무인경보시스템을 둘러싼 이슈를 IT조직과 프로세스로 풀어보겠다.
먼저 아래의 신문 기사를 참조해보자.
“사고 이틀 전인 4일 경보시스템의 데이터전송 보조통신장치(CDMA)를 교체한 뒤 인증이 되지 않아 서버로부터 관리자 A 씨에게 ‘통신장애’를 알리는 문자메시지가 전송됐다. 메시지는 4일 오후 3시부터 사고가 나기 30분 전인 6일 오전 5시 반까지 총 26차례가 전송됐다. A 씨는 이 메시지를 무시하다가 6일 오전 6시 47분 수자원공사 대전 본사의 연락을 받고 나서야 뒤늦게 상황을 파악하고 개발업체에 강제경보발령을 요청해..” -- **일보 9월11일자 기사 중
■감시를 위한 모니터링시스템
대부분의 IT조직들은 IT시스템을 감시하기 위한 별도의 모니터링 시스템을 구축하고 있다. 모니터링 시스템의 메커니즘을 잘 모르는 사람들은 감시시스템을 설치하기만 하면, 문제가 해결되는 줄 알고 있다. 첨단의 모니터링 시스템을 구축하고 이를 큰 화면으로 모니터링 하면서 장애를 사전에 발견하거나, 해킹을 추적하는 관제센터의 ‘멋진 이미지’를 너무 많이 봐왔기 때문이다.
그러나, 아무리 최첨단 모니터링 시스템이라 하더라도 어떻게 설정해서 사용하는가에 따라 그 효과는 180도 달라진다.
일반적으로 많은 장비를 대상으로 하면서, 상세하게 설정된 모니터링 시스템의 경우는 실시간으로 많은 감시 정보를 화면에 뿌려준다. 너무 많은 정보가 화면에 쌓이다 보니, 모니터링 담당자는 어떤 정보가 ‘의미’ 있는 정보인지를 단시간 내에 판단하기가 힘들어진다.
그래서 모니터링 시스템은 화면에 뿌려지는 감시 정보에 ‘등급’을 부여해서 선택과 집중을 할 수 있도록 설정하게 된다.
■담당자는 왜 감시정보를 무시할까?
그런데 IT조직을 방문해서 모니터링 하는 모습을 관찰하다 보면 ‘높은 등급’으로 부여한 감시 정보인데도 ‘무시’하는 경우를 왕왕 볼 수 있다.
왜 무시하는 지에 대해서 질문을 하게 되면, ‘확인해보니 중요하지 않는 감시 정보로 판단해서’라는 대답과 ‘해당 장비에 작업이 진행 중이어서’ 라는 대답이 가장 많다.
■‘양치기 소년’의 재현
‘확인해보니 중요하지 않는 감시 정보’는 두 가지의 상황으로 나누어진다. 해당 감시 정보의 등급이 ‘쓸데없이’ 높은 등급으로 잘못 설정되어 있는 ‘경우’와 뿌려주는 감시 정보가 상세하지 않아 ‘추가적인 확인 작업’을 해보니 별 문제가 없는 ‘경우’이다.
전자의 경우는 모니터링시스템의 설정변경을 바꾸면 큰 문제가 없다. 그러나 후자의 경우는 모니터링 시스템의 기술적인 제약사항으로 인해 사람의 수동적인 확인작업이 반드시 필요한 경우다.
높은 등급의 감시정보가 뜨고, 모니터링 담당자가 수동적인 확인작업을 했으나, 아무 이상이 없는 상황이 몇 번 반복된 이후에는, 모니터링 담당자가 동일한 감시정보를 무시하게 된다.
늑대가 나타났다라는 양치기소년의 ‘감시정보’에 뛰쳐나가서 몇 번을 허탕친 마을 사람들이 양치기 소년의 ‘감시정보’를 무시하기 시작하는 것과 유사한 상황이다.
모니터링시스템과 같은 ‘양치기소년’은 늑대가 보일 때만 감시정보를 날리는 것이 아니라, 늑대가 나타날 ‘가능성’과 ‘징조’가 보이는 경우에도 감시정보를 날려주도록 약속되어 있기 때문이다.
■‘작업’정보의 커뮤니케이션 문제
‘해당 장비에 작업이 진행 중이어서’ 높은 등급의 감시정보를 무시한 경우를 확인해보면, 대부분 ‘작업 담당자’와 ‘모니터링시스템 ‘설정’ 담당자’가 달라서 발생한다.
IT프로세스가 잘 운영되는 IT조직은 ‘작업’을 변경프로세스로 처리한다. 작업을 시행하기 전에 ‘영향평가’를 실시하고, 모니터링 시스템에 잘못된 감시정보를 뿌리지 않도록 작업계획에 맞추어서 모니터링 시스템 설정담당자가 감시정보를 ‘내렸다가 올린다’.
변경프로세스가 제대로 갖추어지지 않는 IT조직에서는 작업담당자와 모니터링시스템 설정담당자의 의사소통이 원활하지가 않기 때문에 모니터링시스템 설정 담당자는 작업이 언제 시작하는지 또는 언제 작업이 끝나는 지를 잘 모른다.
그러다 보니, 작업 시작 시점에 갑자기 장비의 이상이 있다는 감시정보를 발견하게 되고, 수소문 끝에 작업담당자로부터, 작업으로 인해 발생한 잘못된 감시정보라는 통보를 받게 된다.
그런데 문제는 그 다음에도 발생한다. 작업이 ‘끝났다’는 통보를 못 받은 것이다.
감시정보를 모니터링 하는 인력들은 이후 해당 장비에 관련되거나 유사한 감시정보가 발생하더라도, 작업 때문에 그런 것으로 짐작하고 감시정보를 무시하게 될 수 있다.
작업과 관련된 이러한 상황은 작업 자체를 내부 직원이 아닌 ‘외부 회사’에 전적으로 일임하여 진행하는 경우에 더 빈번하게 발생하게 된다.
■사고로부터의 교훈(learning from incident)
임진강 사건에서 무인경보시스템의 메시지를 접수한 담당자가 이틀 동안 이 메시지를 무시한 이유가 무엇인지는 밝혀지지 않았지만, IT조직 내에서 모니터링 시스템을 둘러싼 여러 가지 정황과 경험을 바탕으로 그 원인을 추정해보았다.
임진강 사건과 유사한 상황이 IT조직 내에 발생하지 않도록 하기 위해서는 결국 프로세스를 갖추어야 한다.
이벤트를 등록, 통지하고 유지관리 하는 ‘이벤트관리 프로세스’와 작업에 영향을 받거나 미치는 관련자들과 협의하여 작업이 주는 ‘영향’을 사전에 파악하여 대비책을 수립하고, 원하는 작업 목적을 달성했는지를 검증을 반드시 거치도록 하는 ‘변경프로세스’를 도입해야 한다.
여기서 중요하게 고려해야 하는 점은 도입되는 이벤트관리 프로세스와 변경프로세스가 상호간에 ‘긴밀’하게 연결되어야 한다는 점이다.
프로세스간의 커뮤니케이션이 없이 두 개의 프로세스가 격리된다면, 위와 같은 상황이 재발할 가능성이 있기 때문이다.
관련기사
- [칼럼]붕어빵처럼 똑같은 IT프로세스?2009.09.17
- [칼럼]변경과 구성요소 정보가 따로 노는(?) IT조직2009.09.17
- [칼럼]사용자 통지를 사소하게 다루는 IT조직들-22009.09.17
- [칼럼]사용자 통지를 사소하게 다루는 IT조직들-12009.09.17
임진강 사건은 담당자의 부주의보다는 무인경보시스템을 관리하는 조직의 프로세스 또는 체계가 없는 것이 근본적인 문제다. 담당자의 개인적인 부지런함이나 판단에 의존하는 조직은 인재로 인한 사고 발생의 개연성이 상대적으로 높을 수 밖에 없다.
이번 임진강 사건을 통해, IT프로세스를 잘 갖춘 조직들은 IT프로세스의 ‘고마움’을 새삼 느끼게 하는 기회로 활용하기를 기대하며, 상대적으로 IT프로세스가 미비한 조직들은 프로세스 없이 일하는 것이 얼마나 ‘치명’적인지를 다시 한번 깨닫는 기회로 삼기를 바란다. 사고로부터의 교훈은 돈을 주고도 살 수 없는 훌륭한 벤치마킹의 기회다. 공짜를 놓치지 마시라.
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.