英, 코로나 확진 1만6천명 누락…"알고보니 엑셀 오류"

보건당국 개발자가 엑셀 파일 통합과정에서 실수

컴퓨팅입력 :2020/10/08 14:39

최근 영국에서 코로나19 확진자 1만6천명이 공식 통계에서 누락된 것으로 나타났다. 보건당국 개발자가 실수로 구버전의 엑셀 파일 포맷으로 관련 데이터를 저장했기 때문인 것으로 확인됐다.

5일(현지시간) BBC에 따르면 최근 영국 코로나19 검사 결과를 판독하는 연구소에서 정부 공식 집계로 옮기는 과정에서 문제가 발생했다. 이는 초기 집계 위탁을 맡긴 제3의 계약자가 아닌 보건당국에 원인이 있는 것으로 보인다.

앞서 잉글랜드 공중보건국(PHE)은 9월25일부터 10월2일 사이 발생한 1만5천841명의 확진자가 매일 갱신되는 정부 집계에서 빠진 사실을 확인했다. 누락된 신규 확진 사례는 이달 2일 밤에야 진상이 파악됐다. 이후 3,4일엔 지난 누락 통계치가 뒤늦게 반영됐다.

엑셀 (사진=픽사베이)

보건당국은 코로나19 확진자 현황을 파악하기 위해 먼저 제3의 위탁기관으로부터 데이터를 받는다. 초기 코로나19 검사 결과는 CSV 파일 형식으로 알려진 텍스트 기반의 리스트 형태로 제출됐다. 여기까지는 문제가 발견되지 않았다.

이후 PHE가 이 데이터 엑셀 템플릿들을 종합해 중앙 시스템에 업로드 하고, 다른 정부 컴퓨터 대시보드나 추적팀 등에서 사용할 수 있도록 자동 프로세스를 설정하는 과정을 거친다.

문제는 PHE의 자체 개발자들이 엑셀 템플릿을 취합하면서 'XLS'로 알려진 구버전의 형식을 선택했기 때문에 발생했다. XLS은 1987년 이후 사용되던 파일 형식으로, 2007년 XLSX로 대체됐다. XLSX가 약 16배 많은 데이터를 포함할 수 있다.

이로 인해 각 템플릿 당 약 백만행 이상 처리되야 할 일을, 구버전에서 약 6만5천만행밖에 처리될 수밖에 없었다. 또한 각 테스트 결과가 여러 행의 데이터를 생성하면서 각 템플릿은 약 1천600개 케이스씩으로 제한됐다.

즉, 구버전 엑셀이 원본 데이터를 다 담지 못해 누락이 발생한 것이다. 여러 곳에서 데이터가 집계될 수록 누락되는 수는 더 많아질 수밖에 없는 구조다.

관련기사

BBC가 인용한 캠브리지 대학 존 크로크로프트 교수는 "일부 전문가는 고등학생도 더 잘 할 수 있는 일"이라며 "엑셀은 대량의 데이터를 취합해 분석할 수 있는 도구로, 보다 많은 데이터를 취급하고 복잡한 일을 해야할 때는 고려해야 할 게 많아지는데 그래도 아무도 XLS은 쓰지 않을 것"이라며 비판했다.

노동당 조나단 애쉬워스 보건장관은 코로나19 확진 통계 누락이 발생하면서 다른 국민들의 생명에 위협이 될 수 있었다고 지적했다. 그는 "수천명의 사람들이 자신이 코로나19에 노출됐다는 사실을 모르고 있을 것"이라며 "병원 입원이 증가하는 상황에서 치명적인 바이러스가 퍼지고 있을 것"이라고 말했다.