25일 KT 장애 원인 '라우팅 명령어 오류'로 최종 확인

과기부, 원인 분석 결과 발표..."새 장비 정보 입력 오류로 순식간에 먹통돼"

방송/통신입력 :2021/10/29 15:43    수정: 2021/10/29 16:08

지난 25일 KT의 유무선 인터넷 서비스 장애는 부산 지역에 새로 도입한 라우터 장비에 잘못된 정보가 입력되면서 빚어진 일로 확인됐다.

부산 신규기업용 라우터에 잘못된 라우팅 정보가 입력됐고, 백본 라우터와 서울의 혜화 국사, 구로 국사 라우터에 잘못된 정보가 전달됐다.

이후 서울의 두 국사에서 잘못된 정보가 다른 지역의 전달되면서 단 30초 만에 KT 서비스 먹통을 일으켰다.

과학기술정보통신부는 29일 이와 같은 KT 네트워크 장애사고 원인 분석 결과를 발표했다.

정부가 꾸린 사고조사반에 따르면 25일 오전 11시 16분경부터 장애가 발생한 뒤 DNS 트래픽 증가에 이어 서비스 장애가 발생했고 같은 날 12시 45분경 복구조치가 완료됐다.


■ 새 라우터 교체하면서 exit 명령어 누락

조사반이 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터 교체 작업 중에 작업자가 잘못된 설정 명령을 입력했고, 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.

인터넷 서비스가 제공될 때, PC와 스마트폰 등 개인의 접속단말은 지역 라우터, 센터 라우터 등을 거쳐 국내외 네트워크로 연결되는데 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환하는 프로토콜을 사용하는데, KT 네트워크와 외부 네트워크 경로 구성에는 BGP 프로토콜을 사용하고 KT 내부 네트워크 경로 구성에는 IS-IS 프로토콜을 사용한다.

BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.

작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했다.

이에 따라 BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다.


■ 안전장치 없이 전국 라우터가 하나로 묶여

통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 됐다는 설명이다.

IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달됐다.

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결됐다.

결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대됐다.

KT 네트워크 구조

■ DDoS 공격은 확인되지 않아

최초 장애 발생 원인이 DDoS로 의심되기도 했지만 이는 아닌 것으로 결론내렸다.

사고 발생 당시 KT DNS 서버에 트래픽이 급증했다. 혜화 국사의 중당 1차 DNS에 22배 이상의 트래픽이, 2차 DNS에는 4배 이상 트래픽이 증가했다.

DDoS 공격은 1개의 IP가 다량의 도메인이나 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 대량의 패킷을 DNS에 전송하는 대역폭 공격의 유형을 보이는데 조사반의 분석에 따르면 둘 다 해당하지 않았다.

DNS 서버 트래픽 증가는 있었지만, 시스템 자원 공격이나 대역폭 공격은 없었다는 설명이다.


■ IPTV 음성전화는 왜 안됐나

인터넷 서비스 망과 IPTV 서비스 망은 분리돼 있다. 아울러 음성전화와 문자 서비스 망도 별도로 구성돼 있다.

하지만 인터넷 서비스 장애로 전화와 문자 이용이 늘어나면서 음성과 문자 망 이용이 급증한 것으로 파악됐다.

또 IPTV 셋톱 등 단말 전원 리셋 이용자로 트래픽이 증가하고 망에 부하가 가중된 것으로 추정됐다.


■ 야간 작업을 왜 주간에 했나

이번 사고에서 조사반이 문제를 삼는 부분은 관리적인 문제다.

KT네트워크관제센터에서는 새벽 1시부터 오전 6시까지 야간작업을 승인했지만, 실제 작업 수행이 주간이 일어났다.

KT 관리자 없이 협력업체 직원만 라우팅 작업을 수행하는 점도 문제로 꼽힌다. 작업관리체계가 부실했고, 네트워크에 물려있는 상태로 작업이 이뤄졌다는 설명이다.

라우팅 작업계획서 상의 명령어 스크립트에서 프로토콜을 종료하는 명령어가 누락됐지만 이를 사전 검증 과정에서 발견하지 못한 기술적 문제점도 꼽혔다.

아울러 네트워크가 차단된 가상 상태에서 오류를 미리 발견하는 가상 테스트베드가 없었고, 지역 한 곳에서 발생한 오류가 전국으로 확산되는 점을 막을 수 있는 시스템도 없었다.


■ 정부, 네트워크 안정성 확보방안 만든다

과기정통부는 KT 사고 조사 결과를 바탕으로 ‘네트워크 안정성 확보방안’을 만들기로 했다.

주요 통신사의 네트워크 작업체계, 기술적 오료확산 방지 체계를 점검하고 네트워크 작업 오류를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입하는 점이 방안에 포함된다.

또 네트워크관제센터에서 작업계획서 점검 체계를 구축토로 하고 라우팅 설정 오류가 확산되지 않도록 한 번에 업데이트되는 경도 정보 개수를 제한하는 방안도 검토될 예정이다.

조경식 과기정통부 차관은 “주요 통신사 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크 생존성 확보를 위한 구조적 대책 마련을 추진하겠다”고 밝혔다.

관련기사

이용자 피해 보상은 KT가 현황 조사를 거쳐 구제 방안을 마련하게 된다.

방송통신위원회는 이용자 피해구제 방안 이행 여부를 점검하게 된다. 방통위는 이와 함께 통신장애 발생 시 실효성 있는 구제를 위한 개선 방안을 검토한다.