SK인포섹 "AI 보안관제로 지능형 위협 막겠다"

채영우 SW개발센터장이 밝힌 머신러닝 모델개발-비즈니스 활용 분투기

컴퓨팅입력 :2018/09/12 16:29

"사이버보안 최전선인 보안관제 분야에 인공지능(AI)과 머신러닝을 활용하는 시도가 이뤄지는 건 필연적이다. 다만 최근 2~3년은 과도한 기대감이 형성된 시기였다. 우리도 시행착오를 거쳤다. 이제 활용에 따른 효과를 증명할 수 있는 분야부터 활발한 적용이 이뤄질 전망이다."

SK인포섹의 채영우 소프트웨어(SW)개발센터장은 12일 서울 종로 간담회 자리에서 'AI를 활용한 보안관제서비스 고도화'를 주제로 발표하며 이같이 말했다. 그는 사이버위협 동향, 보안관제 분야의 도전과제, 머신러닝과 AI 활용으로 이를 극복하는 SK인포섹의 전략을 제시했다.

보안관제는 기업 보안장비와 솔루션의 위협정보를 수집, 탐지, 분석하고 사이버공격으로 판별되면 그에 대응, 조치하는 과정이다. SK인포섹은 보안관제서비스 전문업체로서 다른 기업의 보안시스템 데이터를 수집, 이상징후 탐지, 분석을 수행해 사이버공격 여부를 판별한다.

채 센터장은 "지능형 공격이 늘고 다양한 시스템에서 수집 데이터가 폭증해 보안관제 담당자들이 위협을 정확하게 탐지하는 데 어려움을 겪고 있다"며 "국내외 보안기업 대부분 비정상 및 공격 행위를 빠르고 정확하게 찾아내려고 머신러닝 도입을 서두르고 있다"고 말했다.

SK인포섹 채영우 소프트웨어개발센터장

SK인포섹도 마찬가지다. 회사는 국내외 2천여곳 8천대 이상 보안시스템에서 초당 15만건의 이벤트 데이터를 수집한다. 그중 분석할 가치가 있는 위협을 걸러내고, 분석이 정확했는지 검증하고, 그간 분석 못했던 공격 위협을 더 잘 포착하는 일에 머신러닝을 접목하고 있다.

■ "머신러닝-AI로 대응 위협이벤트 70% 감축…인간 보안전문가에게 학습 데이터셋 구축 맡길 것"

SK인포섹은 앞서 머신러닝을 통한 탐지 자동화를 시도했다. 지난해 초 서울대학교와 산학협력으로 알려지지 않은 지능형 공격을 탐지 단계에서 찾아내는 머신러닝 알고리즘 개발을 시작했다. 지능형 공격의 징후를 자동으로 찾아낸다면 보안관제 업무 효율을 확 높일 수 있다.

그런데 회사는 이 연구 중 방향을 살짝 틀었다. 머신러닝을 탐지 단계에 직접 적용하는 대신, 탐지된 결과의 판정 작업을 자동화하는 머신러닝 분석 알고리즘을 만들었다. 회사가 보유한 위협정보, 보안전문가 분석논리, 글로벌 보안업체와 공유하는 위협인텔리전스를 활용했다.

채 센터장은 "과거 탐지 결과를 재분석하고 대응하기까지 과도한 리소스가 사용됐는데, 머신러닝 적용 후 대응해야 할 이벤트 수가 70% 감소했다"면서 "그만큼 절약한 리소스를 위협 가능성이 높은 이벤트 분석에 집중시켜 전체 서비스 품질 개선 효과를 얻었다"고 말했다.

당초 시작한 탐지 자동화 연구도 계속 진행된다. 이미 산학협력으로 축적한 기술, 앞으로 자동 판정으로 생산될 데이터를 활용한다. 채 센터장은 "AI가 찾아낸 위협은 대응 이전에 그 이유를 알 수 있어야 한다"며 "효과성뿐아니라 설명과 검증 가능성을 갖춰야 한다"고 말했다.

연구성과는 SK인포섹의 관제플랫폼 '시큐디움'을 통해 구체화될 전망이다. 회사는 지난해 6월 이 플랫폼에 기반한 위협인텔리전스 서비스를 출시했다. 지난해 산학협력으로 네트워크정보 기반 이상징후 탐지, 올해 8월까지 머신러닝 기반 탐지결과 판정 자동화 기술을 개발했다.

SK인포섹 채영우 소프트웨어개발센터장

이미 SK인포섹은 올해 7월부터 시큐디움 관제플랫폼 고도화 작업을 진행 중이다. 내년 6월까지 1년간 네트워크트래픽분석(NTA) 데이터에 기반한 이상징후 탐지, 위협인텔리전스를 연계한 위협헌팅, 보안 자동화 및 오케스트레이션(SA&O) 기술을 도입할 계획이다.

회사는 중장기 AI 보안관제 사업전략을 추진 중이다. 위협정보 수집, 탐지, 분석, 대응 등 관제 자동화 기술을 개발할 계획이다. 위협분석 업무 주체를 보안전문가에서 위협인텔리전스와 머신러닝으로 점차 대체하고, 보안전문가가 AI 학습 데이터셋 구축에 주력케 할 방침이다.

SK인포섹 도지헌 전략사업부문장은 "현재 AI로 위협분석효율을 높이고 관제범위를 확대해 글로벌 경쟁력을 갖추는 데 집중하고 있다"며 "정보 및 물리 영역을 넘나드는 위협이 현실화하는 가운데 사회와 산업을 보호하고 기술을 선도하는 글로벌 보안업체가 되겠다"고 말했다.

■ 머신러닝 연구개발 사례로 본 SK인포섹 AI 보안관제 자동화 분투기

SK인포섹이 보안관제 자동화에 머신러닝과 AI를 보안관제 프로세스에 접목하려는 전략은 하루아침에 완성될 수 없다. 그간 SW개발센터에서 겪었다는 머신러닝 모델 개발 과정상의 시행착오가 그 밑거름으로 작용할 듯하다. 간담회에서 소개된 사례연구 4가지를 짚어 본다.

첫 사례연구는 위협정보를 통해 미탐(false negative)을 식별하려던 서울대와의 산학협력과제였다. SK인포섹은 고객사 2곳의 방화벽 데이터를 정상 상태를 포함해 활용하기로 했다. 시계열 데이터 학습 모델로 딥러닝 기술 중 순환신경망(RNN)의 일종인 롱숏텀메모리(LSTM) 모델을 선정했다. 공격 트래픽이 정상 트래픽의 예외사례(outlier)로 분류될 것이라 가정하고 그 탐지 모델로 군집화(Clustering) 모델을 선정했다. 최종적으로 미탐 식별 모델로는 부적절했다는 점, 오탐(false positive) 원인 분석 필요성, 판정 보충정보로서 효과 확인 결론을 얻었다.

둘째 사례연구는 서울대와의 산학협력 연구 과정에 함께 만든 판정 검증 자동화 알고리즘이었다. 이는 고객사 한 곳의 정상 및 공격 트래픽 데이터가 혼합된 NTA 장비 로그 30만8천여건 중 17만4천여건의 NTA 데이터를 입력해 공격과 정상 여부를 판정하는 딥러닝 모델을 학습시켰다. SK인포섹은 이 알고리즘의 공격 및 정상 트래픽 판정 결과가 일정수준 이상으로 유효하다는 점, 공격 판정 결과 중 오탐(false positive)이 일정수준 미만으로 유효하다는 점, 상대적으로 높은 미탐(false negative)율로 탐지 전처리 적용 한계가 있다는 점을 확인했다.

SK인포섹이 진행한 위협이벤트 판정결과 검증 머신러닝 모델 학습과정 및 추론 결과 개요.

셋째 사례연구는 올해 1월부터 8월까지 진행된 정오탐 분류 모델이었다. 탐지가 발생한 보안이벤트, 그걸 정탐(true positive)인지 오탐인지 분류하는 규칙과 실제 인간 보안전문가의 판단 결과를 학습하는 방식이었다. 딥러닝 기반 학습 방법 중 여러 모델을 결합하는 앙상블(Ensemble)을 동원했다. 위협 이벤트 중 공격 판정과 정상 판정 데이터는 패턴이 다를 것이라 가정하고 군집(Clustering) 및 회귀(Regression) 분석 탐지를 수행하고 기계와 전문가의 판정결과를 대조 검증했다. 미탐율이 0.0074%를 기록, 유효성을 확인했다. SK인포섹은 9~11월중 이 정오탐 분류 모델을 시큐디움 플랫폼에 적용해, 기존 탐지 규칙과 함께 AI기반 추가분석 기능으로 활용할 계획이다.

관련기사

넷째 사례연구는 이상행위 탐지 학습모델 개발이다. 네트워크 장비의 패킷에서 메타데이터를 추출해, 이상징후 학습모델로 1차 이상징후를 걸러낸 뒤 인간 보안전문가의 종합분석으로 최종 판정을 내리는 AI 관제 프로세스에 활용될 예정이다. 이는 올해 7월부터 내년 6월까지 연구개발을 진행할 주제라, 아직 결과 데이터가 나올 시점은 아니다. 일단 SK인포섹은 현시점에 구상 중인 계획을 제시했다. 회사는 일단 네트워크 장비의 패킷, 플로, 시스템 입출력(I/O) 등 데이터를 룰 기반과 다른 기법을 결합한 앙상블 모델로 학습시킬 계획이다. 학습모델 적정 데이터와 탐지모델을 개발해 최종적으로 이상징후 탐지서비스를 출시한다는 목표다.

SK인포섹은 이런 머신러닝 모델 학습 연구개발 결과물을 핵심 비즈니스에 활용하는 과정에서 도메인 전문가들 역할이 중요하다는 점을 강조했다. 채영우 SW개발센터장은 "아무리 머신러닝과 AI로 사람이 감당할 수 없는 데이터를 효율적으로 처리할 수 있다 해도 도메인전문가를 통해 그 결과를 보완할 수 있는 절차가 없다면 무의미하다"며 "실제 사업에 적용한 모델을 만드는 데 핵심은 보안관제라는 도메인 전문가"라고 언급했다.