정부, 악성코드·침해사고 관련 AI 학습데이터 8억 건 구축

컴퓨팅입력 :2022/07/21 19:55

과학기술정보통신부와 한국인터넷진흥원(KISA)은 21일 서울 더플라자호텔에서 '사이버보안 AI 데이터셋 구축 성과 공유회'를 개최했다고 밝혔다.

사이버보안 AI 데이터셋은 AI기술을 활용한 보안제품·서비스 개발을 위해 필요한 정상·공격 데이터를 수집·분석·가공해 모아둔 AI 학습용 데이터다.

그간, 국내 보안기업들은 AI기술 도입 및 학습을 위한 양질의 학습용 데이터셋이 없어 어려움을 겪어 왔으며, 과기정통부와 KISA는 이와 같은 문제점을 해결하기 위해 지난해부터 사이버보안 분야 학습용 AI 데이터셋 구축사업을 추진해왔다.

이번 사업은 악성코드와 침해사고 2개 분야에서 진행됐으며, 각각 4억 건의 데이터를 만들었다.

사이버보안 AI 학습데이터 활용 방안

악성코드 분야 데이터셋은 ▲백신 진단명 ▲속성정보(제작도구, 유포‧경유지 등) ▲사회적 관심사항(코로나, 랜섬웨어, 비트코인 채굴 등) 키워드를 기반으로 한다.  

침해사고 분야 데이터셋에서는 ▲침해 행위(시스템, 네트워크, 장비 등) ▲침해사고 단계별(정보수집, 실행, 정보유출 등) ▲최신 침해사고 각본(시나리오) 등을 기반으로 구축했다.

구축한 AI 데이터셋은 공공, 통신, 게임, 보안기업 등 국민 생활과 밀접한 기업·기관을 대상으로 침해대응 실효성 검증을 통해 악성코드 분석율·탐지 정확도 제고 등의 개선효과도 확인했다.

넥슨코리아는 AI기반 악성코드 탐지모델을 도입해 내부 생성 데이터 악성 여부 분석율을 기존 50%에서 100%로 향상시켰다. KT는 이메일 서비스 첨부파일 내 악성코드 탐지 정확도 95%에서 98%로 향상시켰다.

이번 성과공유회는 사이버보안 분야 AI 데이터 활용 및 관련 기술 연구 등에 관심이 있는 보안·AI관련 기관‧기업들에게 데이터셋 활용방안을 공유하는 자리로 마련됐다.

이날 행사에서 김휘강 고려대 교수는 데이터셋 활용 중심 'AI기반 사이버 보안전망'을 주제,  KISA 이정민 팀장은 사이버보안 AI데이터셋 구축 전략과 사업 소개를 주제로 발표했다. 

관련기사

과기정통부 김정삼 정보보호네트워크정책관은 "지능화‧고도화되는 사이버 위협에 대응하기 위해 사이버 보안 분야에도 AI기술 활용 증가가 예상되는 상황으로 이번에 구축된 데이터셋이 민간 부분의 사이버 대응능력을 한 단계 도약 시킬 수 있는 마중물이 될 것"이라며 "앞으로도 정부는 양질의 사이버보안 분야 AI 데이터셋을 확대 구축할 계획이며, 타 산업분야 적용확대 및 미래 보안기술 개발 촉진으로 이어질 수 있도록 더욱 노력 하겠다"고 밝혔다.

올해는 ▲응용 프로그램 보안(취약점) 분야 ▲능동형 보안관제 분야 ▲위협 공격자 분석(프로파일링) 등 3개 분야 사업을 추진 중이다.