"보안, 'AI 퍼스트'보단 '스몰 AI'가 바람직"

조영철 파이오링크 대표 "목표 따른 적절한 데이터셋 구축이 핵심"

컴퓨팅입력 :2021/04/08 16:42

"인공지능(AI)에 대한 기대감이 높고, 적용해볼 과제들이 많이 있다. 그러나 'AI 퍼스트'보다 '스몰 AI'로 시작하기를 추천한다. AI는 데이터를 어떻게 확보할 것인지가 가장 근본적인 어려움이다. 양이 중요한 게 아니라, 적절하고 의미 있는 데이터인지가 중요하다. 이런 데이터를 토대로, 소형 프로젝트부터 성공하는 경험을 쌓으면서 AI 전문가도 현장에서 길러내는 것이 바람직하다."

조영철 파이오링크 대표는 정보보안 분야에 AI를 접목하는 것에 대해 8일 온라인으로 열린 기술 세미나 'AI 시큐리티 데이'에서 이같이 조언했다.

AI가 가장 주목받는 기술 중 하나로 부상하면서 각종 모델 및 상용화 사례가 등장하고 있다. 보안 분야에서도 이상 징후 탐지 및 대응을 위해 AI 도입이 이뤄지는 추세다. 그러나 분야 특성상 AI가 학습해야 할 데이터를 확보하기 어렵고, AI 모델을 고도화하기 위한 난이도도 높다는 점을 감안해 AI 접목을 점진적으로 추진해야 한다는 것이다.

조영철 파이오링크 대표

조영철 대표는 우선 맬웨어 탐지 분야에서 AI가 보편적인 기술 요소로 자리잡고 있는 상황을 설명했다. 

조 대표에 따르면 현재는 90% 이상의 정확도를 달성하는 사례들이 많이 등장해 미탐·오탐 문제가 상당 부분 극복됐다. 다만 입력된 샘플 데이터에 따라 정상 파일일 확률을 보고 판정하는 머신러닝 기법 특성상, 정확도를 100%까지 올리기에는 한계가 있다는 것에 유의해야 한다고 당부했다.

그럼에도 기술 정확도가 과거보다 높아지면서, 국내에서도 AI를 보안에 활용하는 사례들이 나타나고 있다.

모바일 백신을 제공하는 시큐리온의 경우 APK 등 모바일 파일의 정상 여부를 분석하는 데에 머신러닝 기법을 활용, AV-테스트 등 백신 성능 평가기관에서 우수한 성적을 받고 있다.

엔드포인트 탐지 및 대응(EDR), 지능형지속위협(APT) 공격 탐지 기술을 제공하는 엔피코어는 악성코드를 이미지화한 뒤, 컨볼루션 신경망(CNN) 기술을 활용해 비정상 여부를 분석하는 방식을 사용하고 있으며 정확도가 매우 높게 도출되고 있다.

엔피코어 AI 활용 사례

그 외 보안 차원에서 정부기관 서비스의 웹 접속 로그를 AI로 분석해 사이버공격을 탐지하는 보안정보이벤트관리(SIEM) 도입 사례도 소개됐다.

이런 AI 보안 기술이 제대로 쓰이려면 AI 모델을 도입하는 데 그치는 게 아니라, AI에 입력되는 데이터를 지속적으로 잘 관리하는 것이 중요하다는 게 조 대표의 주장이다.

조 대표는 "시장조사업체 가트너에 따르면 프로토타입 AI 모델이 실제 현장에 적용될 가능성이 53%를 넘지 않았다"며 "행정기관 사례를 보면 AI에 자동화 기능을 많이 요구하는데, 획득한 데이터를 학습한 AI 모델을 검토 및 재수정하는 과정을 거치면서 AI를 자동화할 수 있게 된다"고 강조했다.

그러나 AI 보안의 경우 데이터의 정확도와 적절성을 따지기 이전에, 필요한 데이터를 확보하는 것 자체가 타 분야보다 훨씬 어렵다는 게 문제다. 

조 대표는 "보안 데이터는 공개된 것을 확보하기가 매우 어렵고, 프라이버시 이슈도 걸려 있어 데이터를 어떻게 확보할 것인지가 향후 중요한 문제가 될 것"이라며 "민관 정보 공유 플랫폼을 지속적으로 활성화할 필요가 있고, 데이터를 자체 생성하는 모델도 고려해볼 수 있다"고 설명했다.

이런 점을 고려해 전체 보안 체계에 AI를 일괄 도입하기보다, 보안 고도화가 시급한 과제부터 적정한 데이터셋을 구축하고 AI 접목을 하나씩 시도해나가는 방식이 적절하다고 봤다. 

관련기사

조 대표는 "기업 대상 사이버공격의 주된 경로인 악성 메일이나 통합보안장비(UTM), 또 많이 유포되고 있는 랜섬웨어 공격 등에 대해 정상·비정상 데이터들을 확보해두고 AI 보안을 시도해볼 만하다"며 "특히 악성 데이터도 중요하지만, 정상 데이터를 확보하는 것도 중요하면서 어려운 문제이니 이런 부분부터 시작하는 것이 바람직하리라 본다"고 말했다.

아울러 "앞으로 AI 보안은 악성코드 판단 및 탐지뿐 아니라, 발견된 악성코드의 위험도가 높은지, 출처는 어디인지, 누가 왜 유포했는지 등 '왓(What)'보다 '와이(Why)'가 중요해지게 될 것"이라며 "이에 설명 가능한 AI, 해석가능한 머신러닝 등의 기술 도입이 중요해지리라 본다"고 첨언했다.