"국방AI, 프롬프트 인젝션 공격 등 대비 잘해야"

한국국방연구원(KIDA) 국방데이터연구단과 과실연 AI미래포럼이 공동 주최한 '2024년 제 8차 국방데이터 혁신네트워크 토크'가 26일 오후 2시~4시 서울 강남역 인근 모두의연구소 강남캠퍼스에서 열렸다. 지디넷코리아와 한국IT서비스학회, 모두의연구소가 후원했다.

행사 하이라이트인 발제는 윤두식 이로운앤컴퍼니 대표와 이호석 SK쉴더스 팀장이 했다. 윤 대표는 '프롬프트 엔지니어링을 통한 LLM(거대언어모델) 탈옥(제일브레이킹) 위협과 방어 방안'을 주제로 발표했다. AI에서 말하는 '탈옥(jailbreaking)'은 AI에게 걸려있는 규제를 풀어 AI가 할 수 없게 한 말이나 글을 하게 하는 걸 말한다.

윤 대표는 생성AI는 텍스트, 이미지, 코드 등 새로운 콘텐츠를 생성할 수 있는 능력이 있어 다양한 군사 용도에 활용할 수 있지만 동시에 여러 보안 문제를 발생시킬 수 있다면서 데이터 유출과 정보 왜곡을 경계했다. 특히 "생성AI가 잘못된 프롬프트나 악성 공격을 받으면, 민감한 정보가 의도치 않게 외부로 유출될 위험이 있다"면서 "생성형 AI는 학습한 데이터에 기반해 답변을 생성하므로, 모델이 과거 학습한 기밀 정보나 민감한 데이터를 무심코 생성하거나 제공할 수 있다. 이를 방지하기 위해 학습을 최소화하고 RAG 프레임워크를 활용해 데이터베이스에 저장된 정보 검색을 위주로 하는 등 데이터 생성을 최소화 하는 방안을 고려해 볼수 있다"고 말했다.

정보 왜곡 및 오인도 짚었다. 생성형 AI가 생성한 텍스트나 이미지가 오해를 불러일으킬 수 있다는 것이다. 윤 대표는 "이는 적대적 행위자들이 AI의 잘못된 출력을 이용해 잘못된 정보를 퍼뜨리거나, 국방 결정 과정에 혼란을 초래할 수 있다. 딥페이크 기술 악용이 대표적"이라면서 "국방 분야에서 잘못된 정보는 오작동이나 오판으로 이어져 심각한 결과를 초래할 수 있다"고 우려했다.

프롬프트 인젝션(Prompt Injection) 공격도 소개했다. '프롬프트 인젝션 공격'은 AI 모델이 주어진 프롬프트에 대해 잘못된 방식으로 반응하도록 유도하는 기법을 말한다. 공격자는 악의적인 입력을 통해 모델이 잘못된 출력을 생성하거나 민감한 정보를 드러내도록 유도할 수 있다.

적대적 공격(Adversarial Attacks)도 설명했다. 이는 AI 모델의 입력 데이터를 교묘하게 조작해 모델이 오작동하거나 잘못된 결과를 생성하게 하는 공격을 말한다. 군사적 AI 시스템에서 이러한 적대적 공격은 치명적이다. 윤 대표는 "적대적 예제(Adversarial Examples)는 적은 변형만으로도 AI 모델의예측이나 결과를 크게 왜곡할 수 있다. 예를 들어, 적대 세력이 AI가 인식하는 이미지나 텍스트를 변형해 시스템이 오탐을 하거나 적절한 대응을 하지 못하도록 유도할 수 있다"고 밝혔다.

적대 세력이 악용할 가능성이 있는 AI 모델 오용(Abuse of AI)도 문제다. 적대 세력이나 테러 단체가 국방용 생성형 AI 시스템을 역공학하거나 악용해 공격 시나리오를 계획하거나 방어 체계를 무력화하는 데 활용할 수 있는 것이다. 윤 대표는 "AI 모델이 악용될 경우, 자동화된 사이버 공격의 도구로 사용될 수 있다. 예를 들어, AI를 활용해 자동으로 사이버 공격 경로를 찾고 이를 실행하는 도구로 변질될 수 있다"고 진단했다.

생성형 AI 보안 이슈에 대한 대응 방안도 제시했다. 첫째, 보안 검증 및 테스트다. AI 모델 배포 전, 보안 검증 절차와 취약성 테스트를 강화해 잠재적 위협을 사전에 발견하고 해결해야한다는 것이다. 둘째, 레드 팀 및 모의 공격(레드 팀 훈련)이다. 윤 대표는 "AI 시스템의 보안 취약점을 탐지하기 위해 레드 팀 훈련을 주기적으로 실시해 시스템이 실제 공격에 대비할 수 있도록 해야한다"고 말했다. 셋째, 모델 투명성 및 추적성 강화다. AI 모델 결정을 추적할 수 있게 로깅 시스템을 도입하고, 의사결정 과정이 투명하게 유지되도록 해야 한다는 것이다. 넷째, 프롬프트 인젝션 방지 기술을 갖춰야 한다. AI 시스템에 입력 검증을 강화하고, 악의적인 입력이 시스템에 침투하지 않도록 강력한 필터링 및 제어 시스템을 구축해야 한다. 다섯째, 적대적 공격에 대응할 수 있는 방어 알고리즘을 개발하고, AI 모델이 오작동을 방지할 수 있도록 내성을 강화해야 한다고 제안했다.

윤 대표는 "국방에서 사용하는 AI는 폐쇄망에서 사용하거나, 폐쇄형 디바이스(On-Device) AI일 가능성이 높기 때문에 업데이트가 쉽지 않다. 또 적에게 탈취돼 취약점이 발견되면, 이를 역이용해 다른 동일한 모델의 타기기를 공격하는데 기초자료로 활용될 수 있는 가능성이 높다"면서 "이에따라 인공지능 모델에 대한 취약점, 프롬프트 인젝션 공격 등 등 다양한 레드티밍을 꾸준히해 공격 가능성을 최소화 하는 것이 중요하며, 인공지능이 전쟁에 필수재가 될 날이 머지 않았기 때문에 이에 대한 연구와 준비를 빨리해야 한다"며 강연을 마쳤다.

윤 대표에 이어 SK쉴더스 이호석 팀장이 '사용자, 개발자 모두 알아야 하는 LLM 해킹 트렌드 및 보안 전략'을 주제로 발표했다. 이 팀장은 2023년 생성AI 투자가 2022년 대비 약 12배 증가, 생성형 AI모델들의 성능이 크게 발전했다면서 "지금까지는 모델 중심의 발전이 주류가 됐지만 앞으로는 기업 내부 데이터와 모델을 결합한 기업 맞춤형 AI로 확장할 것"으로 예상했다.

생성형 AI에 사용하는 모델 중 LLM이 절반 이상 비중을 차지하고 있는데, 이 팀장은 군사 분야의 생성AI 활용에 대해 "여러 형태의 데이터와 추론 및 예측에 강점을 지닌 LLM을 표적 탐지, 작전 시뮬레이션,군사 훈련 및 교육 등에 활용해 효율적인 훈련 및 대응을 할 수 있다"고 내다봤다. 또 현재 국내외에서 군사분야에 생성AI를 사용하려는 시도가 활발히 이뤄지고 있다면서 "국내서는 국방 맞춤형 생성AI 서비스를 시범 도입하고 있으며, 해외에서는 팔란티어에서 개발한 'AIP 포 디펜스' 대표적이라고 들려줬다.

AI 사고 사례와 위협도 지적했다. LLM을 다양하게 활용함에 따라 개인정보 유출, 과도한 의존 및 악용 같은 사고가 발생하고 있으며, 군사분야에서도 몇 가지 사례가 발생했고, 이에 대한 대응이 필요하다는 것이다.

소프트웨어 보안 개선에 전념하는 유명한 비영리 단체인 OWASP가 작년에 발표한 'LLM 애플리케이션 취약점 톱10'도 소개했다. 이에 따르면 프롬프트 인젝션, 불안전한 출력 처리, 학습 데이터 중독, 민감 정보 노출, 부적절한 플러그인 설계, 과도한 에이전시, 공급망 취약점, 모델 탈취 등이 포함됐다.