"AI 탈옥 막는다"…마이크로소프트, '프롬프트 실드' 발표

직간접 탈옥공격 모두 방지하는 스포트라이트닝 기술 적용

컴퓨팅입력 :2024/08/26 11:25

마이크로소프트가 인공지능(AI) 악용을 위한 탈옥을 방지하는 기능을 출시했다.

26일 MS파워유저 등 외신에 따르면 마이크로소프트의 애저 오픈AI서비스와 애저AI콘텐츠 세이프티팀이 프롬프트실드를 선보였다.

AI 탈옥은 특정한 명령어나 상황을 입력해 윤리적으로 어긋난 답변을 유도하거나, 악의적인 작업을 수행하도록 만드는 공격방식이다.

마이크로소프트가 AI탈옥을 방지하는 프롬프트 실드를 출시했다(이미지=마이크로소프트)

프롬프트실드는 고급 기계학습 알고리즘과 자연어처리 기반 기술을 적용해 사용자 프롬프트와 외부 데이터에서 탈옥의 위험이 있는 잠재적 위협을 식별하고 무력화할 수 있다.

이와 함께 직접 프롬프트에 명령어를 입력하지 않고 이메일이나 외부 메시지 등으로 AI의 행동을 조작하는 간접 프롬프트 주입 공격까지 방지할 수 있는 기능도 제공한다.

관련기사

마이크로소프트는 이를 위해 스포트라이트닝이라는 신규 기술을 개발했다. AI 모델에 입력된 데이터의 출처가 실제 사용자인지 아니면 제3자인지 구분하는 기술로 이를 통해 발생할 수 있는 부정적 상황을 무시하게 할 수 있다.

마이크로소프트 AI플랫폼팀 페데리코 자르파티 시니어 제품 매니저는 "스포트라이트닝은 대해 악성 공격 성공률을 2% 이하로 낮출 수 있는 방어 수단"이라며 "복잡한 환경에서 AI의 일관된 성능을 보장하고, 중요한 응용 프로그램에서의 보안을 강화하는 데 더욱 효율적"이라고 설명했다.