마이크로소프트가 인공지능(AI) 악용을 위한 탈옥을 방지하는 기능을 출시했다.
26일 MS파워유저 등 외신에 따르면 마이크로소프트의 애저 오픈AI서비스와 애저AI콘텐츠 세이프티팀이 프롬프트실드를 선보였다.
AI 탈옥은 특정한 명령어나 상황을 입력해 윤리적으로 어긋난 답변을 유도하거나, 악의적인 작업을 수행하도록 만드는 공격방식이다.
프롬프트실드는 고급 기계학습 알고리즘과 자연어처리 기반 기술을 적용해 사용자 프롬프트와 외부 데이터에서 탈옥의 위험이 있는 잠재적 위협을 식별하고 무력화할 수 있다.
이와 함께 직접 프롬프트에 명령어를 입력하지 않고 이메일이나 외부 메시지 등으로 AI의 행동을 조작하는 간접 프롬프트 주입 공격까지 방지할 수 있는 기능도 제공한다.
관련기사
- 오픈AI "챗GPT 버그 찾아내면 2만 달러 드려요"2023.04.13
- "AI 모델 미세조정, 유해 답변·탈옥 확률 높여"2023.10.17
- 마이크로소프트 의료용 AI 챗봇에 보안 결함…"악용 사례 없어"2024.08.14
- "민감정보 유출 주의"…마이크로소프트, 새 보안 취약점 공개2024.08.11
마이크로소프트는 이를 위해 스포트라이트닝이라는 신규 기술을 개발했다. AI 모델에 입력된 데이터의 출처가 실제 사용자인지 아니면 제3자인지 구분하는 기술로 이를 통해 발생할 수 있는 부정적 상황을 무시하게 할 수 있다.
마이크로소프트 AI플랫폼팀 페데리코 자르파티 시니어 제품 매니저는 "스포트라이트닝은 대해 악성 공격 성공률을 2% 이하로 낮출 수 있는 방어 수단"이라며 "복잡한 환경에서 AI의 일관된 성능을 보장하고, 중요한 응용 프로그램에서의 보안을 강화하는 데 더욱 효율적"이라고 설명했다.