AI 허위정보·폭력성 자동 감지…MS, AI 보안 점검 도우미 공개

마이크로소프트(MS)가 허위정보, 폭력성과 혐오 표현, 민감 정보 유출 등 인공지능(AI) 서비스 중 발생할 수 있는 위험 요소를 자동으로 점검하고 수치화하는 AI 도구를 선보인다.

MS는 AI 운영을 위한 자동화 도구인 'AI 레드 트레이닝 에이전트'를 미리보기 버전으로 출시했다고 공식 블로그를 통해 7일 밝혔다.

AI 레드 트레이닝 에이전트는 AI 시스템이 악의적인 입력이나 사회적으로 민감한 요청에 어떻게 반응하는지를 자동으로 평가할 수 있도록 설계됐다.

특히 AI가 허위정보, 폭력성, 혐오 표현, 성적 콘텐츠, 민감 정보 유출 등의 위험에 얼마나 취약한지를 테스트해 실제 환경에서 AI의 안전성을 정량적으로 확인하고 개선할 수 있는 기반을 제공한다.

이 AI 도구는 마이크로소프트가 오픈소스로 공개한 AI 위험 분석 툴킷 '파이썬 리스크 신원 확인 툴킷(PyRIT)'을 바탕으로 한 것으로, 단순한 개발 테스트를 넘어서 '레드 팀(모의 공격자)' 방식의 보안 점검을 자동화한 것이 특징이다.

기존의 AI 보안 테스트는 보통 수작업으로 이루어졌고 특정한 시나리오나 질문에 대해 사람이 일일이 입력하고 반응을 분석하는 과정이 필요했다.

AI 레드 트레이닝 에이전트는 이런 과정을 자동화해 사전에 설정된 다양한 공격 시나리오와 민감 프롬프트를 AI에 제시한다. 또 이에 대한 응답을 평가해 AI의 대응이 적절했는지를 수치와 리포트 형태로 제공한다.

이를 통해 사용자는 AI 시스템이 어떤 위험에 노출돼 있는지, 어느 정도 수준으로 문제를 방지하고 있는지 파악할 수 있다.

또 AI 레드 트레이닝 에이전트는 단순히 기능성 테스트를 넘어서 콘텐츠 기반 위험을 중점적으로 다룬다.

생성형 AI는 본질적으로 언어를 기반으로 작동해 어떤 질문이 입력됐는지에 따라 다양한 출력을 생성할 수 있다. 이 과정에서 사회적으로 문제가 되는 발언이나 정보가 나올 가능성도 존재한다. 여기에 AI가 ▲폭력을 부추기는 조언 ▲정치적으로 민감한 발언 ▲불법적 활동에 대한 조언 ▲민감한 개인정보 노출 등에 어떻게 반응하는지를 평가를 거쳐야만 안정적으로 실제 서비스에 투입할 수 있다.

AI 레드 트레이닝 에이전트는 이 같은 입력을 자동으로 생성하고 AI 시스템에 반복적으로 주입한 뒤 그 응답이 안전한지를 평가하며 문제가 되는 응답에는 구체적인 지적을 해준다. 평가 결과는 공격 성공률(ASR) 등 정량적 지표로 제공되며 위험 범주별로 점수 카드 형식의 리포트가 생성된다.

애저 AI 파운드리 사용자는 별도의 복잡한 설정 없이 해당 에이전트를 활용할 수 있다. 애저 AI 평가 SDK와 통합돼 있어 개발자는 자신이 만든 모델이나 앱의 엔드포인트를 연결한 뒤 자동화된 공격 테스트를 실행하고 결과를 수집할 수 있다.

결과는 로그 형태로 남아 위험 대응 이력 관리나 컴플라이언스 보고서로 활용할 수 있다. 또 애저의 다른 보안 도구와 연동해 운영 중인 시스템의 전체적인 위험도까지 종합적으로 관리할 수 있다.

이 도구는 개발자를 비롯해 보안 팀, 품질 보증 팀, 정책 담당자 등 다양한 조직 구성원이 함께 사용할 수 있도록 구성됐다. 이를 통해 실제 기업 환경에서 AI 거버넌스를 구축하는 데 효과적인 협업 도구로도 기능한다.

마이크로소프트는 이 도구의 핵심 가치를 '책임 있는 AI' 실현이라고 강조한다. AI가 사회에 긍정적인 영향을 주기 위해서는 단지 정확하거나 빠르기만 해서는 안 되며 윤리적이고 신뢰할 수 있어야 한다는 것이다.

이를 위해 기업은 AI가 의도치 않게 편향된 정보를 생성하거나, 누군가에게 해를 끼칠 수 있는 방식으로 작동하지 않도록 끊임없이 점검하고 개선해야 한다. 하지만 이 과정을 일일이 수작업으로 수행하는 것은 비용과 시간이 많이 드는 일이다.

이에 AI 레드 트레이닝 에이전트는 이러한 부담을 줄이면서도 고도화된 공격 시나리오를 반복적으로 테스트해 문제 가능성을 사전에 파악할 수 있게 해준다. 이는 단순한 기술 도입을 넘어 기업이 AI를 어떻게 '책임 있게' 운영할 것인가에 대한 실질적인 실행 방안을 제공한다는 점에서 중요한 의미를 갖는다.

현재 이 도구는 애저 AI 파운드리 사용자에게 프리뷰 형태로 제공되며 추후 사용자의 피드백을 반영해 기능을 개선한 정식 버전으로 확장될 예정이다. 가격 정책은 애저 AI의 평가 및 리스크 분석 기능과 동일하게 적용되며 관련 문서와 샘플 코드는 깃허브를 통해 확인할 수 있다.