마이크로소프트, 생성형 AI 안전 식별하는 도구 공개

생성형 인공지능(AI)의 보안이나 환각 현상 등을 자동으로 식별할 수 있는 도구가 나왔다. 개발자가 일일이 진행하던 모델 안전성 검증을 자동화할 수 있다.

22일(현지시간) 마이크로소프트는 생성형 AI 모델의 보안을 비롯한 오류 발생, 환각 현상, 비윤리적 출력 등을 사전에 식별할 수 있는 키트 '파이라잇(PyRIT)'을 공식 홈페이지를 통해 공개했다.

해당 키트는 그 동안 마이크로소프트 내부에서만 사용됐다. 자사 생성형 AI 서비스 '코파일럿'을 비롯한 AI 제품의 오류나 보안, 환각 현상 등을 체크해 왔다. 지난해 사내서 60개 넘는 생성형 AI 시스템 위험을 이 도구로 식별했다고 밝혔다.

마이크로소프트는 생성형 AI 모델의 보안을 비롯한 오류 발생, 환각 현상, 비윤리적 출력 등을 사전에 식별할 수 있는 키트 '파이라잇(PyRIT)'를 공개했다. (사진=마이크로소프트 홈페이지)

적용 원리는 간단하다. 우선 파이라잇은 악성 프롬프트를 생성형 AI 모델에 집어 넣는다. 모델이 응답을 하면, 파이라잇 내 채점 에이전트가 모델의 악성 정도를 수치화한다.

개발자는 해당 수치 기반으로 다음 프롬프트를 준비해 또 다른 검증을 진행한다. 파이라잇이 모든 검증을 마치면, 개발자는 이를 기반으로 제품 모델을 수정한다. 사람이 일일이 진행해야 했던 검증 업무가 자동화된 셈이다.

해당 키트의 장점은 생성형 AI의 보안부터 환각 현상 예방까지 한 프로세스 내에서 진행할 수 있다는 점이다. 일반적으로 생성형 AI의 보안, 유해 콘텐츠 차단, 환각 현상 예방을 위해선 각기 다른 프로세스를 거쳐야 한다. 적용되는 툴도 제각각이다.

관련기사

사티아 나델라 마이크로소프트 CEO가 행사에서 기조연설을 하고 있다. (사진=마이크로소프트)

현재 생성형 AI 모델은 아키텍처가 매우 다양할뿐 아니라 동일한 프롬프트에서 생성될 수 있는 결과도 다르다. 모든 AI 모델과 제품에 맞는 통일된 검증 프로세스가 없다. 생성형 AI 제품 기술 검증을 하는 데 오랜 시간이 걸릴 수밖에 없는 이유다. 반면 이 키트는 한번에 모든 과정을 처리할 수 있다. AI 제품 검토에 드는 시간을 줄일 수 있다.

마이크로소프트는 "파이릿을 통해 수천 개 악성 프롬프트를 실시간으로 만들 수 있다"며 "몇 주 걸리던 모델 평가를 몇 시간 만에 평가할 수 있다"고 홈페이지를 통해 밝혔다.