생성형 인공지능(AI)의 보안이나 환각 현상 등을 자동으로 식별할 수 있는 도구가 나왔다. 개발자가 일일이 진행하던 모델 안전성 검증을 자동화할 수 있다.
22일(현지시간) 마이크로소프트는 생성형 AI 모델의 보안을 비롯한 오류 발생, 환각 현상, 비윤리적 출력 등을 사전에 식별할 수 있는 키트 '파이라잇(PyRIT)'을 공식 홈페이지를 통해 공개했다.
해당 키트는 그 동안 마이크로소프트 내부에서만 사용됐다. 자사 생성형 AI 서비스 '코파일럿'을 비롯한 AI 제품의 오류나 보안, 환각 현상 등을 체크해 왔다. 지난해 사내서 60개 넘는 생성형 AI 시스템 위험을 이 도구로 식별했다고 밝혔다.
적용 원리는 간단하다. 우선 파이라잇은 악성 프롬프트를 생성형 AI 모델에 집어 넣는다. 모델이 응답을 하면, 파이라잇 내 채점 에이전트가 모델의 악성 정도를 수치화한다.
개발자는 해당 수치 기반으로 다음 프롬프트를 준비해 또 다른 검증을 진행한다. 파이라잇이 모든 검증을 마치면, 개발자는 이를 기반으로 제품 모델을 수정한다. 사람이 일일이 진행해야 했던 검증 업무가 자동화된 셈이다.
해당 키트의 장점은 생성형 AI의 보안부터 환각 현상 예방까지 한 프로세스 내에서 진행할 수 있다는 점이다. 일반적으로 생성형 AI의 보안, 유해 콘텐츠 차단, 환각 현상 예방을 위해선 각기 다른 프로세스를 거쳐야 한다. 적용되는 툴도 제각각이다.
관련기사
- 마이크로소프트가 인정한 이 기업…보안 역량 '굿'2024.02.19
- 포지큐브, 한국마이크로소프트 ‘코리아 솔루션 파트너 어워드’ 수상2024.02.16
- 마이크로소프트, '빌드2024' 5월21일 시애틀서 개최2024.02.15
- 마이크로소프트, 슈퍼볼 광고 맞춰 '코파일럿' 디자인 개편2024.02.08
현재 생성형 AI 모델은 아키텍처가 매우 다양할뿐 아니라 동일한 프롬프트에서 생성될 수 있는 결과도 다르다. 모든 AI 모델과 제품에 맞는 통일된 검증 프로세스가 없다. 생성형 AI 제품 기술 검증을 하는 데 오랜 시간이 걸릴 수밖에 없는 이유다. 반면 이 키트는 한번에 모든 과정을 처리할 수 있다. AI 제품 검토에 드는 시간을 줄일 수 있다.
마이크로소프트는 "파이릿을 통해 수천 개 악성 프롬프트를 실시간으로 만들 수 있다"며 "몇 주 걸리던 모델 평가를 몇 시간 만에 평가할 수 있다"고 홈페이지를 통해 밝혔다.