MS, AI 에이전트 검증·통제 기준 제시…"정책 위반 차단"

마이크로소프트가 인공지능(AI) 에이전트 행동 평가와 실행 통제를 표준화하는 기술 체계를 공개했다. 이로써 AI 에이전트가 실제 업무를 수행하는 과정에서 무엇을 해도 되고 무엇을 해선 안 되는지를 더 명확히 평가하고 집행할 수 있는 기반을 마련했다.

마이크로소프트는 자연어 행동 요구사항을 실행 가능한 평가로 바꾸는 오픈소스 프레임워크인 'AI 에이전트 작동 검증 프레임워크(ASSERT)'와 AI 에이전트 런타임 거버넌스를 위한 개방형 표준인 'AI 에이전트 런타임 거버넌스 표준(ACS)'을 소개했다. 두 기술은 AI 에이전트가 모델 응답을 넘어 도구 호출과 워크플로 실행까지 수행하는 환경을 겨냥했다.

AI 에이전트 작동 검증 프레임워크는 제품 요구사항이나 정책 문서에 적힌 AI 행동 기준을 테스트 시나리오와 데이터세트, 지표, 스코어카드로 전환하는 프레임워크다. 기업이 문서로 정리한 'AI가 이렇게 행동해야 한다'는 기대를 실제 모델과 애플리케이션, 에이전트에 적용 가능한 평가 체계로 바꾸는 것이 핵심이다.

마이크로소프트는 자연어 행동 요구사항을 실행 가능한 평가로 바꾸는 오픈소스 프레임워크인 'AI 에이전트 작동 검증 프레임워크(ASSERT)'를 소개했다. (사진=마이크로소프트)

마이크로소프트는 기존 평가 방식만으로는 애플리케이션별 행동 경계를 충분히 검증하기 어렵다고 봤다. 유용성, 관련성, 근거성, 유해성 같은 일반 지표는 참고 신호가 될 수 있지만 환불 기준, 사기 의심 대응, 승인 경계 준수 같은 제품별 요구사항을 직접 평가하긴 어렵다는 설명이다.

AI 에이전트 작동 검증 프레임워크는 행동 사양을 개념 사양으로 정리한 뒤 허용 가능한 행동과 허용 불가능한 행동의 분류체계로 바꾼다. 이후 계층화된 테스트 사례를 만들고 대상 시스템에 실행해 도구 사용, 검색 맥락, 라우팅, 중간 조치까지 기록한다.

이 추적 기록은 AI 에이전트 평가에서 중요한 역할을 한다. 최종 답변만 보는 것이 아니라 어떤 도구를 호출했는지, 어떤 중간 판단을 거쳤는지, 어느 행동이 실패를 일으켰는지 확인할 수 있기 때문이다.

마이크로소프트는 내부 검증에서 해당 프레임워크가 기존 사내 기준선보다 의도한 행동 공간을 약 1.2배 더 많이 포괄하고 점검할 만한 사례를 약 1.5배 더 많이 드러냈다고 설명했다. 강한 시스템과 약한 시스템 사이의 차이도 4배 이상 더 뚜렷하게 구분했다고 밝혔다.

'AI 에이전트 런타임 거버넌스 표준은 AI 에이전트가 실행되는 과정에서 정책을 어디서 어떻게 적용할지 정의하는 런타임 거버넌스 표준이다. 특정 에이전트 프레임워크나 런타임, 정책 엔진에 종속되지 않고 에이전트 생명주기 전반에 통제 지점을 두는 방식이다.

ACS는 AI 에이전트가 실행되는 과정에서 정책을 어디서 어떻게 적용할지 정의하는 런타임 거버넌스 표준이다. (사진=마이크로소프트)

마이크로소프트는 기존 보안 모델이 에이전트 환경을 충분히 반영하지 못한다고 지적했다. 같은 자격 증명이라도 회의 요약을 슬랙에 올릴 때는 안전할 수 있지만 기밀 문서를 읽은 뒤 외부 사용자가 있는 대화방에 게시할 때는 위험해질 수 있다는 것이다.

AI 에이전트 런타임 거버넌스 표준은 에이전트 시작, 사용자 입력, 모델 호출 전후, 도구 호출 전후, 최종 출력, 에이전트 종료 등 여덟 개 개입 지점을 정의한다. 각 지점에서 정책은 현재 맥락을 평가하고 허용, 경고, 거부, 상위 단계 이관 같은 판정을 내릴 수 있다.

이 구조는 프롬프트에만 의존하는 방식과 다르다. 시스템 프롬프트는 유용하지만 사용자 입력과 도구 결과, 공격자가 조작한 텍스트와 같은 흐름 안에 놓이기 때문에 강제력이 약하다.

애플리케이션 코드에 직접 박은 규칙도 한계가 있다. 감사와 재사용이 어렵고 팀이 프레임워크를 바꾸면 같은 정책을 다시 구현해야 한다. ACS는 정책 입력 형식과 증거 수집, 판정 정규화, 집행 방식을 표준화해 이 문제를 줄이려 한다.