'깜깜이' 평가 벗는다…AI안전연구소, 모델 성적표 공개 기조로

싱가포르와 에이전트 안전성 공동 평가 보고서 발간…"앞으로 가급적 모든 내용 공개"

컴퓨팅입력 :2026/06/19 16:19

한국 인공지능안전연구소(AISI)가 2024년 11월 출범 이래 비공개해 온 인공지능(AI) 모델 안전성 평가 결과를 점진적으로 공개하기로 했다. 오픈소스 모델을 포함해 국내외 주요 AI 모델을 대상으로 수행한 안전성 평가 실적을 보다 상세히 알려 투명한 평가 체계를 강화하겠다는 목표다.

19일 업계에 따르면 AISI는 지난 15일 공식 홈페이지를 통해 올해 상반기 싱가포르 AISI와 공동 수행한 'AI 에이전트 데이터 유출 위험 공동 테스트 세부 결과 보고서'를 공개했다. 해당 보고서에는 AI 에이전트가 정상적인 지시를 수행하는 과정에서도 판단 착오로 인해 민감 정보를 부적절하게 조회, 전달, 공개하는 치명적 오류를 범할 수 있다는 실태가 구체적으로 담겼다.

한-싱 공동 보고서 첫 공개…목록 넘어 세부 수치·결과까지

대상이 된 글로벌 모델명은 A·B·C 등으로 익명 처리됐지만 정량적 평가에서는 에이전트의 업무 수행 능력이 우수하더라도 안전한 데이터 처리 능력이 이를 담보하지 못하는 '인지-행동 불일치' 사례가 다수 확인됐다. 실제 도구를 실행하지 않고도 임무를 완료했다고 주장하는 '허위 보고' 환각 현상 등 에이전틱 AI 특유의 위험 요인들도 입증됐다.

대한민국 AISI 테스팅 환경에서의 주요 실험 결과 (사진=한-싱 AISI 공동 보고서 갈무리)

AISI가 이처럼 세부 수치와 제언까지 담은 보고서를 발표한 건 사실상 처음이다. AISI는 그동안 AI 모델 안전성 평가 내역을 제한적으로 공개한 탓에 개별 모델의 실명 평가 결과는 물론 내용도 확인하기 어려웠다. AISI가 지난달 공개한 'AI 모델 42종 안전성 평가 수행 실적'은 2025년 1월부터 2026년 4월까지 약 16개월간 검증한 국내외 주요 모델 42종을 대상으로 했는데, 구체적인 데이터 없이 모델명과 평가 항목 위주의 목록만 공개됐다.

AISI가 한국정보통신기술협회(TTA)와 함께 국내 첫 AI 안전성 평가 사례로 발표한 카카오의 '카나나'를 제외하면 대다수 모델의 안전성 등급이나 상세 지표는 알려진 바 없다. AISI의 활동 실적과 역할을 둘러싼 의문이 일각에서 제기된 것도 연구소의 본질인 안전성 평가 결과 공개에 신중했던 탓이 크다. 다만 업계에서는 글로벌 빅테크 모델과 과학기술정보통신부 주도 '독자 AI 파운데이션 모델(독파모)' 개발 프로젝트 등 국내 모델 간 수준 차이가 드러나는 데 따른 부담이 컸을 것으로 분석한다.

김명주 AISI 소장은 "앞으로 진행되는 안전성 평가는 대상 기업이 거부하지 않는 이상 가급적 모든 내용을 공개할 계획"이라면서도 "기업 요청 등에 따라 일부 모델명은 익명 처리될 수 있다"고 말했다.

구글·오픈AI·앤트로픽과 'AI 안전 동맹'…한국형 평가 체계 주도

AISI는 과기정통부 산하 한국전자통신연구원(ETRI) 부설 조직으로서 대한민국을 대표해 세계 각국 AI안전연구소나 관련 기관과의 협력을 전담해 왔다. 전 세계 3대 AI 개발사로 꼽히는 구글 딥마인드, 오픈AI, 앤트로픽과 최근 맺은 연쇄적인 파트너십은 글로벌 AI 안전 네트워크 구축의 핵심 동력이 될 전망이다.

과학기술정보통신부는 17일 한국전자통신연구원 서울사무소에서 인공지능안전연구소와 오픈AI 간 고위험 분야 AI 안전 협력 강화를 위한 업무협약을 체결했다. 사진 왼쪽부터 오픈AI 이상현 아시아태평양 지역 정책 총괄-AI안전연구소 김명주 소장 (사진=과학기술정보통신부)

구글 딥마인드와는 지난 4월 과기정통부가 체결한 업무협약(MOU)을 토대로 안전 프레임워크 구축과 테스트 방법론 논의를 이어간다. 오픈AI와는 지난 17일 AISI가 직접 MOU를 맺고 고위험 분야별 안전성 평가 방법론과 벤치마크 지식을 공유하기로 했다. 특히 AISI가 자체 구축한 한국어 벤치마크 데이터를 적용해 한국적 시각의 할루시네이션·안전성 평가를 공동 수행하고 국제 표준 마련에도 협력할 예정이다.

관련기사

앤트로픽과는 지난 18일 과기정통부와 맺은 MOU와 연계해 자율형 AI 에이전트에 대한 레드팀 평가와 한국어 맥락의 모델 안전성·오남용 위험 평가를 추진한다. 금융을 비롯한 주요 분야의 AI 취약점 발굴과 사이버 위협 정보를 신속히 공유하는 등 사이버 보안 분야에서도 실질적 협력에 나선다.

김 소장은 "구글 딥마인드, 오픈AI, 앤트로픽 등 글로벌 빅테크의 협업 토대를 지속적으로 넓혀 최첨단 모델의 위험을 과학적으로 검증하고 국제적으로 통용되는 한국형 평가 체계를 주도하겠다"고 강조했다.