글로벌 AI 안전 협력, 서울서 현실화…"책임 확장에서 실행으로"

인공지능(AI) 안전을 둘러싼 글로벌 협력이 서울에서 본격화됐다. 세계 주요 연구기관과 기업들은 한자리에 모여 AI의 잠재적 위험을 평가하고 안전성을 강화하기 위한 공동 전략을 논의했다.

한국 AI안전연구소는 29일 호텔 나루 서울 엠갤러리 앰배서더에서 '2025 인공지능 안전 서울 포럼' 행사를 열고 AI 평가, 벤치마킹, 레드티밍(취약성 검증) 세션을 진행했다.

과학기술정보통신부가 주최하고 한국전자통신연구원(ETRI)이 공동 주관한 이번 포럼에는 ML커먼스, METR, 에포크AI, 퓨처오브라이프연구소(FLI), 옥스퍼드대 등 세계 주요 평가기관과 연구진이 참석했다.

김명주 한국 AI안전연구소장(왼쪽), 스케일AI 맥스 뱅커 글로벌 정부협력총괄 (사진=한정호 기자)

특히 이날 포럼에서는 한국 AI안전연구소와 미국 AI 전문기업 스케일AI 간의 업무협약(MOU) 체결식이 진행됐다. 양 기관은 AI 평가, 레드티밍, 안전 연구 고도화를 위한 공동 협력 체계를 구축키로 했다. 이번 협약을 통해 양측은 실험적 안전 테스트를 비롯해 글로벌 평가 표준 수립에도 협력할 계획이다.

포럼 세션 발표에서는 AI 시스템의 실무 평가와 벤치마킹 전략이 논의됐다. ML커먼스의 숀 맥그리거 에이전틱 리드는 "모든 AI 모델들은 안정성을 갖추기 위해 독립적 감사와 공공 검증 절차를 거쳐야 한다"며 "AI 안전 생태계의 인재 부족도 시급히 해결해야 할 과제"라고 강조했다.

이어 METR의 사미 자와르 엔지니어링 총괄은 제3자 위험 평가(3PRA) 이니셔티브를 소개하며 AI 모델이 배포되기 전에 위험 신호를 감지하고 대응할 수 있는 프로세스가 필요하다고 제언했다. 또 AI 개발사뿐만 아니라 평가기관 간의 신뢰 협력도 강화돼야 한다고 주장했다.

이번 포럼에서는 실습 기반의 프론티어 AI 레드티밍 세션도 진행됐다. 참가자들은 최신 대규모 언어모델(LLM)을 대상으로 공격·방어 시나리오를 시뮬레이션하며 모델 취약성을 검증했다. 한국 AI안전연구소와 스케일AI가 공동으로 준비한 이 세션은 국제 협력 기반의 평가 훈련 프로그램으로 주목받았다.

아울러 이날 행사에는 앤트로픽도 참석해 '책임 있는 확장 정책'을 중심으로 한 AI 안전 프레임워크를 공개했다. 앤트로픽 니타르샨 라즈쿠마르 국제정책 리드는 "AI 기술의 잠재력이 커질수록 그만큼 재난적 위험에 대한 대비가 중요하다"며 "우리의 원칙은 적절한 안전 조치 없이 위험한 수준의 AI 모델을 훈련하거나 배포하지 않는 것"이라고 말했다.

앤트로픽은 모델의 역량이 높아질수록 보안과 검증 수준을 단계적으로 강화하는 계층형 안전 관리 체계를 운영 중이다. 이 체계는 생물학 분야의 바이오시큐리티 등급 시스템을 참고해 위험도가 높은 모델일수록 더 엄격한 보호조치를 적용하는 방식이다.