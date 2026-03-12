인공지능(AI) 로봇이 산업 현장이나 가정 등에서 각종 안전 규칙을 준수하며 임무를 수행할 수 있는지를 정밀 검증하는 성능 평가 모델이 개발됐다.

과학기술연합대학원대학교(UST)는 김도형 한국전자통신연구원(ETRI) 스쿨 인공지능 전공 교수 연구팀이 로봇과 같은 피지컬 AI 시스템이 정보 부족이나 물리적 한계 상황에서도 안전하게 임무를 수행하는지 검증하는 AI 로봇 성능 평가 모델(벤치마크) ‘SPOC(안전 중심 지능형 작업 설계 평가 모델)’을 개발했다고 12일 밝혔다.

UST-ETRI 스쿨 김형민 박사과정생(제1저자, 왼쪽)과 김도형 교수.(사진=UST)

연구 성과는 신호처리 및 음성인식 분야 국제학회인 ‘ICASSP 2026’에서 공개됐다. ICASSP는 세계 최대 학술 데이터베이스인 구글의 학술 검색 신호처리 분야에서 독보적 1위를 차지하는 학회다. 애플 시리(Siri), 오픈AI 챗GPT, 구글 어시스턴트 등이 모두 여기서 발표됐다.

연구는 김형민 UST 박사과정생이 제1저자로 참여했다.

연구팀이 개발한 SPOC 모델은 로봇의 최종 목표 달성률뿐만 아니라, 가정 환경에서 발생할 수 있는 5가지 주요 위험 요소(화재, 물 넘침, 물건 파손, 인간 부상 유발, 음식 오염)에 대한 안전 준수 여부를 실시간 동시에 평가하도록 설계했다.

특히, 기존 평가에서는 검증하기 어려웠던 로봇의 ‘현실적 인지 능력(부분 관측성)'과 ‘물리적 제약'을 엄격하게 평가 기준으로 삼았다.

예를 들어, AI 로봇에게 “와인병을 찾아와”라고 명령했을 때, 기존 평가에서는 '문을 열고 찾는다'는 중간 과정을 건너뛰고 바로 목표물로 향하는 오류를 범했지만, SPOC 평가 모델은 이러한 무리한 행동 계획을 실패로 처리한다. 대신 로봇 스스로 ‘눈에 보이지 않으니 찬장 문부터 직접 열어서 찾아야 한다'는 현실적 판단을 내리고 수행하는지 검증한다.

또한, 손에 물건을 든 한 팔 로봇이 다른 서랍을 열어야 할 경우, 반드시 ‘물건을 먼저 내려놓고 빈손으로 문을 열어야 한다’는 판단을 내리는지 깐깐하게 평가한다.

연구팀은 로봇이 작업 수행 과정에서 단 한 번이라도 안전 규칙을 위반하면 즉시 무관용 실패로 처리하는 높은 수준의 안전 검증 기준을 적용했다.

연구팀은 SPOC 모델을 통해 다양한 대형 언어모델(LLM)들을 실험한 결과, 현재 AI 모델들의 안전 인식 능력에 한계가 있음이 여실히 드러났다고 지적했다.

특히 거대한 서버 없이 로봇에 직접 탑재할 수 있어 주목받는 소형 언어모델(SLM)의 경우, 명시적인 안전 지시가 주어져도 안전 준수 성공률이 극히 낮게 나타나 실제 AI 로봇의 안전 인식 능력 보강 연구가 시급하다고 진단했다.

이번에 개발된 SPOC 성능 평가 모델 및 실험 데이터는 전 세계 연구 커뮤니티에 공개, 향후 안전 중심 자율 AI 연구를 위한 공통의 표준 검증 플랫폼으로 활용할 계획이다.

SPOC 벤치마크 실험 환경.(사진=UST)

김형민 박사과정생은 “그동안 AI 로봇의 성능 평가는 임무 달성 여부 확인 중심으로만 이뤄져 왔지만, SPOC 모델은 다양한 환경 속에서 엄격한 물리적 제약과 안전 조건을 준수하며 작업을 수행할 수 있는지 묻는 본격적인 시도”라며, “이번 평가 모델이 향후 실제 현장에 투입 가능한 신뢰도 높은 AI 로봇 연구를 가속하는 데 도움이 될 것"으로 기대했다.

김도형 교수는 “이번 연구 성과는 인간과 공존하는 로봇 시대를 위해 반드시 전제되어야 하는 ‘안전한 피지컬 AI’ 개발에 중요한 참고가 될 것”이라며 “향후 안전 규칙을 스스로 추론하고, 위험 상황에서 사람에게 질문하거나 행동을 수정하는 능력까지 평가할 수 있는 모델로 발전시킬 계획”이라고 말했다.

연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 ‘자율행동체의 복합작업 자율 수행을 위한 임무 수행 절차 생성 기술 개발’사업의 지원을 받았다.