안랩 "안전한 AI 활용, API 보안부터 데이터 출처까지 따져야"

"현재 생성형 인공지능(AI) 이용 과정에 많은 보약 취약점이 있다. 데이터 엔지니어를 비롯한 데이터 분석가, 도메인 전문가 모두 나서 API 과정부터 모델에 들어가는 데이터 출처까지 꼼꼼히 따져야 한다."

안랩 최광호 클라우드사업 본부장은 아마존웹서비스(AWS)가 16일부터 17일까지 서울 코엑스 컨벤션센터서 개최한 'AWS 서밋 서울'에서 생성형 AI 시대 보안 전략에 대해 이같이 설명했다.

최 본부장은 안전한 생성형 AI 활용 첫 단추로 API 보안을 꼽았다. API가 생성형 AI 모델이 데이터를 입력받고, 처리하고, 출력하는 모든 과정에 핵심 역할을 하기 때문이다. 데이터를 안전하고 효율적으로 다룰 수 있게 해주는 다리 역할을 한다.

일반적으로 기업이나 개발자는 API를 통해 거대언어모델(LLM)이나 데이터를 활용하고 최종적인 분석 결과값까지 얻을 수 있다. 최 본부장은 "이 과정서 프롬프트 인젝션 취약점을 비롯한 비정상 아웃풋, 민감 정보 유출, 서비스 거부 공격(DoS), 취약점 공격 등이 발생할 수 있다"고 설명했다.

기업이 민감 데이터를 API로 모델에 보낼 때 정보가 외부로 유출될 수 있다는 설명이다. 데이터가 이동하는 과정에서 변조·손상될 수도 있다. 이는 AI 모델이 잘못된 답변이나 비정상적 결과물을 만들 수 있다.

DoS나 취약점 공격 위험도 발생할 수 있다. 악의적 사용자가 API를 과도하게 호출함으로써 서버를 과부하 상태로 만들 수 있다. 이로 인해 DoS 현상이 발생할 수 있다. API 자체 취약점을 노리는 공격자가 있을 수 있다. 모두 API 보안이 튼튼하지 않을 때 발생할 수 있는 일이다.

이에 최광호 본부장은 API에 생길 수 있는 보안 문제를 미리 해결해야 한다고 강조했다. 우선 API를 통해 모델에 들어가는 데이터 안전성이 보장돼야 한다고 했다. 그는 "모든 데이터보다 실제 결과물에 도움 되는 데이터만 LLM에 들어가야 한다"며 "내부적으로 이에 대한 명확한 기준을 설정해야 한다"고 강조했다.

최 본부장은 모델 내 탑재된 검색증강생성(RAG)이 안전한 답을 생성할 수 있는지도 확인해야 한다고 했다. 그는 "AI가 RAG를 통해 답변했을 때 개인정보나 기밀, 민감정보를 포함했는지 확인해야 한다"고 했다. 최광호 본부장은 "모델 내 민감 정보는 비식별화 처리, 개인정보는 삭제돼야 한다"며 "이 과정이 제대로 진행됐다면 답변에 관련 정보가 없을 것"이라고 설명했다.

관련기사

최광호 본부장은 API에 생길 수 있는 보안 문제를 미리 해결해야 한다고 강조했다.

그는 사용자가 외부 소프트웨어(SW)나 라이브러리를 모델에 가져와 활용할 때도 유의해야 한다고 했다. 해당 라이브러리나 SW 출처가 믿을 수 있는지 확인해야 한다는 이유에서다. 최광호 본부장은 "너무 당연한 말이지만 예상보다 이를 지키지 않는 경우가 많다"며 "이는 생성형 AI 안전을 지킬 수 있는 길"이라고 강조했다.

최 본부장은 이는 개발자 노력만으로 이뤄질 수 없는 해결책이라고 당부했다. 그는 "데이터 엔지니어를 비롯한 데이터 분석가, 도메인 전문가까지 모두 나서야 한다"며 "어떤 데이터가 외부로 유출 가능한지, 어떤 데이터를 학습에 활용해야 하는지 등을 논의해야 할 것"이라고 강조했다.