한국정보통신기술협회(TTA)는 홈페이지에 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 공개했다고 밝혔다.
보고서는 2023년 미국 라스베이거스에서 개최된 DEF CON 31 Generative AI Red Teaming(GRT) 챌린지의 공개 데이터를 기반으로, LLM을 대상으로 한 실제 공격 사례를 정량적으로 분석한 결과를 담고 있다.
한양대 연구진과 협력해 수행된 연구는 실제 성공한 공격 데이터를 기반으로 LLM에 대한 주요 취약성과 효과적인 공격 전략을 파악하고자 수행됐다. 프롬프트 유형과 공격 대상 특성 라벨링을 거쳐 체계적으로 분석했다. 이를 통해 AI 무해성 평가와 방어 전략 수립에 실질적인 근거를 제공한다.
보고서의 기반이 된 DEF CON 31 GRT 챌린지는 미국 AI Village와 Humane Intelligence, SeedAI 등이 주관한 세계 최대 공개형 LLM 보안 평가 행사다. 행사에는 앤트로픽, 오픈AI, 메타, 구글 등 주요 AI 개발사들이 참여했고 전 세계 2천500여 명의 참가자들이 상용 LLM을 대상으로 공격을 수행했다.
연구진은 이 중 공격에 성공한 사례 2천673건을 선별해 각각에 대해 ▲공격 타겟(피해 대상), ▲공격 유형(프롬프트 전략)을 별도로 라벨링 했다.
공격 타겟은 성별, 인종, 국적, 직업, 정치성향 등 총 7개 대분류와 28개 하위 분류로 구성되며 공격 유형은 ‘질문’, ‘직접 요청’, ‘상황 가정’, ‘편향 주입’, ‘순차/누적 질의’ 등 총 10개 전략 유형으로 분류했다.
분석 결과 인종, 국적, 성별 등 인구통계학적 속성을 겨냥한 공격이 다수 존재했으며 LLM이 사회적 고정관념을 재현할 수 있음을 시사한다.
또한 ‘질문’, ‘직접 요청’, ‘순차/누적 질의’ 전략은 높은 빈도로 사용되며, 단순한 방식으로도 가드레일 우회가 가능함을 보여주었다. 특히 사회적 피해(Societal Harm) 카테고리에서는 ‘잘못된 정보 주입’을 통해 LLM의 환각을 유도하는 전략이 효과적이었다는 점도 확인됐다.
관련기사
- TTA, 인구문제 인식개선 릴레이 캠페인 참여2025.06.13
- TTA, 민간부문 CCTV 보안 인증서비스 개시2025.06.12
- TTA, 인천TP와 중소벤처 기술경쟁력 강화 업무협약2025.06.12
- TTA, AI 신뢰성 인증 체계 고도화 추진2025.06.11
연구에서 가공된 데이터셋은 허깅페이스 플랫폼을 통해 공개된다. 공개되는 데이터셋은 AI 신뢰성 평가, 공격 탐지 알고리즘 개발, 프롬프트 설계 연구 등에 활용될 수 있으며, 학계와 산업계의 다양한 LLM 방어 전략 수립에 기여할 전망이다.
손승현 TTA 회장은 “이번 보고서는 단순한 공격 탐지 기술을 넘어, AI 시스템이 어떤 사회적 편견과 고정관념을 내재하고 있는지 실증적으로 분석한 연구”라며 “생성형 AI의 가드레일 구축을 위한 실질적인 참고자료로 활용되기를 기대한다”고 말했다.