TTA, LLM 유해성 공격전략 실증분석 보고서 공개

한국정보통신기술협회(TTA)는 홈페이지에 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 공개했다고 밝혔다.

보고서는 2023년 미국 라스베이거스에서 개최된 DEF CON 31 Generative AI Red Teaming(GRT) 챌린지의 공개 데이터를 기반으로, LLM을 대상으로 한 실제 공격 사례를 정량적으로 분석한 결과를 담고 있다.

한양대 연구진과 협력해 수행된 연구는 실제 성공한 공격 데이터를 기반으로 LLM에 대한 주요 취약성과 효과적인 공격 전략을 파악하고자 수행됐다. 프롬프트 유형과 공격 대상 특성 라벨링을 거쳐 체계적으로 분석했다. 이를 통해 AI 무해성 평가와 방어 전략 수립에 실질적인 근거를 제공한다.

보고서의 기반이 된 DEF CON 31 GRT 챌린지는 미국 AI Village와 Humane Intelligence, SeedAI 등이 주관한 세계 최대 공개형 LLM 보안 평가 행사다. 행사에는 앤트로픽, 오픈AI, 메타, 구글 등 주요 AI 개발사들이 참여했고 전 세계 2천500여 명의 참가자들이 상용 LLM을 대상으로 공격을 수행했다.

연구진은 이 중 공격에 성공한 사례 2천673건을 선별해 각각에 대해 ▲공격 타겟(피해 대상), ▲공격 유형(프롬프트 전략)을 별도로 라벨링 했다.

공격 타겟은 성별, 인종, 국적, 직업, 정치성향 등 총 7개 대분류와 28개 하위 분류로 구성되며 공격 유형은 ‘질문’, ‘직접 요청’, ‘상황 가정’, ‘편향 주입’, ‘순차/누적 질의’ 등 총 10개 전략 유형으로 분류했다.

분석 결과 인종, 국적, 성별 등 인구통계학적 속성을 겨냥한 공격이 다수 존재했으며 LLM이 사회적 고정관념을 재현할 수 있음을 시사한다.

또한 ‘질문’, ‘직접 요청’, ‘순차/누적 질의’ 전략은 높은 빈도로 사용되며, 단순한 방식으로도 가드레일 우회가 가능함을 보여주었다. 특히 사회적 피해(Societal Harm) 카테고리에서는 ‘잘못된 정보 주입’을 통해 LLM의 환각을 유도하는 전략이 효과적이었다는 점도 확인됐다.