생성형 AI 악성댓글 "꼼짝마"...98.5% 탐지 기술 개발

국가보안연구소-KAIST, 댓글 작성된 LLM 모델도 84.3%까지 식별 가능

과학입력 :2025/06/23 20:00

생성형 인공지능(AI)을 악용한 '가짜 댓글'을 98.5%의 정확도로 찾아내는 기술이 개발됐다. 이 같은 AI 댓글을 작성한 거대언어모델(LLM)까지 파악할 수 있어 악성 댓글꾼에 경종을 울릴 전망이다.

국가보안연구소(국보연)와 KAIST 전기및전자공학부 김용대 교수 연구팀은 한국어 AI 생성 댓글을 탐지하는 플랫폼 '엑스댁(XDAC)'을 세계 최초로 개발했다고 23일 밝혔다.

그동안 생성형 AI 기술을 악용한 온라인 여론 조작 때문에 사회적으로 우려가 많았다. AI 생성글 탐지 기술이 공개되긴 했지만, 대부분 영어로 된 장문의 정형화된 글을 기반으로 만들어져 짧고(평균 51자), 구어체 표현이 많은 한국어 뉴스 댓글에 적용하기에는 한계가 있었다.

댓글 탐지 기술을 개발한 연구진. 왼쪽부터 KAIST김용대 교수. 국보연 고우영 선임연구원, 성균관대 김형식 교수, KAIST 오혜연 교수.

특히, 생성형 AI는 최근들어 뉴스 기사 맥락에 맞춰 감정과 논조까지 조절하는데다 몇 시간 만에 수십만 개의 댓글을 자동 생성하는 수준에 이르러, 여론 조작 등 사회적인 우려가 컸다.

오픈AI로 뉴스 플랫폼 댓글 20만개 만드는데 20만 원

실제 오픈AI GPT-4o API를 기준으로 댓글 1개 생성 비용은 약 1원이다. 국내 주요 뉴스 플랫폼 하루 평균 댓글 수인 20만 개를 생성하는 데 단 20만 원이면 가능하다.

국보연 고우영 연구원은 "공개 LLM은 자체 GPU 인프라만 갖추면 사실상 무상으로도 대량의 댓글 생성을 수행할 수 있다"고 설명했다.

연구팀은 우선 AI 생성 댓글과 사람이 작성한 댓글을 사람이 구별할 수 있는지 실험했다. 총 210개 댓글을 평가한 결과, AI 생성 댓글의 67%를 사람이 작성한 것으로 착각했다. 실제 사람 작성 댓글도 73%만 정확히 구분해냈다.

고 연구원은 "사람조차 AI 생성 댓글을 정확히 구별하기 어려운 수준에 이르렀다"며 "AI 생성 댓글은 사람 작성 댓글과 비교해 오히려 기사 맥락 관련성(95% vs 87%), 문장 유창성(71% vs 45%), 편향성 인식(33% vs 50%)에서 되레 더 좋은 평가를 받았다"고 부연 설명했다.

생성형AI 댓글 작성 프레임 워크 구성도.(그림=KAIST)

또한, 기존 AI 생성글 탐지 기술은 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발돼 한국어의 짧은 댓글에는 적용이 어려운 단점이 있다.

짧은 댓글은 통계적 특징이 불충분하고, 이모지·비속어·반복 문자 등 비정형 구어 표현이 많아 기존 탐지 모델이 효과적으로 작동하지 않는다.

또한, 현실적인 한국어 AI 생성 댓글 데이터셋이 부족하고, 기존의 단순한 프롬프팅 방식으로는 다양하고 실제적인 댓글을 생성하는 데 한계가 있다고 연구팀은 지적했다.

한국어 AI 생성 댓글 데이터셋 구축...일부 공개도

연구팀은 이에 ▲14종의 다양한 LLM 활용 ▲자연스러움 강화 ▲세밀한 감정 제어 ▲참조자료를 통한 증강 생성의 네 가지 전략을 적용한 AI 댓글 생성 프레임워크 '엑스댁'을 개발했다.

연구팀은 이용자 스타일을 모방한 한국어 AI 생성 댓글 데이터셋을 구축하고 이 중 일부를 벤치마크 데이터셋으로 공개했다. 또 설명 가능한 AI(XAI) 기법을 적용해 언어 표현을 정밀 분석한 결과, AI 생성 댓글에는 사람과 다른 고유한 말투 패턴이 있음을 확인했다.

KAIST와 국보연 연구진이 개발한 '엑스댁(XDAC)' 데모. 탐지 및 식별 시연 예시.

예를 들어, AI는 "것 같다", "에 대해" 등 형식적 표현과 높은 접속어 사용률을 보인 반면, 사람은 반복 문자(ㅋㅋㅋㅋ), 감정 표현, 줄바꿈, 특수기호 등 자유로운 구어체 표현을 즐겨 사용했다.

특수문자 사용에서도 AI는 전 세계적으로 통용되는 표준화된 이모지를 주로 사용하는 반면, 사람은 한국어 자음(ㅋ, ㅠ, ㅜ 등)이나 특수 기호(ㆍ, ♡, ★, • 등) 등 문화적 특수성이 담긴 다양한 문자를 활용했다.

특히, 서식 문자(줄바꿈, 여러 칸 띄어쓰기 등) 사용에서 사람 작성 댓글의 26%는 이런 서식 문자를 포함했지만, AI 생성 댓글은 단 1%만 사용했다. 반복 문자(예: ㅋㅋㅋㅋ, ㅎㅎㅎㅎ 등) 사용 비율도 사람 작성 댓글이 52%로, AI 생성 댓글(12%)보다 훨씬 높았다.

고우영 선임연구원은 "이번에 개발한 '엑스댁'은 이같은 차이를 정교하게 반영해 탐지 성능을 높였다"며 "줄바꿈, 공백 등 서식 문자를 변환하고, 반복 문자 패턴을 기계가 이해할 수 있도록 변환하는 방식이 적용됐다"고 말했다.

LLM 고유 말투 특징 파악 댓글 단 AI모델 식별도 가능

고 선임은 또 "14개의 각 LLM 고유 말투 특징을 파악해 어떤 AI 모델이 댓글을 생성했는지도 식별 가능하게 설계됐다"고 덧붙였다.

연구팀은 이같은 설계 덕분에 AI 생성 댓글 탐지에서는 98.5% 정확도로 기존 연구 대비 68% 성능이 향상됐다. 댓글 생성 LLM 식별에서는 84.3% 성능을 기록했다.

고우영 선임연구원은 "생성형 AI가 작성한 짧은 댓글을 높은 정확도로 탐지하고, 생성 모델까지 식별할 수 있는 세계 최초 기술"이라며 "AI 기반 여론 조작 대응의 기술적 기반을 마련한 데 큰 의의가 있다"고 강조했다.

연구팀은 '엑스댁' 탐지 기술이 단순 판별을 넘어 심리적 억제 장치로도 작용할 수 있다고 부연 설명했다. 음주단속, 마약 검사, CCTV 설치 등이 범죄 억제 효과를 나타내듯, 정밀 탐지 기술의 존재 자체가 AI 악용 시도를 줄일 수 있을 것으로 기대했다.

'엑스댁'은 플랫폼 사업자가 의심스러운 계정이나 조직적 여론 조작 시도를 정밀 감시·대응하는 데 활용 가능하다. 향후 실시간 감시 시스템이나 자동 대응 알고리즘으로 확장 가능성도 크다.

관련기사

연구결과는 인공지능 자연어처리 분야 국제 학술대회인 'ACL 2025' 메인 콘퍼런스(7월27)에 채택돼 공개될 예정이다.

연구는 KAIST 김용대 교수(교신저자)와 국가보안연구소 고우영 선임연구원(KAIST 박사과정, 제1저자), 성균관대학교 김형식 교수(제2저자), KAIST 오혜연 교수(제3저자)가 참여했다.