챗GPT가 쓴 글 어떻게 걸러내나...탐지 개발 활성화

美 산·학계, AI 글 탐지 기술 활발

컴퓨팅입력 :2023/01/30 15:47    수정: 2023/01/30 16:44

챗GPT로 쓴 글을 탐지하는 기술이 속속 등장하고 있다.

챗GPT 등장 이후 학계는 시험·논문에 인공지능(AI) 챗봇을 이용한 표절 등 부정행위 심각성을 표명했다. 

최근 미국 산업계와 학계는 문제 해결을 위해 챗GPT 글 탐지 솔루션·연구를 본격화했다. AI가 쓴 글을 탐지하는 애플리케이션부터 연구 논문까지 활발하다. 

GPT제로 앱 새 기능 (사진=GPT제로 캡처)

미국 프린스턴대 애드워드 티안 학생은 이달 초 'GPT제로' 앱을 웹사이트에 공개했다. 사이트 방문자 수는 출시 1주일 만에 3만명을 기록했다.

GPT제로는 에세이가 AI에 의해 작성됐는지 측정할 수 있다. 이 앱은 글 안에 있는 특정 문장, 단어, 문맥 빈도 수치를 자동으로 계산한다. 이를 챗GPT 언어 데이터와 비교한다.

애드워드 티안은 "수치가 챗GPT 언어 데이터셋과 유사할수록 표절 확률이 높다"고 설명했다. 탐지 정확도는 98%다.

GPT제로 업그레이드 버전은 'AI에 작성된 글'일 확률이 높은 문장을 선별해 보여준다. (사진=티안 트위터 캡처)

티안은 GPT제로 업그레이드 버전을 공식 홈페이지에 30일 출시했다. 새로운 버전은 'AI에 의해 작성된 글'을 우선순위로 선별해 보여준다. 티안은 "학계가 가장 걱정하는 표절을 빈틈없이 잡을 수 있을 것으로 보인다"고 밝혔다.

사용자는 텍스트를 파일 형태로 만들어 웹사이트에 업로드하면 표절률을 검사할 수 있다. 이번 버전은 PDF나 독스 파일 등을 인식한다. 기존에는 사용자가 직접 텍스트를 직접 복사해야 했다. 

오리지널리티.AI 기능 소개 (사진=오리지널리티.AI 홈페이지 캡처)

AI 글 선별기술을 상업화한 스타트업도 있다. 오리지널리티AI는 GPT로 쓴 텍스트를 탐지하는 서비스를 공급하고 있다. 이는 챗GPT에 탑재된 GPT-3.5 버전을 비롯해 GPT-3, GPT-2로 만든 글을 거른다. 탐지율은 94% 이상이다.

이용법은 간단하다. 사용자는 측정하고자 하는 사이트 URL이나 문장을 입력하면 된다. AI는 화면에 있는 글을 인식해 표절 점수를 0점부터 100점까지 매긴다. 표절 가능성은 100점에 가까울 수록 높다.

오리지널리티AI는 현재 해당 서비스를 유료로 제공한다. 가격은 20달러(약 2만4천500원)다. 사용자는 20달러로 표절률을 2천번 측정할 수 있다.

왼쪽 곡선은 형태가 일정하다. AI에 의해 작성된 글일 확률이 높다는 의미다. 반대로 오른쪽 곡선은 형태가 일정하지 않다. 사람이 쓴 글일 확률이 높다는 뜻이다. (사진=디텍트GPT 논문 캡처)

학계에서도 AI로 인한 표절을 탐지하는 연구가 한창이다. 미국 스탠포드대학은 GPT-3로 만든 텍스트를 잡아내는 모델 '디텍트GPT'를 최근 소개했다.

작동 원리는 간단하다. 사용자가 측정하고자 하는 문장을 모델에 입력한다. 해당 모델은 문장 속 단어를 변형해 여러 문장으로 바꾼다. 그후 원본과 변형본을 비교 분석한 그래프를 제공한다. 

관련기사

연구진은 "곡선 형태가 일정하지 않으면 사람이 쓴 문장이고, 곡선 형태가 일정하면 AI가 작성한 글로 보면 된다"고 설명했다. 

AI 전문가들은 디텍트GPT를 일반 솔루션보다 더 효과적인 기술로 평가했다. 네이버클라우드 하정우 AI랩 소장은 "디텍트GPT를 시작으로 AI 글을 선별하는 연구가 많이 나올 것 같다"고 페이스북 게시글을 통해 전했다.