챗GPT가 쓴 글, 사람 글과 어떤 점이 다를까

컴퓨팅입력 :2025/02/15 08:02    수정: 2025/02/15 12:27

AI 생성 문장, 인간과 얼마나 비슷할까?

호주 재무부에서 진행한 코파일럿 실험 보고서에 따르면, 코파일럿(Copilot) 같은 대형 언어 모델이 생성하는 문장은 표면적으로는 자연스럽게 보이지만, 통계적으로 분석했을 때 인간이 작성한 문장과는 뚜렷한 차이가 존재하는 것으로 나타났다. 연구진은 수만 개의 실제 데이터와 AI가 만든 텍스트를 비교 분석하여 AI 문장의 구조적, 통계적 차이를 규명했다. (☞ 보고서 바로가기)

AI의 업무 지원 기대치 50%, 실제 영향은 더 높아

연구에서는 AI의 실질적인 활용 가능성을 평가하기 위해, 사용자가 AI가 지원할 것으로 기대한 작업량과 실제 지원된 작업량을 비교하였다. 실험 결과, AI가 지원할 수 있다고 예상한 업무량과 실제로 지원한 업무량 간에는 큰 차이가 존재했다. 연구 참여자들의 사전 기대치는 "대부분의 업무(50% 이상)를 지원할 것"이라고 답한 비율이 19%에 불과했으나, 실험 후 AI가 실질적으로 지원했다고 느낀 업무량은 더 높았다.

AI가 실제 업무 프로세스에 미친 영향을 분석한 결과에서도 유사한 경향이 나타났다. 관리자와 실험 참가자의 평가를 비교한 결과, 관리자의 59%가 코파일럿이 업무에 아무런 영향을 미치지 않았다고 답한 반면, 실험 참가자의 56%는 긍정적인 영향을 주었다고 응답했다. Copilot이 매우 긍정적인 영향을 주었다고 답한 비율은 관리자 2%보다 실험 참가자가 7%로 더 높았다. 반면, 부정적인 영향을 주었다고 답한 비율은 매우 낮아, AI가 업무에 미치는 부정적 요소는 크지 않은 것으로 나타났다.

AI 문장 변형 반복할수록 인간의 글쓰기와 더 차이나

연구진은 AI가 문장을 변형할 때 발생하는 차이를 확인하기 위해 두 가지 실험을 진행했다. 첫 번째 실험에서는 원본 문장(O)과 AI가 이를 변형한 버전(G) 간의 차이를 측정했다. 두 번째 실험에서는 AI가 이미 한 번 변형한 문장(G)을 다시 변형한 버전(S)과의 차이를 비교했다. 실험 결과, AI가 문장을 변형하는 과정에서 원본과의 거리가 점점 더 벌어지는 경향이 나타났다.

AI의 온도 매개변수

설정 높을수록 창의적, 감성적 표현 증가

연구진은 코파일럿 생성하는 문장의 특성을 파악하기 위해 '온도(Temperature)' 매개변수를 조절하며 동일한 문장을 생성하는 실험을 진행했다. 생성형 AI에서 '온도(Temperature)' 매개변수는 모델이 응답을 생성할 때 무작위성의 정도를 조절하는 역할을 의미한다. 온도 값이 낮을수록 원본 문장과 유사한 표현을 유지했고, 온도 값이 높을수록 보다 창의적이고 감성적인 표현이 포함되었다. 예를 들어, 원본 호텔 리뷰가 "기본적이고, 깨끗하고 편안한 호텔이다. 단기 숙박으로는 나쁘지 않다. 모든 것과의 접근성이 좋다"였다면, AI는 온도 값에 따라 다음과 같이 문장을 변형했다.

낮은 온도 설정에서는 "저렴하면서도 깨끗하고 아늑한 숙소를 제공하는 호텔이다. 빠른 숙박에 적합하다. 편리한 위치 덕분에 모든 편의시설에 쉽게 접근할 수 있다"와 같이 원본에 가까운 표현을 생성했다. 반면 온도가 높을 경우 "이 부티크 호텔은 기대 이상이었다. 객실은 아늑했고 직원들도 친절했다. 도시를 둘러보기에 완벽한 위치였다. 짧은 여행을 위한 훌륭한 선택이다"와 같이 원본과 상당히 다른 문장을 생성하는 경향을 보였다.

AI, 긴 문장 생성시 한계 뚜렷… 문맥 파악하는 데 부자연스러워

연구진은 AI가 인간과 동일한 방식으로 글을 쓰지 못하는 주요 이유로 문맥을 장기적으로 유지하는 능력 부족을 꼽았다. 인간의 글은 문맥적 흐름을 기반으로 한 논리적 전개가 강한 반면, AI는 주어진 문장 내에서만 최적의 표현을 찾는 데 집중하기 때문이다. 이는 특히 긴 텍스트를 생성할 때 명확하게 드러나며, AI가 장기적 문맥을 유지하는 데 한계를 보인다는 점을 보여준다.

연구 결과에 따르면, AI가 문장을 생성할 때 문맥적 연결성을 충분히 반영하지 못하는 경우가 많았다. 예를 들어, 동일한 글에서 앞뒤 문장이 자연스럽게 이어져야 하지만, AI가 생성한 문장은 일부 문맥이 단절되거나, 동일한 내용을 반복하는 경향이 나타났다.

인간처럼 쓰지 못하는 AI, 문장 재구성할수록 원본과 멀어지는 구조가 원인

연구진은 AI가 생성하는 텍스트의 가장 큰 한계 중 하나로 통계적으로 인간과의 차이를 좁히기 어려운 구조적 문제를 지적했다. 연구에서는 원본 문장(O)과 AI가 이를 변형한 문장(G), 그리고 AI가 다시 변형한 문장(S) 간의 유사성을 측정했으며, AI가 한 번 변형한 문장과 원본 간의 차이가 두 번째 변형된 문장과의 차이보다 더 작다는 점을 발견했다. 이는 AI가 문장을 반복적으로 재구성할수록 원본과 더욱 멀어지는 경향이 있음을 시사한다.

연구진은 이를 통계적으로 분석하기 위해 호텔링의 T-제곱 검정, Nploc 검정, 에너지 검정, 볼 검정 등 네 가지 통계 기법을 활용했다. 또한 텍스트 간의 통계적 유사도를 평가하기 위해 쿨백-라이블러 발산(KL divergence)과 바서스타인 거리(Wasserstein distance)를 측정했다. 이러한 분석을 통해 AI가 생성한 문장이 인간이 쓴 문장과 점점 더 차이가 나게 되는 경향이 있음을 입증했다.

AI 글쓰기의 한계와 향후 발전 방향은 모두 문맥 유지 능력

관련기사

이번 연구는 AI가 생성하는 텍스트의 신뢰성을 평가하는 데 중요한 시사점을 제공한다. AI가 생성한 문장은 표면적으로 자연스럽게 보일 수 있지만, 인간이 작성한 글과는 근본적으로 다른 방식으로 생성된다는 점이 통계적으로 입증되었다. AI가 인간처럼 문장을 구조화하고 문맥을 유지하는 능력이 아직 완전하지 않다는 점에서, 향후 발전 방향으로는 문맥 유지 능력을 강화하는 연구가 필요할 것으로 보인다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)