"AI가 AI를 학습하면 답변 오류 커진다" 네이처 논문 발표

AI에서 생성한 콘텐츠 데이터로 훈련 시 LLM 성능 저하되는 현상 논문 발표 돼

컴퓨팅입력 :2024/08/06 15:57

인공지능(AI)이 만들어낸 데이터를 AI가 학습하면 결국 AI가 제대로 된 답변을 내놓지 못한다는 연구 결과가 발표됐다.

6일 블룸버그 등 외신에 따르면 지난 7월 AI 연구자들은 영국 과학 학술지 '네이처'에 '재귀적으로 생성된 데이터 사용·교육 시 발생하는 AI 모델 붕괴'라는 제목의 논문을 발표했다.

논문은 대규모 언어모델(LLM) 개발은 매우 복잡하고 대량의 학습데이터가 필요하다며 향후 학습되는 데이터들은 필연적으로 이전 LLM 모델에서 생성한 데이터도 학습한다고 설명했다.

이전 버전의 모델에서 생성된 데이터로 훈련된 인공 지능 모델에서 생성된 점점 더 왜곡된 이미지 (사진=네이처)

문제는 AI가 내놓는 답변의 정확도다. AI가 내놓는 답변 중에선 현실과 동떨어진 답변 오류들이 섞여 있는데 이 오류들을 AI가 반복적으로 습득하며 오류가 증폭되는 것이다. 연구자들은 논문을 통해 "인간이 도출한 훈련 데이터가 고갈되고 AI가 생성한 텍스트가 인터넷에 더 많이 퍼지며 LLM 개발 및 연구가 망가질 수 있다"고 우려했다.

연구진들은 이를 '모델 붕괴' 현상이라고 칭하며 향후 보편적 문제로 발전할 수 있다고 언급했다. 이어 그들은 "웹에서 스크래핑한 대규모 데이터로 훈련하는 이점을 유지하려면 모델 붕괴를 심각하게 받아들여야 한다"고 기술했다.

큐레이션 되지 않은 데이터를 사용하는 모든 언어모델과 간단한 이미지 생성기 등의 AI의 모델 붕괴 현상이 영향을 크게 미칠 것이라는 것이 연구진들의 전망이다.

새 버전의 챗GPT는 다른 지시 없이 ”내 딸의 생일 카드를 만들어 달라”는 요청을 받았을 때 이전 채팅에서 보관하고 있던 정보로 이 카드 이미지를 생성했다. 그러나 완성된 이미지에선 미묘한 실수가 발견됐다. (사진=오픈AI)

외신들은 향후 메타, 구글, 안트로픽 등 기술회사들이 만드는 생성형AI 데이터에도 차질이 있을 수 있다고 보도했다. AI가 생성한 글과 이미지가 웹과 온라인 데이터에 스며들 수밖에 없으며 법적·윤리적·개인정보 보호 관련 등이 모델 붕괴 현상으로 일어날 수 있다는 것이 외신들의 설명이다.

관련기사

연구자들은 아직 모델 붕괴에 대한 마땅한 해결책은 없다고 인정했다. 이론적으로는 AI 콘텐츠로 오염되지 않은 순수한 훈련 데이터를 보존하는 것이 해답이나 AI가 생성한 콘텐츠를 대규모로 추적할 쉬운 방법이 없다는 것이 연구진들이 밝혀낸 연구 결과였다.

영국 케임브리지 대학교 자카르 슈마일로프 교수는 "우리는 훈련 데이터에 무엇이 들어가는지 매우 조심할 필요가 있다"며 "AI가 무차별적인 데이터 학습 시 모든 것이 항상 오류를 증명할 수 있을 정도로 잘못될 것"이라고 말했다.