"AI 데이터로 훈련한 모델, 결국 쓸모 없어질 것"

英 옥스퍼드대, 네이처 논문서 경고…하정우 AI센터장 "생성물 독창성 ↓"

컴퓨팅입력 :2024/07/27 16:47

인공지능(AI)이 생성한 데이터로 모델 훈련하는 것이 효율적이지 않다는 연구 결과가 나왔다. AI 모델이 오류와 환각 현상을 반복하다가 결국 품질 낮은 모델로 전락한다는 설명이다.

27일 업계에 따르면 파이낸셜타임스(FT) 등 외신은 최근 사람이 생성한 데이터 대신 AI 합성 데이터로 모델 훈련하는 현상이 위험할 수 있다는 경고를 네이처 논문을 인용해 일제히 보도했다.

최근 오픈AI와 마이크로소프트 등 빅테크는 모델 개발·훈련에 활용할 데이터를 AI에서 찾기 시작했다. AI가 모델을 통해 생성한 데이터를 다시 모델에 넣어 훈련하는 식이다. 사람이 만든 문자나 이미지, 영상, 음성 자료가 점점 고갈돼 생긴 대안이다.

인공지능(AI)이 생성한 데이터로 모델 훈련하는 것이 효율적이지 않다는 연구 결과가 나왔다. (사진=오픈AI 달리3)

대표적 예는 오픈AI의 스트로베리(옛 큐스타)다. 오픈AI는 최근 AI 모델 스트로베리 훈련에 사람이 만든 데이터와 AI 합성데이터를 적용하는 것으로 알려졌다. 미국 디인포메이션은 스트로베리가 이전 AI 모델에서 볼 수 없었던 수학 문제를 해결하는 강점을 보인다고 보도한 바 있다.

이번 네이처 논문은 해당 방식이 AI 모델을 망칠 수 있다고 경고했다. 모델 개발이나 학습 과정에 AI 데이터가 활용될수록, 모델 결함이 높아진다는 설명이다. 기존 오류와 새로운 환각 현상이 지속적으로 쌓이면서 결국 모델 붕괴 현상이 일어날 수 있다는 결과다.

연구 책임자인 영국 옥스퍼드대 일리아 슈마일로프 컴퓨터과학과 연구원은 "현재 AI가 만든 합성 데이터는 여러 면에서 약점을 갖고 있다"며 "과학자는 이런 위험성을 객관적 수치로 알리는 것이 급선무"라고 강조했다.

관련기사

국내 전문가들도 AI 합성 데이터 활용에 대한 우려를 제기한 바 있다. 네이버클라우드 하정우 AI혁신센터장은 지난달 국회의원연구단체 '국회 AI 포럼'이 국회서 개최한 창립총회 및 기념세미나에서 AI 합성 데이터를 AI 모델 훈련에 사용하는 것에 대해 우려를 표한 바 있다.

하 센터장은 "이 방식은 데이터양 자체를 기존보다 획기적으로 늘릴 수는 있을 것"이라며 "빅테크는 이 데이터를 모델 개발·훈련에 활용할 것"이라고 설명했다. 이어 "다만 AI 합성 데이터가 모델 성능을 높일지는 미지수"라며 "결과물 독창성이나 품질이 뛰어날 것이라고 장담할 수 없다"고 덧붙였다.