인공지능(AI) 모델 훈련에 AI가 만든 데이터를 쓸 수 있는지 기업과 학계의 논쟁이 이어지고 있다. 학습 데이터 고갈과 모델 붕괴라는 현실적인 문제 사이에서 AI 업계 종사자들은 아직 확실한 답을 찾지 못한 모습이다.
14일 테크크런치 등 외신에 따르면 합성 데이터 생성 시장은 오는 2030년까지 23억4천만 달러까지 커질 전망이다.
가트너는 올해 AI와 분석 프로젝트에 사용되는 데이터의 60%가 AI로 생성될 것으로 예측했다. 레딧이 구글, 오픈AI 등 데이터 라이선스를 제공하는 대가로 수억 달러를 버는 등 데이터의 가격이 크게 급등했기 때문이다.
또 일부 연구진은 데이터 스크랩 금지 등으로 인해 오는 2026년부터 2032년 사이에 생성형AI 모델이 학습할 데이터가 고갈될 것으로 예상했다. 앞서 샘 알트먼 오픈AI 대표는 지난 8월 "언젠가 AI는 스스로를 효과적으로 훈련할 수 있을 만큼 합성 데이터를 생산할 수 있을 것"이라고 언급했다.
다만 이에 대한 의견은 여전히 분분하다. 스탠퍼드 대학 통계학과 교수 등은 지난해 훈련 중에 합성 데이터에 지나치게 의존하면 모델의 품질이나 다양성이 점진적으로 감소할 수 있다는 연구 결과를 발표한 바 있다. 또 ▲모델 붕괴 ▲창의성 감소 ▲출력 편향 ▲샘플링 편향 ▲환각 강화 등이 일어날 수 있다고 주장했다.
관련기사
- "AI가 AI를 학습하면 답변 오류 커진다" 네이처 논문 발표2024.08.06
- "AI 데이터로 훈련한 모델, 결국 쓸모 없어질 것"2024.07.27
- [김미정의 SW키트]① AI에게 줄 데이터가 부족하다…합성데이터 대안 될까?2024.08.15
- 최종 테스트 남은 'AI 기상청'…들쑥날쑥 일기예보 잡을까2024.08.04
옥스퍼드 대학 교수진들은 지난 6월 네이처에 합성 데이터를 사용해 생성형AI를 훈련하면 모델 정확도가 크게 떨어져 오류가 발생할 수 있다는 논문을 게재했다.
옥스퍼드 대학 일리아 슈마일로프 교수는 "모델 붕괴는 학습된 생생형AI 모델을 퇴화시키는 과정으로 이렇게 생긴 데이터는 다음 세대의 모델 훈련 과정을 오염시킨다"며 "이렇게 망가진 데이터로 모델이 머신러닝 될 경우 현실을 잘못 인식할 우려가 크다"고 말했다.