[김미정의 SW키트]① AI에게 줄 데이터가 부족하다…합성데이터 대안 될까?

AI 편향성 극복·희귀데이터 수집에 도움 VS 오류 재확산·모델 기능 악화

컴퓨팅입력 :2024/08/15 11:00    수정: 2024/08/29 16:19

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI), 보안, 클라우드 관련 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주]

생성형 인공지능(AI) 모델 발전에 필요한 데이터가 곧 고갈될 것이란 전망이 나오고 있다. 데이터가 AI 엔진 역할을 하는 만큼 데이터 고갈이 현실화하면 AI 모델 훈련을 추가로 진행할 수 없기 때문이다.

현재 이를 대체할 방안이 잇따라 나오고 있다. 전문가들은 AI로 만든 합성데이터를 모델에 훈련하자는 대안을 제시하고 있다. AI 모델에서 나온 결과물을 다시 모델에 넣어 학습 데이터로 재활용하는 식이다. 

생성형 인공지능(AI) 모델 발전에 필요한 데이터가 곧 고갈될 것이란 전망이 나오고 있다. (사진=오픈AI 달리3)

이를 조심스럽게 바라보는 이들도 있다. 만약 오류를 가진 합성데이터를 모델에 넣을 경우 AI 모델에 환각현상이 심해질 뿐 아니라 결국 모델 품질까지 떨어뜨린다는 주장도 나왔다.

"합성데이터, AI 편향성 극복·희귀 데이터 수집 도와"

업계에서는 AI로 생성한 합성데이터가 모델 성능 향상에 유용할 것이라 입을 모았다. AI 알고리즘 편향성 감소와 희귀 데이터 수집 기회를 잡을 수 있다는 이유에서다. 

업계에서는 AI로 생성한 합성데이터가 모델 성능 향상에 유용할 것이라 입을 모았다. (사진=이미지투데이)

15일 업계에 따르면 AI로 합성데이터를 만들어 고객사에 납품하는 개발사는 점차 늘어나는 분위기다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 

김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어려운 희귀하거나 극단적인 케이스가 포함된 데이터를 AI 합성을 통해 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략되기 때문에 데이터 취득비용을 줄이고 신속한 학습을 할 수 있다"고 강조했다.

김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 수 있다고 주장했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 설명했다.

업스테이지 측은 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 덧붙였다. 

"오류 확증·재확산…연합학습법 등 다른 대안 필요"

합성데이터를 모델에 재사용하면 품질 저하를 일으킨다는 지적도 나왔다. 합성데이터에 오류가 있으면 모델이 환각현상 등 문제를 더 만들 수 있다. 

합성데이터를 모델에 재사용하면 품질 저하를 일으킨다는 지적도 나왔다. (사진=이미지투데이)

최근 영국 옥스퍼드대에서도 논문을 통해 합성데이터 위험성을 경고했다. 연구진은 모델 개발·학습 과정에 합성데이터가 들어갈수록 모델 결함이 높아진다는 이론을 제시했다. 기존 오류와 새로운 환각 현상이 지속적으로 쌓이면서 결국 모델 붕괴 현상이 일어날 수 있다는 내용이다. 

연구 책임자인 옥스퍼드대 일리아 슈마일로프 컴퓨터과학부 강사는 "현재 AI로 만든 합성데이터는 여러 면에서 약점을 지녔다"며 "이런 위험성을 객관적 수치로 알리는 것이 현대 과학자 의무"라고 강조했다. 

국내 업계와 학계서도 합성데이터 활용에 조심스러운 입장이다.

네이버클라우드 하정우 AI혁신센터장은 "사람이 만든 데이터로만 모델을 학습시키면 편향이 발생한다"며 "이처럼 합성데이터를 모델에 과도하게 넣으면 모델 품질 하락 가능성도 있다"고 지적했다.

김동환 포티투마루 대표는 "합성데이터를 모델에 넣는 과정에서 오류가 발생할 수밖에 없고, 오류를 학습한 모델이 다시 합성데이터를 만들면서 결국 오류 전파(Error Propagation)를 보일 것"이라고 주장했다. 이어 "결국 생성물 자체가 현실과 괴리를 일으킬 것"이라며 "환각현상은 더 심해질 수 있다"고 내다봤다.

오류를 학습한 모델이 다시 합성데이터를 만들면서 결국 오류 전파를 보인다. (사진=오픈AI 달리3)

김 대표는 향후 데이터로 모델 성능 올리는 것 자체가 현실적으로 한계에 부딪혔다고 했다. 이에 대한 근거로 친칠라(Chinchilla) 법칙을 언급했다. 모델 파라미터가 2조 개에 이르면, 학습데이터 60조 개가 필요하다는 이론이다. 

김 대표는 "이런 규모는 합성데이터를 통해서도 구성하기 힘들다"며 "이를 감당할 수 있는 그래픽처리장치(GPU) 등 인프라 확보조차 어렵기 때문"이라고 지적했다. 

그는 대책도 제시했다. 김 대표는 "도메인 특화 경량화 모델로 데이터를 분산시키거나 연합학습으로 양질의 내부 데이터를 활용해야 한다"며 "이에 대한 연구가 진행돼야 할 것"이라고 말했다. 

관련기사

연합학습법은 분산된 여러 장치에서 모델을 학습하는 방법론이다. 데이터를 중앙 서버에 직접 옮기는 방식과 다르다. AI 모델 학습을 안전하고 경제적으로 진행할 수 있다고 평가받고 있다.

이에 대해 경희대 이경전 경영대학·빅데이터응용학과 교수는 "합성데이터 활용보단 연합학습 등 다양한 대안을 내놔야 한다"고 주장했다.