LG AI연구원 "엑사원 넥서스, 9월 상용화…AI 법적 리스크 관리"

"인공지능(AI) 규제가 강화되면서 학습 데이터 법적 리스크 관리가 중요해지고 있습니다. 앞으로 모델 학습 데이터 공개가 의무화되는 만큼 데이터 검증 수요도 커질 것입니다. 이에 발맞춰 우리는 '엑사원 넥서스'로 데이터 법적 안정성을 높이겠습니다."

이화영 LG AI연구원 상무는 23일 서울 강남구 섬유센터빌딩에서 법무법인 율촌과 공동 개최한 'AI 학습데이터의 보이지 않는 법적 리스크'에서 AI 학습 데이터의 법적 리스크 관리를 위한 전략을 공개했다.

이 상무는 "생성형 AI 모델을 만들 때 학습 데이터 99% 이상은 오픈 데이터셋에서 온다"며 "사람이 직접 제작했거나 라이선스를 확보한 데이터는 현실적으로 1~2% 수준에 그치는 경우가 많다"고 설명했다.

이 상무는 오픈 데이터셋 안에 또 다른 하위 데이터셋이 여러 단계로 얽혀 있다는 점을 짚었다. 이중 상업적으로 활용해선 안 되는 데이터셋이 포함될 가능성이 높다는 이유에서다. 최상위 라이선스만 보고는 실제 사용 가능 여부를 판단하기 어렵다는 설명이다.

그는 "상업적 이용이 제한된 데이터나 개인정보 문제가 있는 데이터가 섞일 가능성은 높다"며 "복제·변형·배포 단계마다 법적 리스크가 발생할 수 있다"고 말했다.

LG AI연구원·법무법인 율촌 공동 개발한 '엑사원 넥서스'…주요 기능은

LG AI연구원은 법무법인 율촌과 3년 전부터 데이터 법적 문제를 해결하기 위한 협력에 나섰다. 해당 협력으로 AI 학습 데이터 출처와 라이선스를 추적·분석하는 플랫폼 '엑사원 넥서스'를 베타 버전으로 공개했다.

해당 플랫폼은 오픈 데이터셋의 법적 위험도를 평가해 AI 모델 개발과 도입 과정에서 활용할 수 있도록 설계됐다. 올해 9월 상용화를 앞둔 상태다.

엑사원 넥서스는 데이터셋에 포함된 하위 데이터셋까지 탐색해 실제 데이터 출처와 라이선스 조건을 확인하는 식으로 작동한다. 단순히 최상위 데이터셋 정보만 보는 것이 아니라 데이터 구조 전체를 추적해 라이선스 오염 여부를 검토하는 것이 특징이다.

해당 플랫폼에는 AI 에이전트 세 개가 적용됐다. 하나는 데이터와 라이선스 문서를 찾고 다른 하나는 상업적 이용 가능 여부와 개인정보 문제, 사용 지역·기간 제한 등 18개 항목을 평가한다. 나머지 에이전트는 분석 결과를 검증하는 역할을 맡는다.

LG AI연구원은 평가 결과를 바탕으로 데이터셋을 A·B·C 등급으로 구분한다. 법적 리스크가 거의 없는 데이터는 A등급으로 분류하고, 분쟁 가능성 있는 데이터는 B등급으로 관리한다. 법적 문제가 발생할 가능성이 큰 데이터는 C등급으로 분류해 학습 과정에서 제외한다.

LG AI연구원은 데이터셋뿐 아니라 AI 모델에도 A·B·C 등급을 부여해 관리하고 있다. 학습 이후에도 법적 분쟁이나 규제 변화가 발생할 수 있는 만큼 모델 리스크를 지속적으로 평가하기 위해서다.

이 상무는 "AI 기업뿐 아니라 AI 도입 기업과 투자사도 해당 플랫폼을 활용할 수 있을 것"이라며 "AI 도입 기업은 모델 학습 데이터 적법성을 검토할 수 있고, 투자사는 투자 대상 기업 법적 리스크를 사전에 점검할 수 있을 것"이라고 기대했다.

관련기사