LG AI연구원 "엑사원 넥서스, 9월 상용화…AI 법적 리스크 관리"

오픈 데이터셋 하위 구조까지 추적…상업 이용·개인정보·지역 제한 등 18개 항목 평가

컴퓨팅입력 :2026/06/23 15:20    수정: 2026/06/23 15:32

"인공지능(AI) 규제가 강화되면서 학습 데이터 법적 리스크 관리가 중요해지고 있습니다. 앞으로 모델 학습 데이터 공개가 의무화되는 만큼 데이터 검증 수요도 커질 것입니다. 이에 발맞춰 우리는 '엑사원 넥서스'로 데이터 법적 안정성을 높이겠습니다."

이화영 LG AI연구원 상무는 23일 서울 강남구 섬유센터빌딩에서 법무법인 율촌과 공동 개최한 'AI 학습데이터의 보이지 않는 법적 리스크'에서 AI 학습 데이터의 법적 리스크 관리를 위한 전략을 공개했다. 

이 상무는 "생성형 AI 모델을 만들 때 학습 데이터 99% 이상은 오픈 데이터셋에서 온다"며 "사람이 직접 제작했거나 라이선스를 확보한 데이터는 현실적으로 1~2% 수준에 그치는 경우가 많다"고 설명했다. 

이화영 LG AI연구원 상무가 '엑사원 넥서스' 특장점을 설명하고 있다.

이 상무는 오픈 데이터셋 안에 또 다른 하위 데이터셋이 여러 단계로 얽혀 있다는 점을 짚었다. 이중 상업적으로 활용해선 안 되는 데이터셋이 포함될 가능성이 높다는 이유에서다. 최상위 라이선스만 보고는 실제 사용 가능 여부를 판단하기 어렵다는 설명이다. 

그는 "상업적 이용이 제한된 데이터나 개인정보 문제가 있는 데이터가 섞일 가능성은 높다"며 "복제·변형·배포 단계마다 법적 리스크가 발생할 수 있다"고 말했다. 

LG AI연구원·법무법인 율촌 공동 개발한 '엑사원 넥서스'…주요 기능은

임우형 LG AI연구원장이 환영사를 하고 있다.

LG AI연구원은 법무법인 율촌과 3년 전부터 데이터 법적 문제를 해결하기 위한 협력에 나섰다. 해당 협력으로 AI 학습 데이터 출처와 라이선스를 추적·분석하는 플랫폼 '엑사원 넥서스'를 베타 버전으로 공개했다. 

해당 플랫폼은 오픈 데이터셋의 법적 위험도를 평가해 AI 모델 개발과 도입 과정에서 활용할 수 있도록 설계됐다. 올해 9월 상용화를 앞둔 상태다. 

엑사원 넥서스는 데이터셋에 포함된 하위 데이터셋까지 탐색해 실제 데이터 출처와 라이선스 조건을 확인하는 식으로 작동한다. 단순히 최상위 데이터셋 정보만 보는 것이 아니라 데이터 구조 전체를 추적해 라이선스 오염 여부를 검토하는 것이 특징이다.

해당 플랫폼에는 AI 에이전트 세 개가 적용됐다. 하나는 데이터와 라이선스 문서를 찾고 다른 하나는 상업적 이용 가능 여부와 개인정보 문제, 사용 지역·기간 제한 등 18개 항목을 평가한다. 나머지 에이전트는 분석 결과를 검증하는 역할을 맡는다.

LG AI연구원은 평가 결과를 바탕으로 데이터셋을 A·B·C 등급으로 구분한다. 법적 리스크가 거의 없는 데이터는 A등급으로 분류하고, 분쟁 가능성 있는 데이터는 B등급으로 관리한다. 법적 문제가 발생할 가능성이 큰 데이터는 C등급으로 분류해 학습 과정에서 제외한다.

강석훈 법뭅법인 율촌 대표변호사가 AI 시대 데이터 법적 리스크 관리 중요성을 강조했다.

LG AI연구원은 데이터셋뿐 아니라 AI 모델에도 A·B·C 등급을 부여해 관리하고 있다. 학습 이후에도 법적 분쟁이나 규제 변화가 발생할 수 있는 만큼 모델 리스크를 지속적으로 평가하기 위해서다.

이 상무는 "AI 기업뿐 아니라 AI 도입 기업과 투자사도 해당 플랫폼을 활용할 수 있을 것"이라며 "AI 도입 기업은 모델 학습 데이터 적법성을 검토할 수 있고, 투자사는 투자 대상 기업 법적 리스크를 사전에 점검할 수 있을 것"이라고 기대했다. 

관련기사

임우형 LG AI연구원장은 "AI 경쟁이 성능 중심에서 신뢰성과 책임성 중심으로 확장하면서 학습 데이터 출처와 라이선스 관리는 더 이상 미룰 수 없는 과제가 됐다"며 "잠재적인 리스크들을 어떻게 사전적으로 관리하는 것이 중요해졌다"고 강조했다. 이어 "엑사원 넥서스는 학습 데이터 출처를 끝까지 추적하고 라이센스 준수 여부를 검증한다"며 "기업이 데이터 리스크를 보다 명확하게 관리할 수 있도록 돕는 플랫폼"이라고 덧붙였다. 

강석훈 법무법인 율촌 대표변호사는 "생성형 AI 확산으로 저작권 침해와 데이터 사용 권한, 권리자와 AI 기업 간 분쟁 등 법적 리스크가 커지고 있다"며 "기업은 데이터 출처와 권리 관계, 라이선스 체계, 개발 과정 기록 관리와 내부 통제, 분쟁 대응 체계를 함께 점검해야 한다"고 강조했다.