AI용 공개 데이터 활용 지침 나왔는데…기업 절반도 안 봐

업계 "법적 강제 없어 적용 시간 필요…구체적 방법론·객관적 판단 모호"

컴퓨팅입력 :2024/07/22 16:00    수정: 2024/07/22 16:07

정부가 생성형 인공지능(AI) 모델 훈련 개발을 위한 공공 데이터 활용 지침을 내놨으나 이에 대한 업계 관심이 저조한 것으로 나타났다. 

22일 본지 취재 결과 생성형 AI 서비스를 개발하거나 운영 중인 개발사 다수가 관련 가이드라인을 담은 안내서를 아예 모르거나 확인하지 않은 것으로 전해졌다. 

앞서 개인정보보호위원회는 지난 17일 생성형 AI 개발에 활용할 '인터넷상 공개 데이터'를 안전하게 처리할 수 있는 기준을 내놨다. AI 개발·훈련에 필수적인 공개 데이터가 현행 개인정보 규율체계 내에서 적법하고 안전하게 처리될 수 있도록 만든 가이드라인이다. 개인정보위는 해당 내용을 담은 안내서도 동시에 발간했다. 

정부가 생성형 인공지능(AI) 모델 훈련 개발을 위한 공공 데이터 활용 지침을 내놨으나 이에 대한 업계 관심이 저조한 것으로 나타났다. (사진=이미지투데이)

공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터다. 이 공개 데이터는 오픈AI 챗GPT 등 생성형 AI 서비스 개발을 위한 엔진 역할을 한다. AI 기업들은 커먼크롤를 비롯한 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑 방식으로 수집해 AI 학습데이터로 활용하고 있다.

그동안 AI 업계는 모델이나 서비스 개발에 공공 데이터를 사용할 때 마땅한 기준이 없어 혼선을 빚었다. 정부는 이번 가이드라인이 기업들에게 명확한 공공 데이터 활용법을 제시할 것으로 기대했다.

AI 개발사는 발표 소식을 전혀 모르고 있거나 안내서를 확인하지 않는 경우가 다수였다. 업계 관계자는 "이 기준이 천편일률적인 필수 규제가 아닌 자율성이기 때문"이라며 "정부가 기업에 해당 내용을 지속적으로 알려야 할 것"이라고 본지에 강조했다. 

관련기사

기업이 해당 지침을 실제 업무에 적용하기까지 시간 걸릴 것이라는 분석도 나왔다. 한 AI 스타트업 대표는 "말 그대로 법적 강제성 없는 가이드라인이라 기술적, 관리적 안전조치를 개별 기업·개인이 자율적으로 추진해야 한다"며 "구체적 방법론에 있어서는 여전히 모호함이 존재한다"고 지적했다. 

그는 "특히 가이드라인에서 '정당한 이익' 기준 중 하나인 '구체적 이익형량' 등 객관적 판단이 힘든 영역이 존재"한다며 "다툼 소지가 많을 것으로 예상된다"고 설명했다.